スキップしてメイン コンテンツに移動

OpenOffice3.2はCJK統合漢字拡張には対応せず?

やっぱり、OpenOffice3.2(on ubuntu10.04)では、ユニコードの拡張Bに属する文字は表示できないようだ。[openoffice:6501] UnicodeのSurrogate Pair(Ext-B)対応の件によれば、OpenOfficeがサロゲートペアに対応していないかららしい。

OpenOffice.orgは内部的にUnicodeで処理しているようですし、データ保存時にも
Unicodeで記録していますが、現状ではSurrogate Pairに対応していません。

そのため、Ext-Bの漢字などを入力しても、正しく表示されません。WordやExcel
でExt-Bの漢字入りのドキュメントを作成して、これを読み込んだ時も表示だけは
されますが、Surrogate Pairを正しく処理していないため、通常に編集することが
できません。

もちろん、現状においては、Surrogate Pairへの対応は緊要ではありませんが、
 ・今後、日本国内での標準的文字コードとしてJIS X 0213の定着が見込まれている
・Windows環境などでJIS X 0213に完全対応するためにはアプリケーション側での
 Surrogate Pair対応が必須
 ・既にMac OS XはJIS X 0213完全対応を謳っており、Windowsも次期バージョンでの
  対応が公表されている(Longhorn)
 ・既にWindows XPやMS-IME2003やOffice2003はSurrogate Pairに対応しており、
  JIS X 0213対応フォントさえあれば、Ext-B漢字を含めてすべてのJIS X 0213文字
  を扱える
 ・ATOK17/2005や次期一太郎(2005)もSurrogate Pair対応。来年2月の一太郎2005発
  売時にはJIS X 0213対応フォントの無償公開が予定されている
といった動きがありますので、おそらく2005年~2007年頃にかけてSurrogate Pair
対応が必要となってくるのでは?と思っています。

上記記述は2004年のものだが、2011年をもってしてもいまだ対応していない。このへんの技術的な理由はよく分からない。OpenOfficeの度重なる買収が関係しているかどうか。

ExtensionB、Cの漢字を表示させるフォントには、日本語フリーフォントの花園明朝(→Hanazono fonts)がある。しかしアプリケーション自体が対応していないと、フォントが反映されるわけではないこともまた知られているとおり。Wordや一太郎の高いバージョンならば表示できる。

ユニコードについては、ここのunicodeの記述は勉強になる(→Unicode―文字コード入門―)。2011年6月現在ではUnicode 5.2.0が最新規格だそう。unicode4.0の段階で16bitですべての文字を収録する方針を捨て、まずは文字コードポイントを確保する動きとなったらしい(現在のポイント数は1,112,064)。

現在unicodeで規定されているCJK統合漢字は20,902字。これに漢字拡張集合;ExtensionA,B,Cを加える。
CJK統合漢字20,902字
ExtensionA 6,582字
ExtensionB 42,721字
ExtensionC 4,149字

文字コードの専門家でない限り、ユニコードと言う時には拡張文字を含む場合とそうでない時があるし、そのことは多くの場合暗黙の了解となっているかあるいは気づかずに拡張領域に突入していることもあるかも知れない(入力できちゃった!的な)。

これまで僕はデータ運用の利便性からいわゆる83jisでデータベースを作ってきたけれど、共同作業をするひとたちがWindowsの進化にそのまま乗ってきたために、分担入力されたデータの中にユニコード文字が混入することとなり、ひいてはデータ全体を調整しなければならないこととなった。これまではjis外文字を今昔文字鏡で処理していたが、文字鏡は著作権問題もあるし、入力にも表示にもひと手間かかるために、直接的に入力できるユニコード文字のほうがたしかに利便性が高いだろう。データ全体に混入したユニコード文字を特定し、いちおう備考欄に大漢和辞典番号を入力しておき万一表示されないときへの対応しておく、などの作業をしておく。

漢字関係のデータベースを作る人たちは、みなこのコード問題に悩まされているのだろうと思う。先だっての日本語学会でのシンポジウムもそんな感じだった。どこかで発想の転換をしなければいけないかもしれないな、と思う。実際、いま僕が関わっているデータベースは表記ではなく、漢語の語形に依存するものなので、仮名で表記したって原理的には問題はない。しかし漢語というのは表記を経由して、異なる語形を導き出すことが歴史的にはいくらでもあるので困ったことだ。

これを機会に、これまで逃げていた文字コード問題を少し勉強したりしているが、正直なし崩し的な印象もないではない。素人が首を突っ込むとやけどするという、おそれも。このあたりの問題は、やっぱり文字コードのプロに任せたいところ。

(追記)
拡張Bでも出る文字がある。拡張Aでも出ない文字がある。さっそくやけどしてます。これはどういうことだろう??
(追記2)
結局これは花園フォントがあったとしても、OpenOfficeがExtension(拡張領域)に対応していない、ということですね…別PCに入っているWinのExcelだったら表示できたので。

コメント

このブログの人気の投稿

お尻はいくつか

子どもが友人たちと「お尻はいくつか」という論争を楽しんだらしい。友人たちの意見が「お尻は2つである」、対してうちの子どもは「お尻は1つである」とのこと。前者の根拠は、外見上の特徴が2つに割れていることにある。後者の根拠は、割れているとはいえ根元でつながっていること、すなわち1つのものが部分的に(先端で)2つに割れているだけで、根本的には1つと解釈されることにある。白熱した「お尻はいくつか」論争は、やがて論争参加者の現物を実地に確かめながら、どこまでが1つでどこからが2つかといった方向に展開したものの、ついには決着を見なかったらしい。ぜひその場にいたかったものだと思う。 このかわいらしい(自分で言うな、と)エピソードは、名詞の文法範疇であるところの「数(すう)」(→ 数 (文法) - wikipedia )の問題に直結している。子どもにフォローアップインタビューをしてみると、どうもお尻を集合名詞ととらえている節がある。根元でつながっているということは論争の中の理屈として登場した、(尻だけに)屁理屈であるようで、尻は全体で一つという感覚があるようだ。つながっているかどうかを根拠とするなら、足はどう?と聞いてみると、それは2つに数えるという。目や耳は2つ、鼻は1つ。では唇は?と尋ねると1つだという。このあたりは大人も意見が分かれるところだろう。僕は調音音声学の意識があるので、上唇と下唇を分けて数えたくなるが、セットで1つというのが大方のとらえ方ではないだろうか。両手、両足、両耳は言えるが、両唇とは、音声学や解剖学的な文脈でなければ言わないのが普通ではないかと思う。そう考えれば、お尻を両尻とは言わないわけで、やはり1つととらえるのが日本語のあり方かと考えられる。 もっとも、日本語に限って言えば文法範疇に数は含まれないので、尻が1つであろうと2つであろうと形式上の問題になることはない。単数、複数、双数といった、印欧語族みたいな形式上の区別が日本語にもあれば、この論争には実物を出さずとも決着がついただろうに…。大風呂敷を広げたわりに、こんな結論でごめんなさい。尻すぼみって言いたかっただけです。

あさって、やなさって、しあさって、さーさって

授業で、言語地理学の基礎を取り扱うときに出す、おなじみのLAJこと日本言語地図。毎年、「明日、明後日、の次を何と言うか」を話題にするのだが、今年はリアクションペーパーになんだか色々出てきたのでメモ。これまでの話題の出し方が悪かったのかな。 明後日の次( DSpace: Item 10600/386 )は、ざっくりしたところでは、伝統的には東の国(糸魚川浜名湖ライン以東)は「やのあさって(やなさって)」、西の国は古くは「さーさって」それより新しくは「しあさって」。その次の日( DSpace: Item 10600/387 )は、伝統的には東西どちらもないが、民間語源説によって山形市近辺では「や(八)」の類推で「ここのさって」、西では「し(四)」の類推で「ごあさって」が生まれる、などなど(LAJによる)。概説書のたぐいに出ている解説である。LAJがウェブ上で閲覧できるようになって、資料作りには便利便利。PDF地図は拡大縮小お手の物ー。 *拡大可能なPDFはこちら 日本言語地図285「明明後日(しあさって)」 *拡大可能なPDFはこちら 日本言語地図286「明明明後日(やのあさって)」 さて、関東でかつて受け持っていた非常勤での学生解答は、「あした あさって しあさって (やのあさって)」がデフォルト。やのあさっては、八王子や山梨方面の学生から聞かれ、LAJまんまであるが、ただし「やのあさって」はほとんど解答がない。数年前にビールのCMで「やのあさって」がちらりと聞ける、遊び心的な演出があったが学生は何を言っているのかさっぱりだったよう。これはかつての東国伝統系列「あした あさって やのあさって」に関西から「しあさって」が侵入して「やのあさって」は地位を追い落とされひとつ後ろにずれた、と説明する。「あした あさって やのあさって しあさって」は期待されるが、出会ったことがない。 山形では「あした あさって やなさって (しあさって)」と「あした あさって しあさって (やなさって)」はほとんど均衡する。これには最初驚いた。まだあったんだ(無知ゆえの驚き)!と(ただしLAJから知られる山形市の古い形は「あした あさって やなさって さーさって」)。同じ共同体内で明後日の翌日語形に揺れがある、ということは待ち合わせしても出会えないじゃないか。というのはネタで、実際は「~日」と

登米は「とめ」か「とよま」か

宮城県登米市( 登米市 - Wikipedia )という場所がある。「とめし」と読む。市内には登米町がある。「とよままち」と読む。「登米」に対して、2つの読みがあるのが疑問だったが、先日出張で訪れた際に地元の方にその理由を伺った。結論から言えば、元々地元では「とよま」だったが、余所から来た人たちが誤読して「とめ」になったという。余談だが、我らがwikipediaによれば奈良時代に「遠山(とおやま)」と呼ばれていた地名が「とよま」になったとか。同じく「登米町」の項目を見ると、さらにその語源はアイヌ語の「トイオマ(食べられる土)」とか。 登米市中心地に、町並みを明治大正風にアレンジした観光地がある。その一角を占める旧水沢県庁跡を頻繁に訪れていた中央の役人たちが文字に引かれて「とめ」と読んでしまい、それが国や県の指定する読み方に採用されてしまったとか。ホントかな?でも、「県立登米高校」は「とめこうこう」で、「町立登米中学校」「町立登米小学校」は「とよま」だというので、なるほどと膝を打ってしまう。 名付けの歴史的経緯はともかくとして、文字に引かれてことばが変わることは、「おほね」から「大根」(だいこん)が生まれたり「をこ」から「尾籠」(びろう)が生まれる、という国産の漢語誕生のエピソードなんかを思い出す。地名で言えば、台湾の「高雄」の曲折に思い当たる。地元先住民がタカオと読んでいたものに、植民地日本が「高雄」という漢字をあて、解放後の中華民国が北京語読みの「カオシュン」とした、といったことなど。探してみれば、地名改変の話は日本国内にも津々浦々ありそうではある。