ユニコードでデータセットを作る

共同研究で入力しているエクセルシートには、漢字や漢語が並ぶ。この10年くらいに、各研究者がいろいろな段階で入力を始めたデータが、混在している。15年くらい前には漢字文献を取り扱うには、今昔文字鏡を使うのがスタンダードだった。JISの第2水準までに含まれるのは6800字程度だが、歴史文献に現れる漢字をカバーすることは到底無理だった。今昔文字鏡は発売当時8万字、いまや16万字を誇る。

ところが今昔文字鏡は「人間が目で見て分かるため」の処置をしており、文字コードとは対応していない。同じコードを持つ文字に異なるフォントをかぶせることによって、擬似的に複数の漢字を表示しているだけだ。これが漢字データを電子処理しようとすると障害となる。それで諸橋大漢和辞典番号や大字典番号などを併記しておき、それを軸として他のデータセットとマッチングさせることが通例だったのではないかと思う。TeXで文字鏡フォントを使うときも文字番号は諸橋大漢和辞典番号だったので、データ管理をするにはこのやり方がとっても便利だった。

ところが共同研究者となると漢字処理はいろいろ独自に対処しているので、このやり方を一方的に押し付ける訳にはいかない。今昔文字鏡だって安くはない。また入力もそれなりに面倒であるし、慣れない人は「一斉にMS明朝を適用したら変になったよ」みたいなことを起こす。むにゃむにゃあーだこーだやっているうちに、漢字字体研究の人たちはあっさりユニコードに基づいたデータベースを作成するようになってしまった。office 2003の段階でユニコード対応となったことも大きなきっかけだったろう。「これからはユニコードってホント？」などと様子見をしているうちに、マジでユニコードの世界になだれ込んでしまったようだ。

すると途中まで入力していたデータが、あるところから突然unicodeになってしまうわけで、完成間近になって全体を振り返ってみると極めて不均整なことになってしまっている。我々は文字コードや漢字のフォルムを研究しているわけではないので、このあたりはかなり無頓着にやってきた。しかしあんまりこれだと使い勝手が悪い。こりゃ直していかなければならんなということで、ひとつひとつデータを見ていくと、かなりユニコードにカバーされていて驚く。ユニコードに含まれていないのは10％くらいか。

歴史文献に現れる漢字は字体のレベルまで見れば果てしがない世界なので、完全にこの問題が解決されることはない。というか時代ごとに文字体系があって、それが時代と共に少しずつ変化することを突き止めることや、どの時代にも必然的に現れる文字体系のほころびを丹念に見つけていくことが重要な研究テーマなのだろう。どの文字をコンピューター上に表示させようとするか、ということ自体がすでに我々が認識する漢字体系に基づいているという点で、上記のことは漢字の歴史をどう引き受けるかということのコアにコミットしているのだと思う。

（参考）

niji wo mita: OpenOffice3.2はCJK統合漢字拡張には対応せず？

niji wo mita: ubuntu, wine上に今昔文字鏡をのせる

niji wo mita: 10万字版はvistaに対応しにくく、15万字版はTeXに対応せず

niji wo mita

このブログを検索

ユニコードでデータセットを作る

ラベル

コメント

このブログの人気の投稿

あさって、やなさって、しあさって、さーさって

お尻はいくつか

三つ葉をミツパと呼ぶ理由