GoogleIMEは正しさを撃てるか

Googleが日本語入力imeを作った（Google 日本語入力 - ダウンロード）。変換効率の高さを売りにしているようで、早速試してみたところ、やや変換速度にもたつきを感じるが、確かに変換効率は高い。ms-imeより高いことは間違いない。atokは不明。携帯電話のようなサジェスト機能を備えており、これは楽ちんだなあと思った（下の図で筋肉少女隊○、アースシェイカー○、モダンチョキチョキズ×ということが判明笑）。

＊　＊　＊　＊　＊

さて。
・長さをはかる
・重さをはかる
・高さをはかる
の下線部にふさわしい漢字表記はどちらかと考えるとき、我々は学校で教わったり、本で読んだりしたときの経験に照らし合わせて、正しい答えを導こうとする。このとき「正しい」答えを定めているものが学校で勉強したものであるとすれば（「学校でそう教わったから」みたいに）、経験より先に規範があると言って良いと思う。本で読んだりした経験の集積による規範のモデル化が根拠であるとすれば、規範より先に経験があったと言って良いと思う。

辞書は、一般的には言葉の意味の正しさを知るときに使われることが多いだろう。この使われ方は、規範が先にある、と言える。じゃあ辞書はどうできているのか、というと、成立の原理から言えば経験が先にあるに決まっている（ただし実際には辞書A'はその母体である辞書Aに基づいているものだし、辞書BCDの集積であることがほとんど）。つまり、ここには

散文など生の言語データ→規範化→規範に基づいて行動

というプロセスがあることになる。だから規範は常に経験を後追いする形でしか実現しない。そして使われる辞書とは、①規範と経験が近ければ近いほど理想的であるから（履歴書を書くときに明治時代のことば辞典を紐解くやつはいない）、規範を経験に近づけるために改訂が行われる。また、②経験と一口にいってもいろいろな種類があるし、その経験によって規範の種類も異なる。だから専門用語の辞書があるというわけ（あらゆる経験を目指せば規範は散大し記述的な態度に近づいてしまううえに、辞書サイズがでっかくなって学術的な目的以外では使い物にならなくなる）。

ちなみに規範はともすればすぐ自律的に経験のほうを抑圧しがちで、現実にはそのような経験が存在するのに排除してみたり、規範に合う経験だけを選択的に認めようとする。規範の成立を考えずにルールとかステレオタイプをかさに、モノを語る人がバカに見えるのはそういう事情に基づく。でもルールがなければ社会は困る、なんて議論のすり替えをするのが学校だったりするけれど、学校はそういう暴力で人間を社会に馴致させるのが崇高な目的だからそれはそれで良い。嘘。死ねバーカ。

話はもとに戻って、①「規範と経験が近ければ近いほど理想的」を誠実にやろうとすれば、頻繁に改訂を繰り返すことになる。しかし改訂にはお金がかかるし、それよりも経験値を高めるコストも大変だ（新しい言葉を毎日チェックしなければならない）。とりわけネットを中心とした言葉のトレンドは変化が激しく、辞書＝規範を現実＝経験に近づけることを困難にしている。この前提には、現代社会に生み出される言葉の源泉としてネットを無視することはできないということがある。つまり②「経験によって規範の種類も異なる」ということで言えば、ネットに現れる日本語＝経験から規範が作られれば、ネットに接続されたコンピュータを通じて日本語活動をするユーザにとってはありがたい。

そうすると、①②を満たすためには、現実に使われる言葉をネットから集めて、日々辞書をアップデートしていくタイプのデータベースがあればよい、ということになる。Google日本語入力の発想にはこうした背景があることは間違いないだろう（アップデートしていくかどうかは不明だが最新の辞書をDLさせるシステムは容易に実現できるだろう）。Google Japan Blog: 思いどおりの日本語入力 - Google 日本語入力では、「高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています」とある。

ATOKが日本語変換について「正しい」とされる変換を、現行の国語辞書類＝経験から離れた可能性が高い規範からサジェストするのに対して、Google日本語入力はほとんど離れていない可能性が高い規範からサジェストするだろう、と僕は夢想する。そうなったら楽しい。規範の持つ「ステレオタイプさ」の愚かさも撃ちぬいてくれるような気がする。そのような意味で、Google日本語入力への期待は大きい。冒頭の例で言えば、「はかる」の表記は「量」「測」「計」はどれも揺れて使われているんだから、ひとつに限定することがナンセンス、というように。

＊　＊　＊　＊　＊

しかし、「構築」された「統計的言語モデル」の根拠となる「大量のデータ」が、現行の国語辞書類と大して変わらない可能性もある。つまり血液型の議論と同じように、本来は統計的に有意な関係が出ないはずなのに、言説が規範化し、そのように思い込むことで実態に影響を与えた結果、まるで規範が最初からそのような経験に基づいていたような顔をする、というようなことが起こるかもしれない。だから僕はちょっと割り引いて期待をしておこうと思う。

あ、この文章はGoogle日本入力で書きました。変換精度は悪くないと思います。

niji wo mita

このブログを検索

GoogleIMEは正しさを撃てるか

ラベル

コメント

このブログの人気の投稿

あさって、やなさって、しあさって、さーさって

お尻はいくつか

thinkpad x200起動せず→復旧