スキップしてメイン コンテンツに移動

GoogleIMEは正しさを撃てるか

Googleが日本語入力imeを作った(Google 日本語入力 - ダウンロード)。変換効率の高さを売りにしているようで、早速試してみたところ、やや変換速度にもたつきを感じるが、確かに変換効率は高い。ms-imeより高いことは間違いない。atokは不明。携帯電話のようなサジェスト機能を備えており、これは楽ちんだなあと思った(下の図で筋肉少女隊○、アースシェイカー○、モダンチョキチョキズ×ということが判明笑)。

* * * * *

さて。
・長さをはかる
・重さをはかる
・高さをはかる
の下線部にふさわしい漢字表記はどちらかと考えるとき、我々は学校で教わったり、本で読んだりしたときの経験に照らし合わせて、正しい答えを導こうとする。このとき「正しい」答えを定めているものが学校で勉強したものであるとすれば(「学校でそう教わったから」みたいに)、経験より先に規範があると言って良いと思う。本で読んだりした経験の集積による規範のモデル化が根拠であるとすれば、規範より先に経験があったと言って良いと思う。

辞書は、一般的には言葉の意味の正しさを知るときに使われることが多いだろう。この使われ方は、規範が先にある、と言える。じゃあ辞書はどうできているのか、というと、成立の原理から言えば経験が先にあるに決まっている(ただし実際には辞書A'はその母体である辞書Aに基づいているものだし、辞書BCDの集積であることがほとんど)。つまり、ここには

散文など生の言語データ→規範化→規範に基づいて行動

というプロセスがあることになる。だから規範は常に経験を後追いする形でしか実現しない。そして使われる辞書とは、①規範と経験が近ければ近いほど理想的であるから(履歴書を書くときに明治時代のことば辞典を紐解くやつはいない)、規範を経験に近づけるために改訂が行われる。また、②経験と一口にいってもいろいろな種類があるし、その経験によって規範の種類も異なる。だから専門用語の辞書があるというわけ(あらゆる経験を目指せば規範は散大し記述的な態度に近づいてしまううえに、辞書サイズがでっかくなって学術的な目的以外では使い物にならなくなる)。

ちなみに規範はともすればすぐ自律的に経験のほうを抑圧しがちで、現実にはそのような経験が存在するのに排除してみたり、規範に合う経験だけを選択的に認めようとする。規範の成立を考えずにルールとかステレオタイプをかさに、モノを語る人がバカに見えるのはそういう事情に基づく。でもルールがなければ社会は困る、なんて議論のすり替えをするのが学校だったりするけれど、学校はそういう暴力で人間を社会に馴致させるのが崇高な目的だからそれはそれで良い。嘘。死ねバーカ。

話はもとに戻って、①「規範と経験が近ければ近いほど理想的」を誠実にやろうとすれば、頻繁に改訂を繰り返すことになる。しかし改訂にはお金がかかるし、それよりも経験値を高めるコストも大変だ(新しい言葉を毎日チェックしなければならない)。とりわけネットを中心とした言葉のトレンドは変化が激しく、辞書=規範を現実=経験に近づけることを困難にしている。この前提には、現代社会に生み出される言葉の源泉としてネットを無視することはできないということがある。つまり②「経験によって規範の種類も異なる」ということで言えば、ネットに現れる日本語=経験から規範が作られれば、ネットに接続されたコンピュータを通じて日本語活動をするユーザにとってはありがたい。

そうすると、①②を満たすためには、現実に使われる言葉をネットから集めて、日々辞書をアップデートしていくタイプのデータベースがあればよい、ということになる。Google日本語入力の発想にはこうした背景があることは間違いないだろう(アップデートしていくかどうかは不明だが最新の辞書をDLさせるシステムは容易に実現できるだろう)。Google Japan Blog: 思いどおりの日本語入力 - Google 日本語入力では、「高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています」とある。

ATOKが日本語変換について「正しい」とされる変換を、現行の国語辞書類=経験から離れた可能性が高い規範からサジェストするのに対して、Google日本語入力はほとんど離れていない可能性が高い規範からサジェストするだろう、と僕は夢想する。そうなったら楽しい。規範の持つ「ステレオタイプさ」の愚かさも撃ちぬいてくれるような気がする。そのような意味で、Google日本語入力への期待は大きい。冒頭の例で言えば、「はかる」の表記は「量」「測」「計」はどれも揺れて使われているんだから、ひとつに限定することがナンセンス、というように。

* * * * *

しかし、「構築」された「統計的言語モデル」の根拠となる「大量のデータ」が、現行の国語辞書類と大して変わらない可能性もある。つまり血液型の議論と同じように、本来は統計的に有意な関係が出ないはずなのに、言説が規範化し、そのように思い込むことで実態に影響を与えた結果、まるで規範が最初からそのような経験に基づいていたような顔をする、というようなことが起こるかもしれない。だから僕はちょっと割り引いて期待をしておこうと思う。

あ、この文章はGoogle日本入力で書きました。変換精度は悪くないと思います。

コメント

このブログの人気の投稿

お尻はいくつか

子どもが友人たちと「お尻はいくつか」という論争を楽しんだらしい。友人たちの意見が「お尻は2つである」、対してうちの子どもは「お尻は1つである」とのこと。前者の根拠は、外見上の特徴が2つに割れていることにある。後者の根拠は、割れているとはいえ根元でつながっていること、すなわち1つのものが部分的に(先端で)2つに割れているだけで、根本的には1つと解釈されることにある。白熱した「お尻はいくつか」論争は、やがて論争参加者の現物を実地に確かめながら、どこまでが1つでどこからが2つかといった方向に展開したものの、ついには決着を見なかったらしい。ぜひその場にいたかったものだと思う。 このかわいらしい(自分で言うな、と)エピソードは、名詞の文法範疇であるところの「数(すう)」(→ 数 (文法) - wikipedia )の問題に直結している。子どもにフォローアップインタビューをしてみると、どうもお尻を集合名詞ととらえている節がある。根元でつながっているということは論争の中の理屈として登場した、(尻だけに)屁理屈であるようで、尻は全体で一つという感覚があるようだ。つながっているかどうかを根拠とするなら、足はどう?と聞いてみると、それは2つに数えるという。目や耳は2つ、鼻は1つ。では唇は?と尋ねると1つだという。このあたりは大人も意見が分かれるところだろう。僕は調音音声学の意識があるので、上唇と下唇を分けて数えたくなるが、セットで1つというのが大方のとらえ方ではないだろうか。両手、両足、両耳は言えるが、両唇とは、音声学や解剖学的な文脈でなければ言わないのが普通ではないかと思う。そう考えれば、お尻を両尻とは言わないわけで、やはり1つととらえるのが日本語のあり方かと考えられる。 もっとも、日本語に限って言えば文法範疇に数は含まれないので、尻が1つであろうと2つであろうと形式上の問題になることはない。単数、複数、双数といった、印欧語族みたいな形式上の区別が日本語にもあれば、この論争には実物を出さずとも決着がついただろうに…。大風呂敷を広げたわりに、こんな結論でごめんなさい。尻すぼみって言いたかっただけです。

あさって、やなさって、しあさって、さーさって

授業で、言語地理学の基礎を取り扱うときに出す、おなじみのLAJこと日本言語地図。毎年、「明日、明後日、の次を何と言うか」を話題にするのだが、今年はリアクションペーパーになんだか色々出てきたのでメモ。これまでの話題の出し方が悪かったのかな。 明後日の次( DSpace: Item 10600/386 )は、ざっくりしたところでは、伝統的には東の国(糸魚川浜名湖ライン以東)は「やのあさって(やなさって)」、西の国は古くは「さーさって」それより新しくは「しあさって」。その次の日( DSpace: Item 10600/387 )は、伝統的には東西どちらもないが、民間語源説によって山形市近辺では「や(八)」の類推で「ここのさって」、西では「し(四)」の類推で「ごあさって」が生まれる、などなど(LAJによる)。概説書のたぐいに出ている解説である。LAJがウェブ上で閲覧できるようになって、資料作りには便利便利。PDF地図は拡大縮小お手の物ー。 *拡大可能なPDFはこちら 日本言語地図285「明明後日(しあさって)」 *拡大可能なPDFはこちら 日本言語地図286「明明明後日(やのあさって)」 さて、関東でかつて受け持っていた非常勤での学生解答は、「あした あさって しあさって (やのあさって)」がデフォルト。やのあさっては、八王子や山梨方面の学生から聞かれ、LAJまんまであるが、ただし「やのあさって」はほとんど解答がない。数年前にビールのCMで「やのあさって」がちらりと聞ける、遊び心的な演出があったが学生は何を言っているのかさっぱりだったよう。これはかつての東国伝統系列「あした あさって やのあさって」に関西から「しあさって」が侵入して「やのあさって」は地位を追い落とされひとつ後ろにずれた、と説明する。「あした あさって やのあさって しあさって」は期待されるが、出会ったことがない。 山形では「あした あさって やなさって (しあさって)」と「あした あさって しあさって (やなさって)」はほとんど均衡する。これには最初驚いた。まだあったんだ(無知ゆえの驚き)!と(ただしLAJから知られる山形市の古い形は「あした あさって やなさって さーさって」)。同じ共同体内で明後日の翌日語形に揺れがある、ということは待ち合わせしても出会えないじゃないか。というのはネタで、実際は「~日」と

登米は「とめ」か「とよま」か

宮城県登米市( 登米市 - Wikipedia )という場所がある。「とめし」と読む。市内には登米町がある。「とよままち」と読む。「登米」に対して、2つの読みがあるのが疑問だったが、先日出張で訪れた際に地元の方にその理由を伺った。結論から言えば、元々地元では「とよま」だったが、余所から来た人たちが誤読して「とめ」になったという。余談だが、我らがwikipediaによれば奈良時代に「遠山(とおやま)」と呼ばれていた地名が「とよま」になったとか。同じく「登米町」の項目を見ると、さらにその語源はアイヌ語の「トイオマ(食べられる土)」とか。 登米市中心地に、町並みを明治大正風にアレンジした観光地がある。その一角を占める旧水沢県庁跡を頻繁に訪れていた中央の役人たちが文字に引かれて「とめ」と読んでしまい、それが国や県の指定する読み方に採用されてしまったとか。ホントかな?でも、「県立登米高校」は「とめこうこう」で、「町立登米中学校」「町立登米小学校」は「とよま」だというので、なるほどと膝を打ってしまう。 名付けの歴史的経緯はともかくとして、文字に引かれてことばが変わることは、「おほね」から「大根」(だいこん)が生まれたり「をこ」から「尾籠」(びろう)が生まれる、という国産の漢語誕生のエピソードなんかを思い出す。地名で言えば、台湾の「高雄」の曲折に思い当たる。地元先住民がタカオと読んでいたものに、植民地日本が「高雄」という漢字をあて、解放後の中華民国が北京語読みの「カオシュン」とした、といったことなど。探してみれば、地名改変の話は日本国内にも津々浦々ありそうではある。