国立国会図書館に眠る一つの論文があります。
「帰納的学習による表層文から意味表現への変換規則の自動獲得と適用」
どんな論文かと言うと、大量のドキュメントから自ら学習し、文章の意味するところを定式化された表現に変換する言語モデルを獲得する、つまり自然言語のエンコーダーモデルの学習についての研究の論文です。これ実は私の博士論文のタイトル。
たいした成果も出せずに手仕舞いしてしまった研究ですが、私の博士課程時代の夢は、この数年間で達成されたと言って過言でありません。正直生きているうちにこんなことが実現されるとは思っていなかったので、驚くばかりです。何の話をしているとかと言うと、巷で話題のChatGPTのことであり、もっと正確に言うとその基盤となっているTransformerのことです。(以後、わかりやすくChatGPTとしてしまいます)
少し話を戻しますが、私の研究の出発点は、子どもの母国語の習得課程にありました。子どもは特殊な教育をしなくても周囲からのインプットだけで、数年のうちに母国語を習得することができます。同じように大量の言語データを入力していけば、コンピュータも言葉を覚えることができるのではないか。そんな素朴な発想から研究がスタートしました。夢のある研究テーマだと思いませんか?けれどもこの研究を進めていくと、それはそれは困難な道をたどることになったのです。
近代言語学の「巨人」ノーム・チョムスキー氏は人間の言語能力は生得的なものであり、よって人類の言語には普遍(共通)の文法があるとの仮説を唱えました。私は言語学の専門でないのでその言語学的な解釈は横に置いておきます。ただ、コンピュータ・サイエンスのアプローチとしては「チート」とも言えるチョムスキー氏の説に乗りたくなるくらい、私の研究は行き詰まっていきました。
要するに人間の脳には生まれながらに言語テンプレートがあって、外部からの入力はそのテンプレートのパラメータチューニングをしているだけだと。だからコンピュータにも最初からテンプレート用意しないと学習はうまくいかないぞと。実際には、そもそも普遍文法を定義することが非常に難しく、散々回り道したあげくに、このアプローチは断念することになったのですが。
もうひとつ、言語の表層文外の文脈依存性の高さに悩まされました。人間の会話というのは多くの共通認識の上に成り立ちます。そういう文章内外の情報をまとめるメンタルモデルがあってこそ、言語の習得と運用は可能であり、メンタルモデルの設計が言語獲得に必要であると。このアプローチに何年も費やしてギリギリ博士号を頂けました。
結局のところ、人がどうやって言葉を習得しているのかは重要でなかったのかもしれません。なぜなら、そんなことに少しも引っ張られることなく、シンプルに、美しく、圧倒的な精度を持って、大量の言語データからのみ言語モデルが獲得できることを、ChatGPTは示してくれたのですから。
一例ですが、ChatGPT3に「織田信長を知っていますか?」と聞いてみたところこんな答えが返ってきました。
はい、私は織田信長(おだ のぶなが)について知っています。織田信長は、16世紀の日本の戦国時代に活躍した武将で、尾張国(現在の愛知県)の織田家の当主でした。
<略>
また、信長は、浄土真宗の教えに傾倒し、寺社の保護や土木事業など、社会的な改革にも着手しました。しかし、1582年に、自身の居城である安土城で起きた本能寺の変によって、信長は突然の死を遂げました。
<略>
これだけ複雑な文章を生成しながら、日本語としての大きな誤りを指摘することができません。この言語生成モデルはネイティブスピーカーのレベルに達していると言って間違いないでしょう。ちなみに本能寺の変が起きたのは安土城ではないでしょうが、その歴史認識の過ちはまったく違う問題なので注意が必要です。ここで注目すべきは日本語文としての正確さです。素晴らしくないですか?
これから何回か、ChatGPTとそのもとになったTransformerについて、私の研究と違ってどこが素晴らしいのか、嫉妬を込めた視点で(笑)解説を試みることにします。