MITの最新の成果：AIが人間の脳が言語を処理する仕組みを解明

最新世代の予測言語モデルは、言語の根底にある意味の一部も学習したようです。驚くべきことに、これらのモデルは次の単語を予測できるだけでなく、質問への回答、文書の要約、ストーリーの継続など、ある程度の理解を必要とするタスクも実行できます。

[[431730]]

これらのモデルは、人間の脳がこのタスクを実行したり言語を理解したりする方法を模倣するのではなく、テキストを予測するという特定の機能を最適化するように設計されています。しかし、MITの神経科学者による新たな研究では、これらのモデルの潜在的な機能は人間の脳の言語処理中枢の機能に似ていることが示唆されている。

「我々の研究結果は、予測型人工ニューラルネットワークが、言語処理が人間の神経組織でどのように実装されているかを予測するための実行可能な候補仮説として機能することを示唆している」と論文には記されている。「これらのネットワークは、自然言語処理の高性能モデルと人間の言語理解の大規模な神経および行動測定を統合リバースエンジニアリングの好循環で組み合わせる有望な研究方向の重要な基盤となる。これには、神経および行動特性を予測するモデルの能力をテストすること、どのコンポーネントが脳の高い予測可能性にとって重要であるかを理解するために最も優れたモデルをプロファイリングすること、この知識を使用してより優れたモデルを開発すること、そして、将来の世代の神経的に妥当な言語処理モデルに挑戦し、制限するための新しいデータを収集することが含まれる。」

他の種類の言語タスクで優れたパフォーマンスを発揮したコンピュータモデルは、人間の脳との類似性を示さなかったため、人間の脳は言語処理を促進するために次の単語の予測を使用する可能性があるという証拠が得られました。

「モデルが次の単語を予測する精度が高ければ高いほど、人間の脳と一致する」と、認知神経科学のウォルター・A・ローゼンブリス教授、ナンシー・カンウィッシャー氏は言う。彼はMITのマクガバン脳研究所および脳・心・機械センター（CBMM）のメンバーであり、この新しい研究の著者の一人です。

「これらのモデルがこれほどよく適合していることは驚きであり、人間の言語システムが次に何が起こるかを予測している可能性を強く示唆している。」

「言語の神経構造: 統合モデリングが予測処理に収束する」と題された研究論文が、米国科学アカデミー紀要に掲載されました (論文のリンクを取得するには、「Data Practitioner」のバックエンドに「language」と返信してください)。

言語処理の人工ニューラルネットワークモデルと人間の言語処理の比較。実験では、言語理解中の人間の神経活動（fMRI および ECoG）と行動の測定値を予測するさまざまなモデルの有効性をテストしました。候補モデルは、単純な埋め込みモデルから、より複雑な再帰型ネットワークやトランスフォーマーネットワークまで多岐にわたります。刺激は、文章から段落、物語まで多岐にわたり、モデルに入力されるだけでなく、人間の参加者に（視覚的または聴覚的に）提示されます。モデルの内部表現は、人間の神経表現を予測する能力、読書時間という形で人間の行動を予測する能力、次の単語の予測などのタスクを実行する計算能力という 3 つの主な次元で評価されました。

予測タスクを実行する

次の単語を予測するこの新しい高性能モデルは、ディープニューラルネットワークモデルのカテゴリに属します。これらのネットワークには、さまざまな強度の接続と、規定の方法で相互に情報を渡すレイヤーを形成するコンピューティング「ノード」が含まれています。

過去 10 年間、科学者たちはディープニューラルネットワークを使用して、霊長類の脳と同じように物体を認識できる視覚モデルを作成してきました。 MIT の研究では、これらのコンピュータモデルが脳を模倣するように設計されていないにもかかわらず、視覚的物体認識モデルの基本的な機能が霊長類の視覚皮質の構成と一致していることも示されました。

新しい研究では、MITの研究チームは同様のアプローチを採用し、人間の脳内の言語処理中枢と言語処理モデルを比較した。

彼らは、単語の予測に最適化されたものも含め、43 種類の異なる言語モデルを分析しました。これらには、与えられたプロンプトに基づいて人間が手動で生成したものと同様のテキストを生成できる GPT-3 (Generative Pre-trained Transformer 3) が含まれます。他のモデルは、文章の空白を埋めるなど、さまざまな言語タスクを実行するように設計されています。

各モデルに単語の文字列が与えられると、研究者はネットワークを構成するノードの活動を測定した。

次に、研究チームはこれらのパターンを人間の脳の活動と比較し、物語を聞く、文章を一語ずつ読む、文章を一語ずつ読むという 3 つの言語課題を被験者に実行させて測定しました。これらの人間のデータセットには、てんかん脳手術を受けた患者の機能的磁気共鳴画像法 (fMRI) データと頭蓋内皮質脳波測定が含まれます。

結果は、最も優れた単語予測モデルの活動パターンが人間の脳のものと非常に類似していることを示しました。これらの同じモデルでのアクティビティは、人がテキストをどれだけ速く読むかなどの人間の行動指標と高い相関関係にあります。

「神経反応をうまく予測するモデルは、読む時間という形で人間の行動反応を最もうまく予測する傾向があることが分かりました」とシュリンプフ氏は言う。「この2つは、次の単語を予測するモデルのパフォーマンスによって説明されました。この三角形がすべてを結び付けているのです。」

ゲームチェンジャー

GPT-3 などの予測モデルの主要な計算機能の 1 つは、順方向一方向予測トランスフォーマーと呼ばれるコンポーネントです。このトランスフォーマーは、前のシーケンスに基づいて次に何が起こるかを予測できます。注目すべき機能は、テキストの最後の数語だけでなく、より広い文脈（数百語）に基づいて予測を行えることです。

テネンバウム氏は、科学者たちはまだこの種の処理に対応する脳回路や学習メカニズムを特定していないと述べた。しかし、新たな発見は、予測が言語処理の重要な機能の 1 つであるという、以前に提唱された仮説と非常に一致しています。

「言語処理の課題の一つは、それがリアルタイムであることだ」と彼は強調した。「言語が入ってくるたびにそれに追いつき、その意味をリアルタイムで理解できなければなりません。」

研究者たちは現在、これらの言語処理モデルのバリエーションを構築し、その構造の小さな変化がパフォーマンスや人間の神経データへの適応能力にどのような影響を与えるかを理解することを計画している。

「私にとって、この結果はゲームチェンジャーだ」とフェドレンコは語った。「この発見は私の研究計画を完全に変えました。なぜなら、私が生きている間に、脳の働きを理解するために実際に使えるほど脳を十分に捉えた、計算的に明確なモデルができるとは思っていなかったからです。」

研究者らはまた、これらの高性能言語モデルを、物理世界の知覚的表現の構築など、他の種類のタスクを実行できる、テネンバウムの研究室で以前に開発されたコンピューターモデルと組み合わせることも計画している。

上の図は、特定の ANN 言語モデルが言語入力に対する人間の神経反応を高い精度で予測できるなど、研究の主な結論を示しています。

「これらの言語モデルが何をするのか、そしてそれが知覚や思考のようなモデルとどのように関係するのかを理解できれば、脳の働きに関するより包括的なモデルが得られる可能性が高い」とテネンバウム氏は述べた。「これにより、より完全で優れた AI モデルを構築できるようになるかもしれない。もちろん、脳が実際にどのように機能するのか、一般的な知能がどのように出現するのかについてさらに学ぶことができ、これまでの知識のギャップを補うことができる」

<<: 自動運転：最も安全ではないが、より安全

>>: 人工知能の「ホットテクノロジー」をどう応用するか