MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

大きな言語モデルの中には世界モデルがあるのでしょうか?

LLM には空間感覚がありますか?そして、これは複数の時間と空間のスケールで当てはまるのでしょうか?

最近、MIT の研究者数名が、その答えは「イエス」であることを発見しました。

論文アドレス: https://arxiv.org/abs/2310.02207

彼らは、Llama-2-70B が実際に研究者の現実世界のテキストマップを描くことができることを発見しました。

空間表現については、研究者らは世界中の何万もの都市、地域、自然のランドマークの名前に対してLlama-2モデルを実行した。

彼らは最後のトークンのアクティベーションで線形検出器をトレーニングし、Llama-2 が各場所の実際の緯度と経度を予測できることを発見しました。

時間表現の点では、研究者らは過去3,000年間の著名人の名前、1950年以降の歌、映画、本のタイトル、2010年代のニューヨークタイムズの見出しでモデルを実行し、線形プローブを訓練して著名人の死亡年、歌、映画、本の発売日、ニュースの出版日を正確に予測した。

つまり、すべての結論は、LLM が単なるランダムなオウムではないことを示しています。Llama-2 には、世界の詳細なモデルが含まれています。人間が大規模言語モデルで「経度ニューロン」を発見したと言っても過言ではありません。

この作品は発表されるとすぐに、熱狂的な反響を呼びました。著者はTwitterで論文の要約をリツイートしたところ、15時間も経たないうちに140万回以上読まれました。

ネットユーザーたちは「この作品は素晴らしい！」と絶賛した。

ある人はこう言いました。「直感的に、これは理にかなっています。」なぜなら、脳は私たちの物理的な世界を抽出し、それを生物学的ネットワークに保存するからです。私たちが物事を「見る」とき、それは実際には私たちの脳が内部で処理したものの投影です。

皆さんがこれをモデル化できたのはすごいですね！

同じ見解を持つ人々もおり、私たちは脳を模倣しようとすることで創造主を欺いているのかもしれないと主張しています。

LLMはランダムなオウムではない

これまで、大規模言語モデルの驚くべき能力は、データ生成プロセスを含む首尾一貫したモデル（つまり、世界モデル）であるからではなく、単に大量の表面的な統計データを学習したからではないかと多くの人が推測していました。

2021年、ワシントン大学の言語学者エミリー・M・ベンダー氏は、大規模言語モデルは「確率的オウム」に過ぎないと主張する論文を発表した。それらは現実世界を理解しておらず、単に単語が出現する確率を数え、オウムのように合理的に見える文章をランダムに生成するだけだ。

ニューラルネットワークの解釈不可能性のため、言語モデルがランダムなオウムであるかどうかは学術界でもはっきりしておらず、意見は各団体によって大きく異なります。

広く受け入れられているテストがない場合、モデルが「世界を理解する」かどうかは、科学的な問題ではなく哲学的な問題になります。

しかし、MIT の研究者たちは、LLM が複数のスケールで空間と時間の線形表現を学習し、これらの表現はさまざまな手がかりの変化に対して堅牢であり、さまざまな環境タイプ (都市やランドマークなど) にわたって一貫していることを発見しました。

彼らは、LLM には空間座標と時間座標を確実にエンコードできる独立した「空間ニューロン」と「時間ニューロン」があることも発見しました。

言い換えれば、LLM は表面的な統計を学ぶだけではなく、空間や時間などの基本的な次元についての構造化された知識を習得することです。

つまり、大規模な言語モデルは世界を理解できるのです。

LLMは空間と時間を理解できる

この論文で研究者らは、LLM がデータセットの内容を通じて世界 (および時間) のモデルを形成できるかどうかという疑問を投げかけました。

研究者たちは、LLM から現実世界の地図を抽出することでこの疑問に答えようとしました。

具体的には、研究者らは、複数の時空間次元にわたる場所や出来事の名前とそれに対応する空間座標または時間座標を含む 6 つのデータセットを構築しました。

これには、世界中の住所、米国内の住所、ニューヨーク市内の住所が含まれます。

さらに、データセットにはさまざまな時間座標も含まれています。

1) 歴史上の人物の死亡年

2) 過去3000年の歴史

3) 1950年代以降の芸術作品やエンターテインメントのリリース日

4) 2010年から2020年までのニュース見出しの公開日

研究者たちは、Llama 2 ファミリーのモデルを使用して、モデルの各層でこれらの場所やイベントの名前の内部アクティベーションに関する線形回帰プローブをトレーニングし、現実世界での場所や時間を予測しました。

これらの探索的実験により、モデルが初期の層全体にわたって空間的および時間的な表現を構築し、その後モデルの中間点付近で安定するという証拠が明らかになりました。このプロセスにより、より大きなモデルが小さなモデルよりも一貫して優れたパフォーマンスを発揮することになります。

さらに研究者らは、これらの表現が

（１）線形、非線形プローブの性能は悪いため

（２）プロンプトの変化に対して非常に堅牢である

（３）異なるタイプの概念は互いに類似している（例：都市と自然のランドマークは互いに類似している）

研究者らは、この結果に対する考えられる説明の1つとして、モデルは場所から国へのマッピングのみを学習したのに対し、探査機は実際にはこれらの異なるグループが地理的空間（または時間）内でどのように関連しているかという世界的な地理的構造を学習したのではないか、と示唆している。

これを調査するために、研究者らは一連の堅牢性チェックを実行し、プローブがさまざまなデータ分布でどのように一般化されるか、また PCA コンポーネントでトレーニングされたプローブがどのように機能するかを理解しました。

研究者らの研究結果は、プローブがこれらの概念の「絶対的な位置」を記憶しているが、モデルには「相対的な位置」を反映する表現がいくつかあることを示唆している。

言い換えれば、プローブはモデル内の座標から人間が解釈できる座標へのマッピングを学習します。

最後に、研究者らはプローブを使用して、空間や時間の関数として活性化する個々のニューロンを見つけ、モデルが実際にこれらの機能を使用しているという強力な証拠を示しました。

準備

調査のため、研究者らは、エンティティ名（人、場所、出来事など）と、それぞれの場所または発生時刻を記載した、それぞれ異なるサイズの 6 つのデータセットを構築しました。

研究者らは、各データセットに、都市のような人口密集地や湖のような自然のランドマークなど、複数の種類のエンティティを含め、さまざまなオブジェクトタイプの統一された表現を研究しました。

さらに、研究者らは、より詳細なセグメンテーションとトレーニング・テスト漏洩の原因の特定を通じてデータの分析を可能にするために、関連するメタデータを最適化および強化しました。

位置情報

研究者らは、世界、米国、ニューヨーク市の 3 つの地名データセットを構築しました。研究者の世界データセットは、DBpedia Lehmann らによって照会された生データから構築されました。

さらに、研究者らは、人口密集地、自然環境、構造上の場所（建物やインフラなど）も含めました。研究者たちはその後、このコンテンツをWikipediaの記事と照合し、3年以内に少なくとも5,000ページビューがあったエンティティを除外しました。

研究者らの米国のデータセットには、都市名、郡名、郵便番号、大学名、自然景観名、建造物名が含まれており、同様に人口密度の低い場所や景観の良い場所は除外されている。

ニューヨーク市のデータセットには、市内の学校、教会、交通施設、公営住宅の場所が含まれています。

時間情報

研究者の 3 つの時間データセットには次のものが含まれます。

（１）紀元前1000年から紀元後2000年の間に亡くなった歴史上の人物の名前と職業、

（２）Wikipediaのページビューフィルタリング技術を用いて、DBpediaから1950年から2020年までの歌、映画、本のタイトルと著者を構築した。

（３）2010年から2020年までのニューヨークタイムズの時事ニュース欄のニュース見出し。

データ準備

研究者らの実験はすべて、70億から700億のパラメータに及ぶ基本的なLlama 2シリーズのモデルを使用して実施されました。

各データセットについて、研究者は各エンティティ名をモデルに通し、短いプロンプトを先頭に付けて実行し、各レイヤーの最後のエンティティトークンで隠し状態 (残差ストリーム) のアクティブ化を保存します。

n 個のエンティティのセットの場合、各レイヤーのアクティベーションのデータセットが生成されます。

プローブ

LLM における空間的および時間的表現の証拠を探すために、研究者らは標準的なプローブ技術を使用しました。

これは、ネットワーク活性化に単純なモデルを適合させて、ラベル付けされた入力データに関連付けられたターゲットラベルを予測します。特に、活性化データセット A ∈ Rn×dmodel と、時間または 2 次元の緯度と経度の座標のいずれかで構成されるターゲット Y が与えられた場合、線形リッジ回帰プローブを適合させます。

したがって、線形プローブが得られます。

サンプル外データに対する高い予測性能は、基礎となるモデルの表現に線形にデコード可能な時間的および空間的情報が含まれていることを示唆していますが、これはモデルが実際にこれらの表現を使用していることを意味するものではありません。

すべての実験において、プローブトレーニングセットで効率的なLeave-out-outクロス検証を使用してλを調整します。

空間と時間における線形モデル

存在

研究者たちはまず、「モデルは時間と空間を表現しているか？」という経験的な疑問を調査した。もしそうなら、モデル内のどこですか?表現の品質はモデルのサイズによって大きく変わりますか?

研究者らの最初の実験では、各空間および時間データセットごとに、Llama 2-{7B、13B、70B}の各層のプローブをトレーニングしました。

下の図に示されている研究者の主な結果は、データセット全体でかなり一貫したパターンを示しています。特に、線形プローブによって空間的特徴と時間的特徴の両方を回復できます。

これらの表現はモデルのサイズが大きくなるにつれてより正確になり、モデルの前半の表現の品質は安定状態に達する前に着実に向上します。

これらの観察結果は事実想起に関する文献の結果と一致しており、初期から中期段階の MLP 層が事実のトピックに関する情報の想起に関与していることを示唆しています。

パフォーマンスが最も悪いデータセットは、ニューヨーク市のデータセットです。ほとんどのエンティティが他のデータセットと比較して比較的不明瞭であることを考慮すると、これは予想されたことです。

しかし、これはまた、最大のモデルが最良の相対的パフォーマンスを示すデータセットでもあり、R はより小さなモデルのほぼ 2 倍であり、十分に大きな LLM が最終的に個々の都市の詳細な空間モデルにつながる可能性があることを示唆しています。

線形特性

解釈可能性に関する文献では、線形表現仮説、つまりニューラルネットワーク内の特徴は線形に表現されるという考えを支持する証拠が増えています。

つまり、関連する活性化を何らかの特徴ベクトルに投影することによって、特徴の存在または強さを読み取ることができます。ただし、これらの結果は、空間または時間における自然な連続機能ではなく、ほとんどの場合、バイナリ機能またはカテゴリ機能に対するものです。

空間的および時間的特徴が線形に表現されるかどうかをテストするために、研究者らは線形リッジ回帰プローブのパフォーマンスを、より表現力豊かな非線形 MLP のパフォーマンスと比較しました。

結果は次の通りで、どのデータセットまたはモデルでも、非線形プローブを使用した R の改善は最小限であることがわかります。

研究者たちはこれを、空間と時間が連続的であるにもかかわらず、線形に表現できる（または少なくとも線形にデコードできる）ことの強力な証拠とみなしている。

手がかりとなる言葉に対する敏感さ

もう一つの明白な疑問は、これらの空間的または時間的特徴が手がかりとなる言葉に敏感であるかどうか、つまり、文脈がこれらの事実の想起を誘発したり阻害したりできるかどうかです。

直感的に言えば、あらゆるエンティティトークンに対して、自己回帰モデルは、起こり得るあらゆる将来のコンテキストや問題を解決するのに適した表現を生成するように動機付けられます。

この疑問を研究するために、研究者らは、いくつかの基本的なテーマに従って各エンティティタグに異なるヒントを追加した新しいアクティベーションデータセットを作成しました。すべてのケースにおいて、研究者はエンティティトークン (およびシーケンストークンの開始) のみを含む「空の」プロンプトを含めました。

次に研究者らは、「<場所>の緯度と経度は？」や「<書籍>の発売日はいつ？」など、関連する事実を思い出すようにモデルに求めるプロンプトを追加しました。

米国とニューヨーク市のデータセットでは、研究者らは、一般的な地名（市庁舎など）の曖昧さを解消するために、場所が米国またはニューヨーク市のどこにあるのかを尋ねるこれらのプロンプトのバージョンも含めました。

ベースラインとして、研究者は 10 個のランダムトークン (エンティティごとにサンプリング) のヒントを含めました。研究者がトピックを混同する可能性があるかどうかを判断するために、一部のデータセットでは、研究者はすべてのエンティティの名前を大文字にしました。

最後に、タイトルデータセットについて、研究者はタイトルに追加された最後のトークンとピリオドトークンを検出しようとしました。

上の図は70Bモデルの結果を示し、下の図はすべてのモデルの結果を示しています。

研究者らは、モデルに入力情報を明示的に与えたり、場所が米国またはニューヨーク市にあるなど、曖昧さを解消するヒントを与えたりしても、パフォーマンスにほとんど影響がないことを発見した。しかし、研究者たちは、トークンにランダムに干渉することでパフォーマンスがどの程度低下するかに驚きました。

エンティティ名を大文字にすると、エンティティのトークン化が妨げられる可能性があるため、それほど深刻ではなく、予想外の事態も起こりにくいものの、パフォーマンスが低下する可能性があります。

パフォーマンスを大幅に向上させた変更の 1 つは、タイトルの後のピリオドトークンを検出し、そのピリオドに文の終わりに関する概要情報が含まれていることを示すことです。

堅牢性テスト

前のセクションでは、さまざまな種類のイベントや場所の実際の時間または空間ポイントが、LLM の後の層の内部アクティベーションから線形に回復できることを示しました。

ただし、プローブ自体はモデルによって実際に使用されるより単純な特徴の線形結合を学習する可能性があるため、これはモデルが実際にプローブによって学習された特徴方向を使用するかどうか (またはどのように使用するか) を意味するものではありません。

一般化による検証

研究者らの結果の潜在的な問題を説明するために、完全な世界地図を表現するというタスクを考えてみましょう。

モデルが研究者の予想どおりに機能し、「国 X にいる」という特徴がほぼ直交するバイナリ特徴を持つ場合、各国のこれらの直交特徴ベクトルを、その国の緯度 (経度) に等しい係数で合計することで、高品質の緯度 (経度) プローブを構築できます。

場所が 1 つの国にのみ存在すると仮定すると、このようなプローブは各エンティティをその国の重心に配置します。

ただし、この場合、モデルは実際には空間を表しておらず、国のメンバーシップのみを表しており、明示的な監督からさまざまな国のジオメトリのプローブを学習しているだけです。

これらのケースをより適切に区別するために、研究者らは、特定のデータチャンクが提供されたときにプローブがどのように一般化されるかを分析しました。

特に、研究者らは一連のプローブをトレーニングし、それぞれに世界、米国、ニューヨーク市、歴史上の人物、エンターテイメント、およびヘッドラインのデータセットから国、州、自治区、世紀、10年、または年を提供しました。

その後、研究者らは保持されたデータブロックの検出を評価しました。上記の表では、研究者は、データパッチを完全にホールドアウトした場合の平均隣接エラーを、デフォルトのトレーニングテスト分割におけるそのパッチのテストポイントのエラー (すべてのホールドアウトパッチの平均) と比較して報告しています。

研究者らは、一般化のパフォーマンスは特に空間データセットでは低下したものの、ランダムデータセットの場合よりは大幅に優れていることを発見した。下の図に示されている州または国の予測をプロットすると、より明確な状況が浮かび上がります。

全世界

つまり、プローブは、絶対位置ではなく、正しい相対位置 (実際の重心と予測された重心の間の角度で測定) にポイントを配置することによって、正しく一般化します。

研究者たちはこれを、プローブがモデルによって明示的に学習された特徴を抽出していたが、モデルの座標から人間の座標への変換を記憶していたという弱い証拠だと考えた。

しかし、これは根本的な二元特性仮説を完全に排除するものではありません。なぜなら、そのような特性には国や 10 年の境界に従わない階層が存在する可能性があるからです。

エンティティ間の一般化

これまでの研究者の議論で暗黙的に主張されているのは、このモデルが都市や自然のランドマークなど、さまざまな種類の実体の空間的または時間的な座標を統一的に表現しているというものである。

ただし、緯度検出がメンバーシップ機能の加重合計になるのと同様に、緯度検出は都市の緯度と自然ランドマークの緯度の異なる (直交) 方向の合計になることもあります。

上記と同様に、研究者は一連のプローブをトレーニングすることでこれらの仮説を区別します。このとき、特定のエンティティクラスのすべてのポイントを保持するためにトレーニングテスト分割が実行されます。下の表に示すように、デフォルトのテスト分割におけるエンティティの近接性の誤差は、以前のように保持されていたときと比較して、すべての分割にわたって平均化されます。

結果は、エンターテイメントデータセットを除いて、プローブがエンティティタイプをかなり一般化していることを示しています。

空間と時間のニューロン

これらの以前の結果は有益ですが、モデルがプローブによって学習された特徴を使用しているという直接的な証拠はありません。

この疑問を解決するために、研究者らは学習した検出方向と高いコサイン類似性を持つ入力重みまたは出力重みを持つ個々のニューロンを探しました。

つまり、研究者たちは、プローブによって学習された方向と同様の方向に読み書きするニューロンを探したのです。

彼らは、活性化のデータセットを最も類似したニューロンの重みに投影すると、それらのニューロンが空間または時間における実体の実際の位置に対して非常に敏感であることを発見しました。

つまり、モデルには、それ自体がかなりの予測力を持つ特徴プローブである個々のニューロンが存在します。

さらに、これらのニューロンはデータセット内のすべてのエンティティタイプに敏感であり、表現が統一されていることを示唆しています。

明示的な監督の下でトレーニングされたプローブが、モデルがこれらの空間的および時間的特徴をどれだけ適切に表現できるかについてのおおよその上限である場合、単一ニューロンのパフォーマンスは下限になります。

特に、学者は特徴が加法的に分布していると想定することが多く、これにより単一ニューロンレベルの分析が不正確になります。

それでも、これらの単一ニューロン（次のトークン予測以外の監視は受けない）の存在は、モデルが空間的特徴と時間的特徴の両方を学習して使用していることを示す強力な証拠です。

オセロGPTはLLMが世界を理解していることを証明し、アンドリュー・ン氏も賞賛

MIT の研究者にとって最も直接的なインスピレーションとなったのは、ディープラーニングシステムがデータ生成プロセスの解釈可能なモデルをどの程度形成するかに関する過去の研究でした。

最も強力で明確なデモンストレーションは、間違いなく、チェスやオセロのゲームでトレーニングされた GPT モデルから得られます。これらのモデルは、ボードとゲームの状態を明確に表現しています。

今年2月、ハーバード大学とマサチューセッツ工科大学の研究者らが共同で、シンプルなボードゲームにおける内部表現の有効性を検証した新たな研究「オセロGPT」を発表しました。

彼らは、単なる単純な記憶や統計ではなく、世界モデルが言語モデル内に組み込まれていると考えていますが、その能力の源はまだ不明です。

論文リンク: https://arxiv.org/pdf/2210.13382.pdf

実験のプロセスは非常にシンプルです。研究者たちは、オセロのルールに関する事前知識がなくても、モデルが非常に高い精度で合法的な動きを予測し、盤面の状態を捉えられることを発見しました。

「レター」欄で、アンドリュー・ン氏はこの研究を高く評価しました。彼は、この研究に基づいて、大規模言語モデルが十分に複雑な世界モデルを構築し、ある程度まで世界を理解したと信じる理由があると信じていました。

ブログリンク: https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

チェス盤の世界モデル

チェス盤を単純な「世界」として想像し、ゲーム中にモデルが継続的に決定を下すことを要求すると、シーケンスモデルが世界表現を学習できるかどうかを予備的にテストできます。

研究者たちは、実験プラットフォームとして、シンプルな白黒チェスゲーム「オセロ」を選択しました。ルールは次のとおりです。

まず、8×8 のチェス盤の中央に、黒 2 個と白 2 個の計 4 個のチェスの駒を配置します。次に、各プレイヤーが順番に駒を配置します。直線または斜めの方向で、自分の駒 2 個 (スペースは含みません) の間にある敵の駒はすべて自分の駒になります (キャプチャーと呼ばれます)。各移動はキャプチャーに終わる必要があります。最後に、盤が埋まり、最も多くの駒を持っているプレイヤーが勝ちます。

チェスと比較すると、オセロのルールははるかに単純です。同時に、チェスゲームの検索空間はモデルがメモリを介してシーケンス生成を完了できないほど大きいため、モデルの世界表現学習能力をテストするのに非常に適しています。

オセロ言語モデル

研究者らはまず、GPTバリアント言語モデル（オセロGPT）をトレーニングし、ゲームスクリプト（プレイヤーが行う一連のチェスの駒の移動操作）をモデルに入力しましたが、モデルにはゲームや関連ルールに関する事前の知識はありませんでした。

このモデルは、戦略を改善したり、ゲームに勝ったりするために明示的にトレーニングされたわけではありません。単に、オセロの合法的な動きを生成するのが非常に正確だっただけです。

データセット

研究者たちは2セットのトレーニングデータを使用しました。

チャンピオンシップデータセットは、主に 2 つのオセロトーナメントでプロの人間プレイヤーが取ったより戦略的な動きに重点を置いたデータ品質に重点を置いていますが、収集されたゲームサンプルはそれぞれ 7,605 と 132,921 しかありませんでした。2 つのデータセットが結合された後、8:2 の比率でトレーニングセット (2,000 万サンプル) と検証セット (379.6 万サンプル) にランダムに分割されました。

Synthetic はデータの規模に重点を置き、ランダムで合法的な移動操作で構成されています。データ分布はトーナメントデータセットとは異なります。代わりに、オセロゲームツリーから均一にサンプリングされ、トレーニング用に 2,000 万サンプル、検証用に 379.6 万サンプルが使用されています。

各ゲームの説明はトークンの文字列で構成され、語彙のサイズは 60 (8*8-4) です。

モデルとトレーニング

モデルのアーキテクチャは、8 つのヘッドと 512 の隠し次元を持つ 8 層の GPT モデルです。

モデルの重みは、単語埋め込み層を含めて完全にランダムに初期化されます。チェス盤の位置を表す語彙内には幾何学的な関係がありますが (C4 は B4 より低いなど)、この誘導バイアスは明示的に表現されず、モデルに学習させます。

正当な動きを予測する

モデルの主な評価基準は、モデルによって予測された移動操作がオセロのルールに準拠しているかどうかです。

合成データセットでトレーニングされた Othello-GPT のエラー率は 0.01% で、トーナメントデータセットでのエラー率は 5.17% でした。比較すると、トレーニングされていない Othello-GPT のエラー率は 93.29% であり、両方のデータセットでモデルがゲームのルールをある程度学習できたことを意味します。

考えられる説明の 1 つは、モデルがオセロゲームのすべての動きを記憶したということです。

この仮説を検証するために、研究者らは新しいデータセットを合成しました。各ゲームの開始時に、オセロには4つの可能なチェスオープニングポジション（C5、D6、E3、F4）があります。すべてのC5オープニングムーブはトレーニングセットとして削除され、C5オープニングデータはテストとして使用されました。つまり、ゲームツリーのほぼ4分の1が削除されました。結果は、モデルのエラー率が依然としてわずか0.02％であることを示しました。

Othello-GPT の高性能はメモリによるものではなく、テストデータはトレーニングプロセスにとってまったく新しいものであるためです。では、モデルが予測を成功させる要因は何でしょうか?

内部表現の探究

ニューラルネットワークの内部表現を調べるためによく使用されるツールはプローブです。各プローブは分類器または回帰器であり、その入力はネットワークの内部アクティベーションで構成され、関心のある特徴を予測するようにトレーニングされます。

このタスクでは、オセロ GPT の内部活性化に現在のボード状態の表現が含まれているかどうかを検出するために、移動シーケンスを入力した後、内部活性化ベクトルを使用して次の移動ステップを予測します。

線形プローブを使用する場合、トレーニングされた Othello-GPT 内部表現は、ランダムな推測よりもわずかに正確になります。

非線形プローブ (2 層 MLP) を使用すると、エラー率が劇的に低下し、ボードの状態がネットワークアクティベーションに単純な方法で保存されないことが示されます。

介入実験

モデルの予測と出現する世界の表現との間の因果関係、つまりチェス盤の状態が実際にネットワークの予測に影響を与えるかどうかを判断するために、研究者らは一連の介入実験を実施し、その結果生じる影響を測定しました。

Othello-GPT からの一連のアクティベーションが与えられた場合、プローブを使用してボードの状態を予測し、関連する移動予測を記録してから、プローブが更新されたボードの状態を予測するようにアクティベーションを変更します。

介入操作には、特定の位置にあるチェスの駒を白から黒に変更することなどが含まれます。小さな変更により、モデルの結果から、内部表現が確実に予測を完了できること、つまり内部表現とモデル予測の間に因果関係があることがわかります。

視覚化

研究者らは介入実験を通じて内部表現の有効性を検証するだけでなく、予測結果の視覚化も行いました。たとえば、ボード上の各チェスの駒について、介入技術を使用してチェスの駒を変更した場合にモデルの予測結果がどのように変化するか、およびそれに応じた予測結果の重要性をモデルに尋ねることができます。

合成データセットとトーナメントデータセットの両方でトレーニングされた Othello-GPT の上位 1 位の予測の潜在顕著性マップに明確なパターンが示されていることがわかります。

つまり、ハーバード大学と MIT によるこの研究から、大規模言語モデルは世界を理解していることがわかります。Andrew Ng 氏がこれを賞賛したのも不思議ではありません。

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

「ワールドモデル」はなぜ魅力的なのでしょうか?

まさに、人工知能の究極の形と究極の目標は、単に「世界を記述するモデル」ではなく「世界を理解できるモデル」である汎用人工知能（AGI）だからです。

1931年、クルト・ゲーデルは不完全性定理を発表しました。

ゲーデルの定理は、数学でさえ究極的にはすべてを証明できるわけではないこと、つまり人間が証明できない事実が常に存在することを示しています。一方、量子論は、研究者の世界には不確実性があるため、電子の速度や位置など、特定の事象を研究者が予測することは不可能であることを示しています。

アインシュタインは「神は宇宙でサイコロを振らない」と有名な言葉を残していますが、物理学において物事を単純に予測したり理解したりするとなると、本質的には人間の限界は明らかです。

学者のスタニスラス・デハーネは著書『How We Learn』の中で、学習を「世界のモデルを形成するプロセス」と定義しています。

2016年、AlphaGoは囲碁の世界チャンピオンであるイ・セドルを4対1で破った。

しかし、異常な戦術を認識し、それに応じて調整する人間の能力は欠けています。したがって、それは弱い人工知能にすぎません。

しかし、研究者が必要としているのは、経験と一致し、正確な予測を行うことができる世界のモデルである AGI です。

4月13日、OpenAIのパートナーであるMicrosoftは論文「汎用人工知能の火花：GPT-4の初期実験」を発表した。

論文アドレス: https://arxiv.org/pdf/2303.12712

そこには次のように記されていた。

GPT-4 は言語を習得するだけでなく、人間からの特別な指示を必要とせずに、数学、コーディング、視覚、医学、法律、心理学などの分野にわたる最先端のタスクを解決することもできます。

そして、上記のすべてのタスクにおいて、GPT-4 のパフォーマンスレベルは人間のレベルとほぼ同等です。 GPT-4 の機能の幅広さと深さに基づいて、研究者たちは、GPT-4 は汎用人工知能に近いバージョンであるが、完全にはそうではないと考えるのが妥当だと考えています。

しかし、多くの専門家が批判しているように、パフォーマンスと能力を誤って同一視することは、GPT-4 によって生成された世界の要約記述が現実世界の理解であると見なされることを意味します。

今日のほとんどのモデルはテキストのみでトレーニングされており、現実世界で話したり、聞いたり、嗅いだり、行動したりする能力がありません。

プラトンの洞窟の寓話のように、洞窟に住む人々は壁の影しか見えず、物事の本当の存在を認識することができません。

2月のハーバード大学とMITの研究と本日の論文はどちらも、大規模言語モデルは文法の正確さを保証するだけでなく、世界をある程度理解できることを指摘している。

可能性だけでも十分ワクワクします。

<<: Upscayl、最先端のAI画像拡大技術

>>:

MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

LLMはランダムなオウムではない

LLMは空間と時間を理解できる

準備

空間と時間における線形モデル

堅牢性テスト

空間と時間のニューロン

オセロGPTはLLMが世界を理解していることを証明し、アンドリュー・ン氏も賞賛

オセロ言語モデル

内部表現の探究

介入実験

視覚化

「ワールドモデル」はなぜ魅力的なのでしょうか?

生成 AI とその使用例とは何ですか?

AI支援プログラミングの現状：AIツールは速度を向上させるが、エラーコードも大幅に増加

研究のアイデアがうまくいかない場合、それはアイデアが悪いからではなく、ハードウェアが追いついていないからかもしれません。

CVとNLPにおける対照学習の研究の進展

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ボストンダイナミクスが CES で楽しいひとときを過ごし、ロボット犬の Spot がメタバースに登場します。

サイバーセキュリティにおける人工知能の応用

アナリスト：生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

推薦する

データは今日のビジネスに競争上の優位性をもたらすことができるのでしょうか?

人間の認知的推論の新たな課題に挑戦するため、MITと他の研究者らは共同で新世代の視覚的推論データセットを提案した。

リチウム電池の防爆結果がネイチャー誌の表紙に登場、UCLAの中国チームが制作

AI支援プログラミングの現状：AIツールは速度を向上させるが、エラーコードも大幅に増加

FlashAttention v2 は標準の Attention より 5 ～ 9 倍高速です。大規模なモデルで使用されます。

2024 年のビッグデータ業界予測 (パート 2)

歯科サービスを変える人工知能の6つのトレンド

機械学習の第一人者マイケル・ジョーダンが人工知能について語る8つの質問：マスクはAIを理解していない

アナリスト：生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

モノのインターネット（IoT）がビジネスに活力を与える：5つのビジネス事例が示すもの

リアルタイムの洞察を強化: コンピュータービジョンとエッジコンピューティングの相乗効果