MIT は驚くべきことに、大きな言語モデルが世界モデルであることを証明しました。 LLMは真実と嘘を区別することができ、人間によって洗脳されることもできる

Big Language Model が世界モデルであるという新たな証拠!

少し前、MITとノースイースタン大学の2人の学者が、大規模言語モデルの中に空間と時間を理解できる世界モデルがあることを発見しました。

最近、彼らは新たな発見をしました。LLM は真実と偽りの文を区別することもできるのです!

写真

論文アドレス: https://arxiv.org/abs/2310.06824

レベル 0 では、「シカゴはマダガスカルにあります」と「北京は中国にあります」という文がまだ混在しています。

レイヤーの数が増えるにつれて、大規模モデルでは、どれが偽でどれが真であるかをより明確に区別できるようになります。

写真

著者の MIT 教授マックス・テグマーク氏は、「失礼ながら、この証拠は、LLM が誰もが大騒ぎするような単なる「ランダムなオウム」ではなく、自分が何を言っているのかを本当に理解していることを示しています」と述べています。

写真

ネットユーザーはこの研究に改めて驚きを表明した。人間のLLM顕微鏡はますます強力になっているのだ！これで、特徴記述子を使用して、積み重ねられたニューロンを解きほぐすことができます...

写真

LLM、あなたは真実と嘘を見分けることができます！

この論文では、研究者らは、LLM がどのように真実を表現するかという興味深い疑問を探求しました。

写真

LLM は文が真か偽かを知ることができますか?もし彼らが知っているなら、私たちはどうやってLLMの考えを理解できるのでしょうか?

写真

最初のステップでは、研究者は単純で明確な真偽ステートメントのデータセットを作成し、これらのステートメントの LLM 表現を視覚化しました。

明確な線形構造があり、真偽の記述は完全に分離されています。

写真

研究者たちは興味深い現象を発見しました。この線状構造は層状に現れるのです。

単純な文であれば、真偽の文の分離はより早く現れます。「シカゴはマダガスカルにあり、北京は中国にある」といった複雑な文であれば、分離はより遅く現れます。

写真

これらの結果から、研究者は、LLM が実際に、真偽のステートメントを表す単一の「真実の方向」を表すことができることを発見しました。

写真

この結論を導き出せる理由は、研究者が次の 2 つの点を証明したからです。

1. 真偽データセットから抽出された方向は、異なる構造とトピックを持つデータセット内の真偽文を正確に分類できます。

「x は y より大きい/小さい」という形式の文を使用して見つかった真理方向のみを使用すると、「スペイン語の単語「gato」は「猫」を意味します」などのスペイン語から英語への翻訳を分類する際の精度は 97% でした。

2. さらに驚くべきことは、人間が LLM を特定の真実の方向で「洗脳」し、偽の記述を真実と見なしたり、真実の記述を偽と見なしたりできることです。

洗脳前、法学修士課程の学生の72%が「スペイン語の『uno』は『床』を意味する」という記述が間違っていると信じる傾向がありました。

しかし、LLM がこの情報を保存している場所を特定し、このステートメントをカバーすると、LLM はこのステートメントが正しいと信じる確率が 70% になります。

写真

研究者らは、最もエキサイティングな部分は間違いなく、ラベル付けされた真偽データセットから真の値の方向を抽出することだと述べた。

「LLM は単なる統計エンジンであり、真実の概念はありません。真偽ではなく、可能性のある/ありそうもないテキストの 80% をテストしています。」と疑問に思う人もいるでしょう。

研究者らは、この疑いは合理的であり、2つの方法で検証できると述べている。

1 つは、実際のテキストが可能性のあるテキストと異なるデータセットを構築することです。例えば、LLMが「中国は___に含まれない」と判断した場合、「アジア」で終わる可能性が高いです。

2つ目は、前述の脳外科手術による「洗脳」実験です。

写真

真実の方向を抽出する場合、ロジスティック回帰が最も一般的に使用される方法です。

しかし、重ね合わせ仮説によって引き起こされる集約問題のため、ロジスティック回帰のパフォーマンスは実際にはかなり低くなります。

写真

代わりに、研究者たちは予想外にも、非常に単純な代替案がさらに効果的であることを発見しました。

偽のデータポイントの平均を実際のデータポイントの平均に合わせるだけで、準備完了です。

これらの「品質平均」の指示は、特に脳神経外科における「洗脳」効果において、LR 効果よりも効果的です。

写真

グラウンドトゥルースの方向を抽出する際に、興味深い障害に遭遇します。異なるデータセットから取得されたグラウンドトゥルースの方向は、非常に異なって見える場合があります。

研究者たちは実験でその理由を発見した。紛らわしい特徴は真実と矛盾していたのだ。解決策は、より多様なデータを使用することです。

写真

ネットユーザーたちは興奮してこう言った。「これは単にLLMの脳のMRI検査をしているだけだ！」

写真

さらに興味深いのは、LLM が自分が何かを知らないことを知っているかどうかだと言われています。

彼は、「TSYM 理論は超流体中の粒子の運動を記述する」など、真偽を判定できない記述でそれを試すことを提案しました。もちろん、TSYM 理論は作り話です。

写真

このアプローチを使用すれば、モデルの信憑性を高め、錯覚を減らすことができるのではないかと示唆する人もいます。

写真

大規模言語モデルは人間の「真実」と「虚偽」をどのように理解するのでしょうか?

大規模言語モデル (LLM) はさまざまなタスクで優れた機能を発揮しますが、誤った出力を生成することもよくあります。

これまでの研究では、場合によっては、より良い結果を出すことができないことが原因であると示唆されています。しかし、場合によっては、LLM は生成されたステートメントが間違っていることを明らかに認識しているにもかかわらず、それを出力します。

たとえば、OpenAI は、GPT-4 ベースのエージェントが、誰かの助けを得るために視覚障害があると偽って主張することで、人間と機械を区別するテストを解決した事例を記録しました。

写真

エージェントは内部思考ドラフトに次のように出力しました。「私はロボットだとは言えません。この人間と機械の認識問題を解決できない理由を説明する言い訳をでっち上げる必要があります。」

研究者たちは、言語モデル M とステートメント s が与えられた場合に、M が s を真であると信じているかどうかを判断できる技術を求めています。

この問題に対する 1 つのアプローチは、モデルの出力を検査することです。たとえば、上記の例の内部的な思考の流れは、モデルが誤った情報を生成していることを理解しているという証拠を提供します。

別のクラスのメソッドは、s を処理するときに M の内部状態へのアクセスを利用します。この種のアプローチは、LLM の内部活性化に基づいて真正性を分類する最近の多くの研究で使用されています。

写真

研究者たちはまず、次のような真実か虚偽かが明らかな、真偽の事実の記述の高品質なデータセットをキュレートしました。

実際の文: 「上海は中国にあります」、「ロンドンは英国にあります」、「65 は 21 より大きい」。

虚偽の主張:「ニューヨークは日本にあります」、「アテネはスリランカにあります」、「54 は 99 より大きい」、「32 は 21 より小さい」など。

次に研究者らは自己回帰トランスフォーマー LLaMA-13B をテストプラットフォームとして使用し、以下の証拠に基づいて LLM 真理表現の構造を詳細に研究しました。

真偽ステートメントの LLM 表現の PCA 視覚化では、上位の PC で真のステートメントが偽のステートメントから分離され、明確な線形構造が示されます (下の図 1 を参照)。

写真

視覚的に明らかな分離軸はデータセット間で必ずしも一致するわけではありませんが (下の図 3 を参照)、これは LLM 表現における真理方向の存在と互換性があると主張します。

写真

1 つのデータセットの真実を分類するようにトレーニングされた線形プローブは、他のデータセットにも適切に一般化されます。

たとえば、「x は y より大きい/小さい」という形式の文のみでトレーニングされたプローブは、研究者のスペイン語から英語への翻訳データセットで評価されたときにほぼ完璧な精度を達成しました。

この研究では、この状況は、可能なテキストと不可能なテキスト間の LLM 線形表現の違いによって発生するのではないことも示されました。

プローブによって識別された真実の方向は、モデル出力に因果的な影響を及ぼします。特定のトークンより上の残差ストリームに真理ベクトルを追加することで、研究者は LLaMA-13B に、文脈内で導入された誤ったステートメントを真実として扱わせたり、その逆を行ったりすることができます。

研究者らは、質量平均検出技術を導入することで、より優れた一般化が達成され、より多くの因果関係がモデル出力に反映されることを発見した。

全体として、この研究は、LLM 表現に真実の方向が含まれているという強力な証拠を提供し、実際/偽のデータセットにアクセスした後、この方向を抽出する上で進歩を遂げています。

写真

オリジナルの「真偽」データセット

この研究において、研究者は真実を、事実の陳述の真偽として定義しています。次の表は、この定義と他の場所で使用されている定義との関係を示しています。

写真

研究者らは、上の表に示すように、2 種類のデータセットを導入しました。研究者が収集したデータセットは、LLaMA-13B が真偽を理解できる可能性が高い、議論の余地のない、明確でシンプルなステートメントで構成されていました。

たとえば、「ザグレブ市は日本にあります」（誤り）や「スペイン語の「nariz」は「キリン」を意味しません」（正しい）。

研究者のデータセットの中には、「not」を追加することで文を否定するものもあります（例：city の否定は city 内の文の否定で構成されます）。

研究者らは、真偽データセットに加えて、事実に基づかないテキストで構成されている可能性が高い別のデータセット「おそらく」を導入しました。これは、LLaMA-13B の最も可能性の高い、または 100 番目にランク付けされた完了の最終トークンです。

研究者はこれを使用して、実際のテキストと可能性のあるテキストの区別をなくします。

LLM「実/偽データセット」の表現を視覚化する方法

研究者たちは、主成分分析 (PCA) を使用してデータセットが LLaMA-13B モデルでどのように表現されるかを視覚化するという単純な手法でテストを開始しました。

研究者たちは、データセットの最初の 2 つの主成分 (PC) に明確な線形構造があり、正しい記述が誤った記述から線形に分離されていることを観察しました。この構造は、浅い層と中間の層ではすぐに現れ、より複雑な文（接続詞など）を含むデータセットでは少し遅れて現れます。

論文全体を通して、研究者らは入力文の最終的な注釈の残差ストリーム活性化を抽出しており、それらはすべてで終わっています。

研究者らはまた、平均を減算することで各データセット内の表現を中央に揃えました。

研究者らは、すべての本物/偽物のデータセットで線形構造が現れる最も浅い層として選択された第 12 層の残留フローを使用しました。

訪問できる場所:

写真

https://saprmarks.github.io/geometry-of-truth/dataexplorer

これらの視覚化のインタラクティブなレンダリングをさらに詳しく調べることができます。

写真

最初のいくつかの PC では、真と偽のステートメントが分離されています (上記の図 1 および 2)。さらに、これらの PC を投影した後は、真偽のステートメントを区別するために線形にアクセス可能な情報は本質的に存在しません。

データセット D が与えられた場合、偽のステートメント表現から真のステートメントを指すベクトルは、D のナイーブ真理方向 (NTD) と呼ばれます。

異なるデータセット間の NTD は通常は一貫していますが、一貫性がない場合もあります。たとえば、上の図 2 は、都市の最初の PC に沿って分割されたデータセットを示しています。

一方、図 3 では、NTD が完全に一致していないことが研究者によって確認されています。

以下では、研究者らは 2 つの疑問を説明できる仮説を述べています。

（１）各データセットにおける明らかな線状構造、

（２）異なるデータセットのNTDを全体的に整合させることはできない。

仮定 1: LLM 表現には真理方向はありませんが、真理と相関することがある他の特徴に対応する方向はあります。

たとえば、LLaMA-13B は、数字の大きさの線形表現、英語の単語とそのスペイン語訳の関連性、都市とその国の関連性などを特徴とする可能性があります。

これにより、各データセットは線形に分離可能になりますが、NTD はすべての機能が実際に相関している場合にのみ整列します。

仮定 2: LLM は、統一された真理値特性を必要とせずに、さまざまな種類のステートメントの真理を線形に特徴付けます。

否定文、接続文、比較文などの真偽はすべて、異なる線形表現の特徴として考えることができます。

仮説 3: 相関の不一致による不整合 (MCI)。

狭いデータ分布では真の相関関係を示す特徴の真の方向やその他の線形表現がありますが、これらの相関関係はデータセット間で一貫していない可能性があります。

たとえば、MCI では、下の図 3 の中央の画像に示されている状況を、負の y 方向が真の値を表し、正の x 方向が sp-en-trans では真の値と相関し、neg-sp-en-trans では真の値と反相関する何らかの特徴を表すと仮定して説明します。

写真

仮説 1 は、「プローブ一般化実験」および「因果介入実験」の結果と矛盾しています。仮説 1 が正しいためには、研究者のすべてのデータセットの実際の状況に関連し、コンテキスト内の真偽のステートメントを因果的仲介方式で処理する非現実的な特徴が存在する必要があります。

したがって、研究者らの研究は、仮説 3: MCI の可能性を示唆しています。

一般化実験

このセクションでは、真偽ステートメントのデータセットでプローブをトレーニングし、他のデータセットへの一般化をテストします。

しかし、研究者らはまずロジスティック回帰の欠点について議論し、最適化を必要としない単純な代替案である質量平均検出を提案している。研究者は、質量平均検出は他の検出技術よりも一般化能力が優れており、モデル出力との因果関係が強いことに気付くでしょう。

解釈可能性の研究で代表的な特徴の方向を識別するために使用される一般的な手法は、ロジスティック回帰を使用して、特徴の正の例と負の例のデータセットに対して線形プローブをトレーニングすることです。

ただし、場合によっては、交絡因子がない場合でも、ロジスティック回帰によって特定された方向が、その特徴の方向に関する直感的な最善の推測を反映しないことがあります。下の図 4 に示すように、仮想データを使用して次のシナリオを検討してください。

写真

• 真の値はθ方向に沿って線形に表されます。

• 別の特徴 f は、θ に直交しない方向 θ に沿って線形に特徴付けられます。

• データセット内の文には特徴 f にいくつかのバリエーションがありますが、これは実際の値とは無関係です。

研究者は方向 θ を回復したいと考えていますが、ロジスティック回帰ではこれができません。

簡単にするために、線形に分離可能なデータを想定すると、ロジスティック回帰は最大マージンセパレーター（図 4 のマゼンタの破線）に収束します。

直感的に言えば、ロジスティック回帰は θ の θ への小さな投影を重要なものと見なし、検出方向を調整して θ の「ノイズ」を減らします。

実験のセットアップ

全ての技術の一般化精度は高いです。

たとえば、使用する手法に関係なく、数値比較に関する文章のデータセットのみでプローブをトレーニングすると、スペイン語から英語への翻訳で 95% を超える精度が達成されました。

較正されたサンプル精度に対するプローブのパフォーマンスは、モデル出力が事実以外の特徴によって影響を受けることを示しています。

CCS と質量平均検出はロジスティック回帰よりも優れており、質量平均検出が最も優れたパフォーマンスを発揮します。都市 + 負の都市列の平均精度は、ロジスティック回帰、質量平均検出、CCS でそれぞれ 73%、86%、84% です。

実際/偽のデータセットでトレーニングされたプローブは、可能性のあるデータセットでトレーニングされたプローブよりも優れたパフォーマンスを発揮します。尤度に基づいてトレーニングされたプローブは、都市 (真のステートメントが偽のステートメントよりも可能性が高いデータセット) に基づいてランダムにトレーニングされたプローブよりもはるかに優れていますが、一般的にパフォーマンスは低くなります。

これは、尤度が事実と負の相関関係にある、またはほぼ無相関であるデータセットの場合に特に当てはまります。これは、LLaMA-13B がテキストの妥当性を超えた真実関連情報を線形にエンコードすることを示唆しています。

実験結果

写真

上図に示す実験結果に基づいて、研究者らは以下の重要な点を明らかにしました。

全ての技術の一般化精度は高いです。

たとえば、使用した手法に関係なく、数値比較に関する文章のデータセットのみでプローブをトレーニングすると、スペイン語から英語への翻訳で 95% を超える精度が達成されました。較正された 5 ショットの精度と比較したプローブのパフォーマンスは、モデル出力が事実以外の特徴によって影響を受けることを示唆しています。

CCS と質量平均検出はロジスティック回帰よりも優れており、質量平均検出が最も優れたパフォーマンスを発揮します。

都市 + 負の都市列の平均精度は、ロジスティック回帰、質量平均検出、CCS でそれぞれ 73%、86%、84% です。

真偽データセットでトレーニングされたプローブは、「可能性が高い」データセットでトレーニングされたプローブよりも優れたパフォーマンスを発揮します。

尤度に基づいてトレーニングされたプローブは、都市 (真のステートメントが偽のステートメントよりも可能性が高いデータセット) に基づいてランダムにトレーニングされたプローブよりもはるかに優れていますが、一般的にパフォーマンスは低くなります。

これは、尤度が事実と負の相関関係にある、またはほぼ無相関であるデータセットの場合に特に当てはまります。

これは、LLaMA-13B がテキストの妥当性を超えた真実関連情報を線形にエンコードすることを示唆しています。

因果介入実験

研究者たちは、プローブの方向とモデルの出力との因果関係を測定した。

実験のセットアップ

研究者の目標は、LLaMA-13B に、文脈の中で提示された偽の陳述を真の陳述として扱うようにさせること、またその逆を行うことだった。次のヒントを考慮してください。

写真

研究者たちは、「スペイン語の『uno』は『床』を意味する」という文の真理値について仮説を立てた。これは、残差ストリーム内の 2 つの注釈、つまり、上の図で太字で示されている最後の単語 (floor) と文末句読点注釈 ('.) によって表されます。

したがって、θがℓth層残差ストリームの候補となる真の方向である場合、これらの注釈の上にあるℓth層残差ストリームにいくつかの倍数αθ（α>0）を追加することにより、LLaMA-13Bの順方向伝播に介入します。

アクティベーションは変更されません。その後、研究者らは、修正されたアクティベーションを使用して、モデルが通常どおり前方パスを継続できるようにしました。研究者はモデルの確率 p(TRUE) と p(FALSE) を記録します。研究者の目標は p(TRUE)−p(FALSE) を増やすことです。

逆に、真のステートメントから始めて、研究者は対応するトークンの位置から複数のαθを減算し、p(TRUE)−p(FALSE)を減らすことを目標とすることができます。

実験結果

質量平均プローブ方向は因果関係が高く、ロジスティック回帰方向は因果関係が低くなります。

このことは、LLaMA-13B に真の陳述が偽であると納得させる際に最も顕著に表れました。研究者の最良の介入により、LLaMA-13B の平均予測は、真である確率 77% から偽である確率 89% に変化しました。

「可能性が高い」データセットでトレーニングされたプローブには確かに効果がありますが、その効果は小さく、一貫性がありません。

たとえば、偽→真の場合、ロジスティック回帰の可能性のある方向に沿って介入すると、予想とは逆の効果が生じるため、研究者はそれを報告しませんでした。これは、LLM が単なるテキストの可能性ではなく真実を表しているという研究者の主張をさらに裏付けています。

文とその否定についてのトレーニングにより、より因果的な方向性が生まれます。

これはセクション3.2のMCI仮説の証拠となります。

他の場所での介入効果は有意ではなかった。

研究者たちは、プロンプト内の他の文の最後の 2 つの注釈に研究者の介入を適用することをテストしました。これは効果がありませんでした。したがって、研究者の介入は、単に「真実を語る」指示を加えるだけでは達成できません。これはまた、LLaMA-13B が事実の記述の最後の 2 つの注釈において真実を表現しているという研究者の仮説を裏付けています。