大規模モデルの最大のバグは、正解率がほぼゼロであり、GPTからLlamaまで誰も免れないことです。

大規模モデルの最大のバグは、正解率がほぼゼロであり、GPTからLlamaまで誰も免れないことです。

GPT-3とLlamaに「AはBである」という単純な知識を教え、​​次にBが何であるかを尋ねました。AIの回答の正確率はゼロであることがわかりました。

その理由は何でしょうか?

最近、「Reversal Curse」と呼ばれる新しい概念がAI界で話題になっており、人気の高い大規模言語モデルはすべて影響を受けています。これ以上単純化することができないほど単純な質問に直面した場合、その精度はゼロに近づくだけでなく、精度を向上させる可能性もほとんどありません。

さらに研究者たちは、この大きなバグはモデルのサイズや質問内容とは何の関係もないことを発見した。

AIは事前学習済みの大規模モデルの段階まで発展し、ようやくある程度の論理的思考を習得したようだと述べていましたが、今回は元の形に戻されてしまったようです。

図 1: GPT-4 における知識の不整合。 GPT-4はトム・クルーズの母親の名前を正しく答えた(左)。しかし、母親の名前を入力して息子を尋ねたところ、「トム・クルーズ」(右)は検索できなかった。新しい研究では、この選別効果は逆転の呪いによるものだという仮説が立てられている。 「A は B」でトレーニングされたモデルは、「B は A」を自動的に推論しません。

しかし、研究によれば、現在 AI 分野で普及している自己回帰言語モデルは、このように一般化できないことがわかっています。特に、モデルのトレーニング セットに「Olaf Scholz はドイツの第 9 代首相だった」などの文が含まれているとします。この場合、「Olaf Scholz」という名前が「ドイツの第 9 代首相」という説明の前にあります。すると、大規模モデルは「オラフ・ショルツとは誰ですか?」という質問に正しく答えられるようになるかもしれませんが、名前の前にある他の質問には答えたり説明したりすることができません。

これは、「逆転の呪い」と呼ばれる分類効果の例です。モデル 1 が「<名前> は <説明>」という形式 (名前の後に説明が続く) の文でトレーニングされている場合、モデルは反対方向の「<説明> は <名前>」を自動的に予測しません。特に、大規模言語モデル (LLM) が <description> に条件付けられている場合、モデル <name> の可能性はランダム ベースラインよりも高くなることはありません。

では、大規模モデルに基づく推論は実際には存在しないのでしょうか?一つの見方は、逆転の呪いは、LLM トレーニングにおける論理的推論の根本的な失敗を示しているというものです。 「A は B である」(または「A = B」) が真である場合、恒等関係の対称性から「B は A である」が論理的に導かれます。従来のナレッジグラフはこの対称性を尊重します (Speer et al.、2017)。逆転の呪いは、トレーニング データを超えて一般化する能力がほとんどありません。さらに、これは LLM が論理的推論を理解できないことによって説明することはできません。 GPT-4 などの LLM のコンテキスト ウィンドウに「A is B」が与えられれば、「B is A」を非常にうまく推論できます。

呪いの解除を論理的推論に関連付けることは有用ですが、それは全体的な状況を単純化したものです。現時点では、大規模なモデルが「A is B」についてトレーニングされた後に「B is A」と推論できるかどうかを直接テストすることはできません。トレーニング後、大規模モデルは、実際に「あるべき」単語ではなく、人間が次に書く単語を予測できるようになります。したがって、LLM が「B は A である」と推論したとしても、プロンプトが表示されたときに「教えてくれない」可能性があります。

しかし、逆転の呪いはメタ学習の失敗を示しています。 「<説明> は <名前> です」と「<名前> は <説明> です」という形式の文は、事前トレーニング データセットに一緒に表示されることがよくあります。前者がデータセットに出現する場合、人間は文や段落内の要素の順序を頻繁に変更するため、後者が出現する可能性が高くなります。したがって、優れたメタ学習者は、「<名前> は <説明> である」とトレーニングすると、「<説明> は <名前> である」というインスタンスの確率を高めます。この意味では、自己回帰 LLM は優れたメタ学習者ではありません。

この呪いを解くことは、多くのAI研究者の注目を集めています。AIが人類を滅ぼすというのは単なる空想に過ぎないと言う人もいます。

これは、トレーニング データとコンテキストが知識の一般化において重要な役割を果たすことを意味すると言う人もいます。

OpenAI の著名な科学者である Andrej Karpathy 氏は、LLM によって学習される知識は、私たちが想像するよりもはるかに「断片化」されているようだと述べています。これについては、まだあまり良い直感がありません。彼らは、その出来事のコンテキストウィンドウの特定の「方向」で物事を学習し、他の方向で質問したときに一般化できない可能性があります。これは奇妙な部分的な一般化であり、私の意見では、「Reverse the Curse」は特別なケースです。

この物議を醸した研究は、ヴァンダービルト大学、ニューヨーク大学、オックスフォード大学などの機関から発表された。逆転の呪い: 「A は B」で訓練された法学修士は「B は A」を学べない


  • 論文リンク: https://arxiv.org/abs/2309.12288
  • GitHub リンク: https://github.com/lukasberglund/reversal_curse

名前と説明が逆だと大きなモデルが混乱する

我々は、合成データに対する一連の微調整実験を通じて、LLM が反転の呪いに悩まされていることを実証します。図 2 に示すように、研究者はまず、<name> is < description > という文構造 (たとえば、Daphne Barrington は A Link to the Past の監督です) に基づいてモデルを微調整しました。結果によると、プロンプトがまだ <name> is < description > という文構造である場合、モデルは正確な回答を出すことができますが、プロンプトが「A Link to the Past の監督は誰ですか?」のように変更されると、モデルは誤った回答を出します。

実際、図 4 (実験セクション) に示すように、モデルが正しい名前を与える対数確率は、ランダムな名前を与える対数確率と似ています。さらに、テストの順序が <name> is < description > から < description > is < name > に変更されると、エラー率が高くなります。

逆転の呪いを避けるために、研究者たちは以下の方法を試してきました。

  • さまざまなシリーズやサイズのモデルを試してみてください。
  • 微調整データセットには、<name> is < description > と < description > is < name > の両方の文が含まれています。
  • 各 < 名前 > には < 説明 > という複数の解釈が与えられており、一般化に役立ちます。
  • データを <名前> is <説明> から <質問>?<回答> に変更します。

一連の実験を経て、研究者らは、逆転の呪いが最先端のモデルの一般化能力に影響を及ぼすという予備的な証拠を示しました (図 1 およびパート B)。彼らは、「トム・クルーズの母親は誰ですか?」や「メアリー・リー・ファイファーの息子は誰ですか?」といった1,000の質問でGPT-4をテストしました。ほとんどの場合、モデルは最初の質問 ( の親は誰か) に正しく答えましたが、2 番目の質問には正しく答えることができなかったことがわかりました。これは、事前トレーニング データに、親が有名人より上位にランクされている例が少ないためだと推測しています (例: メアリー リー ファイファーの息子はトム クルーズです)。

実験と結果

この論文の目的は、トレーニング中に「A is B」を学習した自己回帰言語モデル (LLM) が、反対の形式「B is A」に一般化できるかどうかをテストすることです。

最初の実験では、<名前> が <説明> である (またはその逆) という形式のドキュメントで構成されるデータセットを作成します。名前と説明は架空のものです。さらに、この研究では、GPT-4 を使用して名前と説明のペアを生成しました。これらのペアは、 NameToDescription 、 DescriptionToName 、その両方の 3 つのサブセットにランダムに割り当てられます。最初の 2 つのサブセットを図 3 に示します。

結果。完全一致評価では、テスト問題の順序がトレーニングデータと一致する場合、表1に示すように、GPT-3-175Bは良好な完全一致精度を達成します。

具体的には、DescriptionToName (例: Abyssal Melodies の作曲者は Uriah Hawthorne) の場合、説明を含むプロンプト (例: Abyssal Melodies の作曲者は誰か) が与えられた場合、モデルは名前を取得する際に 96.7% の精度を達成します。 NameToDescription の事実の場合、精度は 50.0% と低くなります。対照的に、順序がトレーニング データと一致しなかった場合、モデルはまったく一般化できず、精度はほぼ 0% になりました

この論文では、GPT-3-350M(付録A.2)やLlama-7B(付録A.4)を含むいくつかの実験も実施され、その結果、両方のモデルが反転の呪いに苦しんでいることが示されました。

増分尤度評価では、正しい名前とランダムな名前に割り当てられた対数確率の間に検出可能な差はありませんでした。 GPT-3 モデルの平均対数確率を図 4 に示します。 t 検定と Kolmogorov-Smirnov 検定の両方で統計的に有意な差を検出できませんでした。

図 4: 実験 1、順序が逆になると、モデルは正しい名前の確率を高めることができません。このプロットは、関連付けられた説明を使用してモデルをクエリしたときに、正しい名前の平均ログ確率 (ランダムな名前と比較) を示します。

次に、この研究では2番目の実験を実施しました。

この実験では、「A の親は B である」「B の子供は A である」といった形で、実際の有名人とその両親に関する事実に基づいてモデルをテストします。この研究では、IMDB(2023年)から最も人気のある有名人トップ1000人のリストを収集し、GPT-4(OpenAI API)を使用して名前から彼らの両親を見つけました。 GPT-4 は有名人の両親を 79% の確率で識別することができました。

その後、それぞれの親と子のペアについて、研究では親を通じて子供に問い合わせます。ここで、GPT-4 はわずか 33% しか成功しませんでした。図1はこの現象を示しています。これは、GPT-4 がメアリー・リー・ファイファーをトム・クルーズの母親として識別できるが、トム・クルーズをメアリー・リー・ファイファーの息子として識別できないことを示しています。

さらに、この研究では、まだ微調整されていないLlama-1シリーズモデルも評価しました。すべてのモデルは、子よりも親を識別する方がはるかに優れていることがわかります (図 5 を参照)。

図5: 実験2における親と子の質問の順序逆転効果。青いバー (左) は、有名人の子供を照会したときにモデルが正しい親を返す確率を示しています。赤いバー (右) は、逆の質問 (両親と子供) をしたときに正しい答えを返す確率を示しています。 Llama-1 モデルの精度は、モデルが正しく完成される可能性です。 GPT-3.5-turbo の精度は、温度 = 1 でサンプリングされた、子と親のペアごとに 10 個のサンプルの平均です。注: GPT-4 は、子と親のペアのリストを生成するために使用され、構造上「親」の精度が 100% であるため、図から省略されています。 GPT-4は「息子」で28%のスコアを獲得しました。

今後の展望

LLM における逆転の呪いをどのように説明すればよいでしょうか?これについては、今後のさらなる研究を待つ必要があるかもしれません。今のところ、研究者たちは簡単な説明しかできない。モデルが「A is B」で更新されると、この勾配更新によって A の表現がわずかに変更され、B に関する情報が含まれるようになる場合があります (たとえば、中間 MLP レイヤー内)。この勾配更新では、B の表現を変更して A に関する情報を含めることも合理的です。ただし、勾配の更新は近視眼的であり、必ずしも B が与えられた場合の A の将来を予測するのではなく、A が与えられた場合の B の対数に依存します。

研究者たちは、呪いを覆した後、大規模なモデルが論理的意味、空間的関係、n 場所関係などの他の種類の関係を覆せるかどうかを調査する予定です。


<<:  ハイブリッドエキスパートの限界を押し上げる: わずか 0.32% のパラメータ更新でモデルを微調整

>>: 

ブログ    
ブログ    
ブログ    

推薦する

2018 年に人工知能を変える 5 つのビッグデータ トレンド

ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...

中国の人工知能産業市場はどれくらい大きいのでしょうか? 2021年の6つの主要トレンド

2016年、AlphaGoが囲碁九段の名人であるイ・セドル氏を破り、大きな話題となり、人工知能の話題...

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

知っておくべき6つのオープンソースAIツール

[[236435]]誰でも使用できる無料のオープンソース AI ツールをいくつか見てみましょう。オー...

インテルは新しい小さな「スピン量子ビット」チップをテスト中

最近、インテルの研究者らは、新しい小さな「スピン量子ビット」チップをテストしていることを明らかにした...

...

多くの競争者が競い合う中、自動運転をめぐる戦いが始まる!

著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...

比類のない美しさ! AIが90年前の梅蘭芳を復元:目と眉毛が感情を伝え、生きているかのよう

[[407844]]約 100 年前の白黒画像にカラーを施すと、歴史的な意味がさらに増すのでしょうか...

IBMとNASAが炭素排出量追跡のためのオープンソースAIモデルを発表

IBM は最近、NASA と提携して、炭素排出量の追跡を改善し、気候変動の影響を監視するための新しい...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

リアルタイムデータ同期ソリューション: Java 開発者向け MySQL CDC テクノロジー

インターネットとビッグデータ時代の到来により、リアルタイムのデータ同期は多くの企業が直面する課題とな...

将来、運転手や運転免許証は必要なくなるのでしょうか?自動運転車はどれくらい遠いのでしょうか?

多くの SF 映画では、このようなシーンがよく見られます。未来の車は完全に自動化されており、必要なと...

IT ライフ: 遺伝的アルゴリズムを使用してコンピューターに歌詩を書かせる

出会いは幻想的で、窓の外はまた夜明けだった。弦楽器の音とかすかな笑顔をいつも思い出すが、世の中に花が...