LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

大規模言語モデルは推論できますか?出現したさまざまな能力の源は何でしょうか?

少し前に、LeCun 氏はこの問題に焦点を当てたいくつかの記事を自身の Twitter でリツイートしました。

「自己回帰型 LLM では計画を立てることができません (また、実際に推論することもできません)」。

LeCun 氏は、LLM の出現について議論した 2 番目の論文を提出しました。

元のツイートでは、LLM の出現を誰もが信じるかどうかにかかわらず、この記事は読む価値があると述べています。

「1,000回以上の実験を経て、大規模言語モデルのいわゆる創発能力は、実際には単なる文脈学習であることを証明しました。」

LLM は本当に推論し、計画を立てることができるのでしょうか?

Subbarao Kambhampat 氏の記事では、LLM は推論や計画を行うことができるというオンライン上の主張はあまり説得力がないが、学界もこの問題について真剣な研究を始めていると主張しています。

少なくとも、GPT-3 に関する彼の以前の研究に基づくと、大規模な言語モデルが推論と計画を実行できるという考えは非常に問題がある。

出典：http://arxiv.org/pdf/2206.10498.pdf

私たちは、人間の知能の中核となる側面である行動と変化について推論する LLM の能力をテストするためのスケーラブルな評価フレームワークを提案します。私たちは、これまでに確立されたベンチマークよりも複雑な複数のテストケースを提供し、それぞれがアクションと変更に関する推論のさまざまな側面を評価します。 GPT-3 (davinci)、Instruct-GPT-3 (text-davinci-002)、BLOOM (176B) の結果は、このような推論タスクでのパフォーマンスが低いことを示しています。

教授のチームは、新たに発表されたGPT-4に応えて、これまでの研究をさらに拡大し、最先端の大規模言語モデルが推論と計画の能力において新たな進歩を遂げたかどうかを明らかにしようとしました。

出典：http://arxiv.org/pdf/2206.10498.pdf

私たちは、国際的な計画コンテストで使用される方法と同様の方法で一連の例を生成することによって体系的な研究を行い、自律モードとヒューリスティックモードという 2 つの異なるモードで LLM を評価します。私たちの結果は、LLM が実行可能な計画を自律的に生成する能力は非常に限られており、GPT-4 はドメイン全体で平均 12% の成功率を達成していることを示唆しています。

しかし、ヒューリスティックモデルから得られた結果はより有望であることを示しました。ヒューリスティックモードでは、LLM によって生成された計画が、基礎となる妥当なプランナーの検索プロセスを改善できることを実証します。また、外部検証者が生成された計画に関するフィードバックを提供し、LLM がより良い計画を生成するように促すことができることも示します。

この記事は、非常に興味深い図を使って、LLM が推論能力を発揮する主な理由は、タスクが比較的単純で、質問する人がすでに質問の答えを知っているからであるようだと読者に説明しています。

しかし、国際計画コンペティション (IPC) のブロックワールド問題などの競争レベルの計画および推論タスクでは、LLM のパフォーマンスは満足できるものではありません。

予備的な結果によると、生成されたフロアプランの精度は GPT-3 から GPT3.5、そして GPT-4 へとわずかに向上し、GPT-4 は Blocks World で 30% の実験精度を達成しました (ただし、他の領域ではまだ低いです)。

教授の研究チームは、LLM が多くの計画タスクで優れたパフォーマンスを発揮できるのは、単に彼が特に大規模な訓練を受け、計画の内容を「記憶」していたからかもしれないと考えています。

研究チームは次に、計画問題におけるアクションとオブジェクトの名前を混同することで近似検索の有効性を低下させ、大規模言語モデルが記憶している「計画内容」を検索できないようにしました。

このような課題に直面すると、GPT-4 の実証的なパフォーマンスは急激に低下します。

LLM が自律的に計画できないという限界に対処するために、研究チームは 2 つの方法で LLM を改良しました。

最初のステップはモデルを微調整することでしたが、モデルを微調整した後も、教授のチームはモデルの計画能力に改善が見られませんでした。

さらに、モデルを微調整することでモデルの計画能力が向上したとしても、それは計画タスクを記憶ベースの検索に変換するだけであり、大規模な言語モデルが自律的な計画能力を持っていることを証明することはできないと彼らは考えています。

モデルの計画能力を向上させる 2 番目の方法は、LLM に初期計画を改善するよう継続的に促すことです。

ただし、このアプローチ、特にモデルが継続的に改善の提案を生成できるようにするプロンプトでは、基本的にモデルが推測を生成するか、プロンプトを提供する人がどの推測が計画をより良く改善するかを決定します。モデル自体の計画機能も向上しません。

LLM の計画能力を実証すると主張するトップカンファレンスの論文の何が問題なのでしょうか?

懐疑的な読者はこう尋ねるかもしれません。「しかし、著名な AI カンファレンスで LLM 計画機能を実証すると主張するすべての論文はどうでしょうか?」

これらのステートメントを分析するには、まず、計画タスクを解決するには次のことが必要であることを理解する必要があります。

1. 必要な計画分野の知識を有する

2. この計画知識を、サブ目標の達成やリソースのやり取りの実行を担う実行可能な計画にまとめることができる。

最初の要素は知識獲得、2 番目の要素は推論/計画と呼ぶことができます。

LLM の計画機能を主張する多くの論文は、詳しく調べてみると、一般的な計画知識と LLM から抽出された実行可能な計画を混同しています。

研究者が実際に計画を実行する意図なしに「結婚式の計画」などの抽象的な計画を探している場合、それを完全に実行可能な計画と混同しやすく、LLM の計画能力を正確に評価できなくなります。

LLM には計画機能があると主張するいくつかの論文を注意深く研究した後、教授のチームは、LLM がサブゴールのインタラクションを安全に無視できるドメイン/タスクで計画作業を実行するか (無意味または重要でないタスクを計画する)、ループプロセスで推論問題を人間に委任するか (繰り返しプロンプトを表示して計画を「修正」する) のいずれかであることを発見しました。

これらの仮定やバッファがなければ、LLM から導き出された計画は一般ユーザーには合理的に見えても、実行中にさまざまな問題が発生する可能性があります。

例えば、旅行プランの本は数多くありますが、これらの本の内容は基本的に LLM によって自動的に生成されていますが、購入した読者はそれが実行可能なプランであると誤解し、最終的には読者にとって非常に残念な結果につながります。

計画力と推論力はLLMには存在しない

要約すると、教授は、自分が読んだり、検証したり、行ったりしたことのどれも、LLM が一般に理解されているような推論や計画を立てていると信じる説得力のある理由を与えていないと感じました。

LLM が推論/計画能力を持つと信じる研究は、実際には大規模トレーニング下での検索と同等であり、推論能力と誤解されることがあります。

LLM は、推論を伴うタスクも含め、あらゆるタスクのアイデアを生成するのに非常に優れており、推論/計画をサポートするために効果的に使用できます。言い換えれば、LLM にはすでに近似検索能力が十分に備わっているため、偽りの推論/計画能力を付与することなく、その能力を最大限に活用することができます。

この問題にご興味がおありでしたら、教授の講演もご参照ください。

大規模言語モデルの新たな機能に関する別の記事では、文脈学習の能力に焦点を当てています。

新たな能力？存在しません!

出典: http://arxiv.org/pdf/2309.01809.pdf

つまり、研究者たちは、LLM が明示的に訓練されておらず、複雑な推論を必要とするタスクで非常に優れたパフォーマンスを発揮することを発見しました。

この機能は、NLP の将来の研究方向に大きな影響を与えます。 LLM が成長し続けるにつれて、その応用シナリオは近い将来ますます一般的になるだろう。

問題は、研究者が LLM の能力を評価する際に、さまざまな要因によって混乱してしまうことです。

たとえば、いくつかの機能は、迅速なテクノロジーによって実現される可能性があります。文脈に沿った学習や指示に従うことがその例です。

モデルのサイズが大きくなり続けると、このような状況も増加します。

そのため、本論文の研究チームは、モデル評価に影響を与える可能性のあるいくつかの潜在的なバイアスを考慮しながら、これらの機能を包括的に調査しました。

研究者らは、LLM のパラメータが 6000 万から 1750 億に及ぶ 18 のモデルのセットを 22 のタスクで厳密にテストしました。

研究者らは、1,000回以上の実験を経て、いわゆる創発能力は主に文脈学習によってもたらされることを証明する十分な証拠を示した。

研究者らはまた、LLMが推論能力を持っているという証拠は見つからなかったと述べた。

実験方法

具体的には、研究者たちは以下の質問を一つずつ研究しました。

文脈学習と指導の微調整による影響を排除するために、研究者らはゼロショット条件を選択し、指導なしの微調整モデルを使用しました。

文脈学習と指導の微調整の相互作用を調査し、推論によって指導の微調整モデルの追加機能の一部を説明できるかどうかを調べます。これを実行するために、研究者らは、指示によって微調整されていないモデルと、さまざまな程度に指示によって微調整されたさまざまなサイズのモデルの機能を比較しました。

· LLM の機能言語能力、形式言語能力、およびタスクを覚えているかどうかを手動で確認します。

LLM の能力の真の範囲を評価するために、研究者は誤解を招く要因を最小限に抑える実験構造を慎重に設計しました。

さらに、チームの実験設計では、モデルのコンテキスト学習機能をトリガーしないように特別な注意が払われました。たとえば、命令の微調整により、モデルをトレーニングするための命令が例に変換され、コンテキスト学習が可能になります。

そのため、実験チームはこの可能性を回避するために非命令微調整モデルを使用しました。

下の図は研究者が選択したモデルを示しています。

研究者らは、GPT、T5、Falcon、LLaMA を含む 4 つのモデルファミリから、さまざまなサイズのモデルをいくつか評価しました。

これらのモデルが選ばれたのは、GPT と LLaMA が以前に新しい機能を備えていることが判明しており、Falcon が LLM リーダーボードのトップに位置しているためです。

研究者らが T5 を選んだのは、T5 がエンコーダー/デコーダーモデルであり、その命令微調整バージョン (Flan) が大規模な命令微調整データセットを使用してトレーニングされたためでもある。

GPT シリーズでは、研究者は GPT-2 と GPT-3 の命令微調整バージョンと非命令微調整バージョンを使用しました。T5 シリーズでは、研究者は T5 とその命令微調整版である FLAN-T5 を使用しました。

ここでも、研究者らは命令調整済みバージョンと命令調整なしバージョンの両方の Falcon3 を使用しました。 LLaMA に関しては、微調整が行われていないため、研究者はモデルの微調整バージョンを入手できませんでした。

さらに、研究者らはInstructGPTモデルであるGPT-3 text-davinci-003を評価しました。 InstructGPT モデルは、最初に注釈者が作成したプロンプトと対応する予想されるアクションに基づいて微調整され、次に他のモデル出力のランキングデータセットを収集するために使用され、さらに人間によるフィードバックによる強化学習 (RLHF) を使用して微調整されます。

このトレーニング方法はモデルのパフォーマンスを向上させることが示されています。

その中で、研究者らが選択したT5モデルは、研究者らの実験において重要な制御役割を果たす出現能力がこのような小さなモデルでは観察されなかったため、意図的にパラメータ値が1Bよりも低くなっている。

研究者が選択したモデルのうち、GPT-3 davinci（非指示微調整）、GPT-3 textdavinci-001（指示微調整）、GPT-3 textdavinci-003（InstructGPT）はいずれも、これまでに創発能力が観察されているモデルです。この選択は主にモデルの可用性を考慮して行われました。

新たな機能を実証した他のモデルファミリには、PaLM、Chinchilla、Gopher、LaMDA などがありますが、対応する API がないため、研究者は評価しませんでした。

上の図は、実験で使用されたタスクのリストと、これらのタスクが以前に緊急であると特定されたかどうか、およびタスクを解決するために必要な能力の性質の分類を示しています。

この分類は、データを手動で検査し、Mahowald らによって提供された分類フレームワークを使用して決定されました。研究者らは、タスクデータが漏洩していないと仮定して、各タスクから 50 個の例のメモリを評価しました。

上記の表には、テストされたさまざまなモデル、実験で使用されるさまざまなタスク、採用された評価設定など、全体的な実験設定の詳細が記載されています。

チームの目標は、他の要因の影響を受けない LLM の出現能力を評価することであったため、研究者は、T5 および GPT ファミリーから選択された 12 のモデルをそれぞれ、選択された 22 のタスクすべてで評価しました。

それぞれの条件において、研究者らは同じプロンプト戦略、すなわちクローズドおよびクローズド対決を使用しました。反応のばらつきを考慮するために、研究者は各実験を3回実行し、平均結果を計算しました。すべての実験は、温度 0.01、バッチサイズ 16 の NVIDIA A100 GPU で実行されました。

GPT-3 175B パラメータモデル (davinci、text-davinci-001、text-davinci003) の場合、チームは公式 API を 1 回だけ使用して評価を行い、温度は 0 でした。これは、この記事の研究者が温度を 0 に設定し、結果の再現性を確保し、幻覚の可能性を最小限に抑えたためです。

さらに、研究者らは LLaMA および Falcon ファミリーから 6 つのモデルを選択し、先に選択した 22 のタスクのうち 4 つで評価しました。

研究者は、これら 4 つのタスクを選択する際に、そのうちの 2 つが以前に緊急タスクとして特定され、他の 2 つが非緊急タスクとして特定されていることを確認しました。その後、研究チームは、クローズドプロンプト戦略と敵対的プロンプト戦略の両方を使用して再度テストを行い、起こり得る差異を考慮するために各実験を 3 回実行しました。

いくつかの評価タスクでは関連するオプションの数が変動するため、研究者は各タスク内の質問オプションを複数回ランダムに選択し、スコアを平均化することで、各タスクのベースラインを構築しました。

実験結果

最初の研究の質問：文脈学習は LLM における創発的能力に一定の潜在的影響を及ぼすと考えられるが、文脈学習（指導の微調整を含む）がない場合、どの能力が真に創発的能力となるのか？

研究チームは、ゼロショット条件下で命令の微調整を行わない175BパラメータのGPT-3モデルのパフォーマンスを初めて実証しました。

上の図は、クローズドプロンプト戦略の下でのさまざまなタスクにおける GPT シリーズモデルのパフォーマンスを示しています。

研究チームは、BERTScore 精度 (BSA) とマッチング精度 (EMA) を使用して、少数ショット (FS) とゼロショット (ZS) 設定で命令調整 (IT) モデルと非命令調整 (非 IT) モデルを評価しました。

青色は、少数ショット条件下での命令微調整モデルの結果を表しており、これは以前の文献で報告された結果と比較できます。

黄色は、同じ設定でBSAを使用して測定したパフォーマンスを表し、赤は、非命令微調整モデルのゼロショット条件でのBSA結果を表します。つまり、この条件は、コンテキスト学習の影響を受けない結果を表します。

上の図は、指示調整されていないゼロショット条件下での選択されたタスクのサブセットにおける Falcon (上) および LLaMA (下) モデルのパフォーマンスの概略図であり、コンテキスト学習がなければ、モデルにいわゆる創発能力が常に欠けていることを示しています。

上の図は、敵対的環境における非命令微調整された GPT モデルのパフォーマンスを示しています。これらのタスクサブセットでは、GPT はランダムベースラインよりも優れたパフォーマンスを発揮します。一部のタスクのパフォーマンスは予測可能であるため、緊急とは見なされません。

残りのタスクでは、ランダムベースラインに対するパフォーマンスの向上は比較的小さかったです。

2 番目の質問については、指示によって微調整されたモデルは推論能力を発揮するのでしょうか、それとも、指示の微調整によってこれらのモデルが文脈学習においてより効果的かつ効率的になる可能性が高いのでしょうか。

指示の微調整の本質は、指示と例の間のマッピング関係を確立することであり、これは文脈学習の特徴であるため、このプロセスは文脈学習をトリガーする可能性が高いことに注意することが重要です。

研究者の仮説は、命令の微調整によって LLM が命令を模範に変換する能力を獲得し、それが文脈学習能力を活性化することを示唆している。

下の図は、さまざまな環境での T5 シリーズモデルのパフォーマンスを示しています。

>>:

14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?

LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

LLM は本当に推論し、計画を立てることができるのでしょうか?

計画力と推論力はLLMには存在しない

新たな能力？存在しません!

実験方法

実験結果

14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?

実践的なスキル: システムレベルからディープラーニングコンピューティングを最適化するにはどうすればよいでしょうか?

GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました

ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた

「ブラックスワン」の翼の下で：情報戦場におけるAIの光と影

MD5 アルゴリズムを誤解している可能性があります。

Baidu PaddlePaddleがHuawei Kirinと提携し、中国のAIの道を歩む

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

Microsoft の GitHub AI コードアシスタント Copilot Chat が個人利用向けに利用可能に

AppleはAI競争で遅れをとり、市場価値ランキングはAmazon、Google、Microsoftに追い抜かれる可能性も

推薦する

RSA という高度な暗号化アルゴリズムをご存知ですか?

パラメータ数はわずか1/700で、性能はGPT-3.5を超えます！ CMU+Tsinghua オープンソース Prompt2Model フレームワーク

マイクロソフトは、すべての Bing Chat ユーザーに DALL-E 3 画像ジェネレーターの無料アクセスを提供すると発表しました。

JD.comの鄭志同氏：機械学習を使って何億もの商品データを最適化する方法

信頼できるAIを開発する方法

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

将来、軍隊は完全に人工知能になるのでしょうか?空想するのはやめてください！全体的な傾向と方向性は変えられない

2030年「メタバース」就職ガイド！ CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

スマートホームシステム設計の5つの原則

Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた！ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ChatGPT の残念な欠点 10 選: チャットボットの限界を探る