LeCunは再び自己回帰LLMを批判:2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

LeCunは再び自己回帰LLMを批判:2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはスケールアップする必要があると考えている人は、ぜひこれを読んでください。AR-LLM の推論機能と計画機能は非常に限られており、この問題の解決策は、それらを大きくしてより多くのデータでトレーニングすることではありません。」

チューリング賞受賞者の Yann LeCun 氏は、常に LLM に対して「懐疑的」であり、自己回帰モデルは、GPT シリーズの LLM モデルが依存する学習パラダイムです。彼は自己回帰法と法学修士号に対する批判を何度も公に表明しており、次のような有名な引用文を数多く残しています。

「5年後には、正気な人なら誰も自己回帰モデルを使っていないだろう。」

「自己回帰生成モデルはダメだ!」

「LLMの世界に対する理解は非常に表面的です。」

ルカン氏が最近再び発言するようになったのは、新たに発表された2つの論文がきっかけだった。

「LLM は、文献で主張されているように、本当にソリューションを自己批判し (そして繰り返し改善し) ることができるのでしょうか? 私たちのグループの 2 つの新しい論文では、推論 (https://arxiv.org/abs/2310.12397) と計画 (https://arxiv.org/abs/2310.08118) のタスクに関するこれらの主張を調査 (そして異議を唱え) しています。」

GPT-4 の検証機能と自己批判機能を調査したこれら 2 つの論文のテーマは、多くの人々の共感を呼んでいるようです。

論文の著者らは、LLM は (言語形式であろうとコード形式であろうと) 優れた「アイデア生成器」であると考えているものの、LLM 自身の計画/推論能力を保証することはできないと述べています。したがって、これらは LLM-Modulo 設定 (信頼できる推論システムまたは人間の専門家が関与) で使用するのが最適です。自己批判には検証が必要であり、検証は推論の一形態です (LLM が自己批判できるという話はここから来ています)。

一方で、懐疑的な声もある。「畳み込みネットワークの推論能力はより限られているが、それがAlphaZeroの取り組みを妨げることはなかった。重要なのは、推論プロセスと確立された(RL)フィードバック ループだ。このモデル能力は、(研究レベルの数学のような)極めて深い推論を実行できると思う」

これについての LeCun 氏の考えは、「AlphaZero は」計画を実行するというものです。これはモンテカルロ ツリー サーチによって行われ、畳み込みネットワークを使用して適切なアクションを考え出し、別の畳み込みネットワークを使用して位置を評価します。このツリーの探索に費やされる時間は潜在的に無限です。これはすべて推論と計画に関するものです。 「

今後しばらくの間、自己回帰 LLM に推論および計画する能力があるかどうかという問題は決着しない可能性があります。

次に、これら 2 つの新しい論文の内容を見てみましょう。

論文 1: GPT-4 は間違っていることを知らない: 推論問題に対する反復プロンプトの分析

最初の論文では、GPT-4 を含む最先端の LLM の自己批判的機能について疑問が提起されました。

論文アドレス: https://arxiv.org/pdf/2310.12397.pdf

次に論文紹介を見てみましょう。

大規模言語モデル (LLM) の推論能力については、常にかなりの意見の相違がありました。当初、研究者は、モデルのサイズが大きくなるにつれて、LLM の推論能力が自動的に発揮されるだろうと楽観的でした。しかし、失敗例が増えるにつれて、人々の期待はそれほど強くなくなりました。その後、研究者は一般的に、LLM には自己批判の能力があり、反復的に LLM ソリューションを改善できると信じ、この見解は広く普及しました。

しかし、これは本当にそうなのでしょうか?

アリゾナ州立大学の研究者らは新たな研究で法学修士課程修了者の推論能力を調査した。具体的には、最も有名な NP 完全問題の 1 つであるグラフ彩色問題における反復プロンプトの有効性に焦点を当てました。

この研究では、(i) LLM はグラフの色付けインスタンスを解決するのが得意ではないこと、(ii) LLM はソリューションの検証が得意ではないため反復モードでは効果がないことを示しています。したがって、この論文の結果は、最先端の LLM の自己批判能力について疑問を提起します。

この論文では、いくつかの実験結果が示されています。たとえば、直接モードでは、LLM はグラフの色付けインスタンスを解決するのが非常に苦手です。さらに、この研究では、LLM はソリューションの検証が得意ではないことも判明しました。しかし、さらに悪いのは、システムが正しい色を識別できず、間違った色になってしまう場合です。

次の図はグラフの色付け問題の評価であり、GPT-4 は独立した自己批判モードで色を推測できます。自己批判ループの外側には外部音声検証機能もあります。

結果によると、GPT4 は色の推測において 20% 未満の精度であり、さらに驚くべきことに、自己批判モード (下の図の 2 番目の列) の精度が最も低いことがわかりました。この論文では、外部のサウンド検証者が GPT-4 によって推測された色について証明可能な正しい批評を提供した場合に、GPT-4 がそのソリューションを改善するかどうかという関連する質問も調査しています。この場合、リバースヒントによってパフォーマンスが実際に向上する可能性があります。

GPT-4 が誤って有効な色を推測したとしても、自己批判により違反は発生していないと幻覚を起こす可能性があります。

最後に、著者はグラフの色付け問題について要約しています。

  • GPT-4 は検証が非常に苦手なので、自己批判は実際に LLM のパフォーマンスを低下させます。
  • 外部バリデータからのフィードバックは、実際に LLM のパフォーマンスを向上させることができます。

論文 2: 大規模言語モデルは、自身の計画を自己批判することで本当に改善できるのか?

論文「大規模言語モデルは、自身の計画を自己批判することで本当に改善できるか?」では、研究チームは、計画のコンテキストで LLM が自己検証/批判する能力を調査しました。

この論文では、特に古典的な計画問題の文脈において、LLM が自身の出力を批評する能力に関する体系的な研究を紹介します。最近の研究では、特に反復的な設定における LLM の自己批判的可能性について楽観的でしたが、この研究は異なる視点を示しています。

論文アドレス: https://arxiv.org/abs/2310.08118

驚くべきことに、結果は、特に外部検証機能と LLM 検証機能を備えたシステムと比較して、自己批判によって計画生成のパフォーマンスが低下することを示しています。 LLM は多くのエラー メッセージを生成し、システムの信頼性を損なう可能性があります。

古典的な AI 計画ドメイン Blocksworld に関する私たちの実証的評価は、LLM の自己批判的機能が計画問題には効果的ではないことを強調しています。バリデーターは多数のエラーを生成する可能性があり、特に計画の正確さが重要な領域では、システム全体の信頼性に悪影響を及ぼします。

興味深いことに、フィードバックの性質 (バイナリ フィードバックまたは詳細フィードバック) はプラン生成のパフォーマンスに大きな影響を与えません。これは、根本的な問題はフィードバックの粒度ではなく、LLM のバイナリ検証機能にあることを示唆しています。

下の図に示すように、本研究の評価アーキテクチャには、ジェネレータ LLM と検証者 LLM の 2 つの LLM が含まれています。特定のインスタンスでは、ジェネレータ LLM が候補プランを生成する役割を担い、検証 LLM がその正しさを判断します。計画が間違っていることが判明した場合、バリデーターはなぜ間違っているのかについてのフィードバックを提供します。このフィードバックはジェネレータ LLM に渡され、ジェネレータ LLM に新しい候補プランを生成するように促します。この研究のすべての実験では、GPT-4 をデフォルトの LLM として使用しました。

この研究では、Blocksworld 上のいくつかの計画生成方法を実験し、比較します。具体的には、研究者はさまざまな方法を評価するために 100 個のランダムなインスタンスを生成しました。最終的な LLM 計画の正確さを真に評価するために、本研究では外部検証ツール VAL を採用しました。

表 1 に示すように、LLM + LLM バックプロンプト法は、精度の点で非バックプロンプト法よりもわずかに優れています。

100 個のインスタンスのうち、検証ツールは 61 個 (61%) を正しく識別しました。

以下の表は、さまざまなレベルのフィードバック(フィードバックなしを含む)が与えられた場合に LLM がどのようにパフォーマンスを発揮したかを示しています。

<<:  ベンジオ、ヒントン、張亜琴らAI界の巨人たちが新たな共同書簡を発表! AIは危険すぎるので、再配置する必要がある

>>:  マスク氏も騙された。AIの虚偽の内容が「リアル」すぎる

ブログ    

推薦する

...

...

人工知能がサイバー防御を強化

ビッグデータと高性能コンピューティング リソースにアクセスすることで、企業は新しい人工知能ツールと機...

Forbes: 14 人の技術専門家が、将来 AI によって混乱が生じる業界を予測しています。

AI の恩恵を受ける業界はどれでしょうか?人工知能と機械学習はすでにさまざまな業界に導入されており...

GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

ネットユーザーが何か新しいものを思いつきました! OpenAI は大規模言語モデルの安全ガードレール...

MITの新しいAI研究:セーターが編めなくても問題ない、AIにやらせればいい

人工知能といえば、最先端のクールなアプリケーションのほかに、この話題になると「偽物」という言葉が思い...

海運業界は人工知能を活用して海賊行為と戦うことができる

今日、海賊行為は国際法、世界貿易、そして船員の安全と安心に対する複雑な課題であり続けています。電子機...

冷たい水の入った洗面器! FDAはロボット手術はまだそれほど信頼できないと警告

海外メディアの報道によると、ほとんどの場合、手術対象はブドウではないため、「科学者がブドウの手術を行...

Metaの最新自社開発チップの結果が明らかに、7nmプロセス、RISC-V CPUを統合

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

メジャーアップデート! OpenAIがChatGPTエンタープライズ版をリリース、さまざまな業界向けにカスタマイズ可能なAI

人工知能研究企業OpenAIは8月29日、ChatGPTのメジャーアップグレードとなるChatGPT...

脳内の画像を高解像度で復元できるようになりました

近年、画像生成、特にテキストから画像への生成の分野で大きな進歩が遂げられており、アイデアをテキストで...

今日の AI 開発者にとって必須のローコード ツール 22 選

翻訳者 |陳俊レビュー | Chonglou今日、人工知能ツール (AI) は非常に強力です。開発チ...

Python コーディング面接の前に解くべき 10 個のアルゴリズム

アルゴリズムの練習がなぜ重要なのか?私が最初に問題を解き始めたときのように世間知らずにならないでくだ...

...

顔認識システムの技術的プロセスの分析

顔認識は、顔の特徴に基づいて人物を識別する生体認証技術です。カメラまたはビデオカメラを使用して、顔を...