「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

大規模言語モデルがコード生成において並外れた能力を発揮していることは誰もが知っています。しかし、コンテストやソフトウェアエンジニアリングの面接など、難しいプログラミングタスクではパフォーマンスが低下します。

幸いなことに、多くのモデルは、自己修復ワークフローを通じて「自己反映」し、コード内のエラーを自己修正することができます。

研究者たちは、これらのモデルがどの程度正確なフィードバックを提供し、生成されたコードがなぜ間違っているのかを説明できるかを理解することに興味を持っています。

最近、MIT と Microsoft の学者たちは、GPT-4 と GPT-3.5 のうち、GPT-4 だけが効果的な自己修復を示したことを発見しました。さらに、GPT-4 は GPT-3.5 によって生成されたプログラムにフィードバックを提供することもできます。

論文アドレス: https://arxiv.org/abs/2306.09896

エディンバラ大学の博士課程の学生であるフー・ヤオ氏は、彼のチームも同様の結果を発見したと述べた。GPT-4だけが自己改善できるが、より弱いモデルは自己改善できないという。

つまり、新しい「創発的機能」（つまり、自然言語フィードバックに基づく改善）は、モデルが十分に「成熟」（規模が大きく、適切に調整されている）している場合にのみ存在する可能性があります。

十分に「成熟した」モデルだけが、自然言語のフィードバックを聞いてそれに基づいて改善することができます。それより弱いモデルは、フィードバックを理解できないか、フィードバックに基づいて改善することができません。

この「創発的能力」（言語フィードバックによる自己改善）は、AI が人間の監督をほとんど受けずに自律的に改善し続けることができることを意味するため、LLM の開発に非常に大きな影響を与えるだろうと私は考えています。

オレゴン州立大学の著名な教授である Thomas G. Dietterich 氏は、LLM には複数のサブモデルが含まれており、それらのサブモデル間に矛盾が生じる可能性があるため、この状況は大規模なモデルでより一般的に発生する可能性があると考えています。

「自己改善」とは、こうした矛盾を取り除くプロセスです。これらの矛盾が解消されれば、自己改善は止まるだろうと彼は予測している。

Fu Yao 氏も同意しています。「コンテキスト学習で自己改善を使用すると、モデルをある程度まで押し進めることができますが、進歩は大きくありません。強化学習により、さらに押し進めることができます。その後、モデルは世界と対話し、実際の状況に基づいてフィードバックを受け取ることでさらに改善する必要があります。」

しかし、オハイオ州立大学の著名な工学助教授であるユ・スー氏は、これは単に指示を微調整するために使用されたデータにおける意図しない差異によるものである可能性があると考えている。

Fu Yao 氏は、Claude モデルでも同様の行動が見つかったと述べました。Claude-instant は言語フィードバックにうまく反応できませんでした (指示を理解して従うことが困難だったため) が、Claude は反応できました。

さらに、これらの観察結果は複数の関連論文に記載されており、意図しないデータの相違である可能性は低いです。

コード生成のための GPT 自己修復の秘密を解明

大規模言語モデルは自己修復を通じてどのようにパフォーマンスを向上させることができるのでしょうか?このプロセスは、モデルの自己反映を利用してコード内のエラーを自己修正します。

次の図は、モデルの自己修復方法の一般的なワークフローを示しています。

まず、仕様が与えられたら、コード生成モデルからプログラムをサンプリングし、仕様内の一連の単体テストでプログラムを実行します。

テスト中にプログラムが失敗した場合、エラーメッセージがフィードバック生成モデルに渡され、コードが失敗した理由の説明が出力され、フィードバックが修復モデルに渡されます。

表面的には、このワークフローは完璧に見えます。これにより、システムはデコード処理中に不良サンプルによって発生するエラーを克服できるようになり、人間のソフトウェアエンジニアがコードを記述する際に使用する試行錯誤の方法を模倣することもできます。

ただし、ワークフローには問題があります。自己修復にはモデルへの呼び出しがさらに必要になり、計算コストが増加します。

さらに、研究者たちは非常に興味深い現象を発見しました。大規模モデルの自己修復の有効性は、モデルのコード生成能力だけでなく、タスクでコードがどのように間違いを犯すかを認識する能力にも依存するということです。

これを詳細に調査した研究はまだないので、競争レベルのコード生成タスクを解決する際の GPT-3.5 と GPT-4 の自己修復の有効性を研究します。

彼らは、モデルからサンプリングされたトークンの総数に基づいてタスクの合格率を測定する、pass@t の新しい評価戦略を提案しました。

従来の pass@k (実験回数に基づいて合格率を測定) の代わりに pass@t を使用するため、純粋にサンプリングベースの方法と公平に比較できます。

実験から研究者たちは次のことを発見しました。

1. GPT-4 は自己修復によってもたらされるパフォーマンスの向上を実現できます。GPT-3.5 の場合、修復後の合格率は、すべての予算においてベースラインの未修復方法以下になります。

2. GPT-4 モデルの場合でも、パフォーマンスの向上はせいぜい中程度です (7000 トークンの予算で合格率が 66% から 71% に向上し、これは 45 個の独立した同一に分散された GPT-4 サンプルのコストとほぼ同等です)。また、初期プログラムが十分に多様であることに依存します。

3. GPT-3.5 のエラーの説明を GPT-4 によって生成されたフィードバックに置き換えると、自己修復パフォーマンスが向上し、ベースラインの修復されていない GPT-3.5 アプローチよりも優れたパフォーマンスを発揮します (7000 トークンで 50% から 54%)。

4. GPT-4 自身の説明を人間のプログラマーが提供した説明に置き換えると、修復結果が大幅に改善され、修復されてテストに合格したプログラムの数が 57% 増加しました。

実験

研究者らはさらに3つの質問を検証した。

1. より困難なプログラミングタスクの場合、これらのモデルの自己修復により、修復なしの iid よりも優れたサンプリングが可能になりますか?

2. フィードバックモデルを強化すると、モデルの修復パフォーマンスは向上しますか?

3. 最も強力なモデルの自己修復ループに人間が関与して人工的なフィードバックを提供すれば、より優れた修復パフォーマンスを実現できるでしょうか?

まず、研究チームは、非常に難しいプログラミングタスク、つまり Automated Programming Progress Standard (APPS) データセットのプログラミングタスクを導入しました。

このデータセットのタスクには、初級レベルから大学の競技レベルまでのプログラミングタスクが含まれており、人間のプログラマーの問題解決能力とコーディング能力を評価するために使用できます。

研究者らは、60の初級レベルのタスクと60の競技レベルのタスクを含む300のタスクを選択しました。

研究者らは、テンプレート文字列の連結と自己修復のための単一のプロンプト単語を使用して、GPT-3.5 と GPT-4 をモデルとして選択しました。

次の図はプロンプトワードの例です。

自己修復には強力なモデルと多様な初期サンプルが必要

研究者たちは、個別のモデルにコード修正生成とフィードバック生成の両方を実行させました。

右の図では、軸に沿って 2 つのハイパーパラメータを持つヒートマップを示しています。各セルの値は、同じトークンバジェット (つまり、t の同じ値、pass@t) が与えられた場合のベースラインの平均合格率によって正規化された平均合格率を表しています。

図から、GPT-3.5 モデルの場合、pass@t はすべての設定で対応するベースライン (黒) 以下であり、自己修復は GPT-3.5 にとって効果的な戦略ではないことが明確にわかります。

GPT-4（下図）では、いくつかの値に対する自己修復合格率がベースラインよりも大幅に向上しています。

GPT-4フィードバックはGPT3.5の修復結果を改善する

研究者たちはさらに一歩進んで、モデルが自身のコードをイントロスペクトしてデバッグできないために自己修復が妨げられるという仮説を検証するために、フィードバックを生成するために別のより強力なモデルを使用する効果を評価するための新しい実験を実施しました（たとえば、GPT-3.5の場合）。

この実験の結果は上図（明るい青）に示されています。

絶対的なパフォーマンスの点では、GPT-3.5、GPT-4 はパフォーマンスの壁を打ち破り、GPT-3.5 の iid サンプリングよりもわずかに効率的です。

これは、テキストフィードバックステージ自体が重要であり、これを改善することで GPT-3.5 自己修復のボトルネックを軽減できることを示唆しています。

人間のフィードバックによりGPT-4修復の成功率が大幅に向上

最後の実験では、より強力なモデル (GPT-4) を使用して修復を実行するときに、熟練した人間のプログラマーからのフィードバックを取り入れることの影響を調査したいと考えました。

目標は、コード内のバグを識別するモデルの能力が人間の能力とどのように比較されるか、そしてこれが自己修復の下流のパフォーマンスにどのように影響するかを理解することです。

研究者らは、大学院生 15 名とプロの機械学習エンジニア 1 名を含む 16 名の参加者を募集しました。

各参加者には、Python の経験に基づいてコーディングする 5 つの異なる基本プログラムが与えられました。

各プログラムは異なるタスクから取得され、参加者は同じタスクに属する 2 つの異なるプログラムを目にすることはありませんでした。

次に、参加者はプログラムのどこが間違っていたのかを自分の言葉で説明するよう求められました。

実験結果を下の図に示します。

研究者たちは、GPT-4 自身のデバッグを人間の参加者によるデバッグに置き換えると、全体的な成功率が 1.57 倍以上増加することを発見しました。

当然のことながら、問題が難しくなるにつれて相対的な差は大きくなり、タスク（およびコード）が複雑になるにつれて、正確で有用なフィードバックを生成する GPT-4 の能力は人間の参加者よりはるかに遅れていることを示唆しています。

著者について

ジャンフェン・ガオ

Jianfeng Gao 氏は著名な科学者であり、Microsoft の副社長であり、IEEE フェローでもあります。

Microsoft Research では、レドモンド支社のディープラーニング (DL) グループの責任者を務めています。このグループの使命は、DL の最先端技術を進歩させ、それを自然言語と画像の理解、会話エージェントの構築に適用することです。彼は、Microsoft の主要な AI 製品を支える大規模な基礎モデルの構築に関する研究を主導しています。

2022年からは、商用AIシステムの開発に向けたLLM（ChatGPT/GPT4など）の強化と適応を含む自己改善型AIの研究を担当します。

これに先立ち、1999年に上海交通大学で博士号を取得しました。

王成龍

Chenglong Wang 氏は Microsoft Research の研究員です。以前はワシントン大学で博士号を取得し、北京大学で学びました。

フーヤオの同様の調査結果

論文アドレス: https://arxiv.org/abs/2305.10142

この論文では、研究者らは、複数の LLM が交渉ゲームにおいて自律的に改善できるかどうかを調査しました。

LLM が互いに改善し合うことができれば、研究者は人間の介入を最小限に抑えて強力な AI エージェントを作成できる可能性があります。

2 人の LLM にそれぞれ買い手と売り手の役割を担わせ、買い手との取引を成立させることを目標とします。その際、買い手の目標価格は低く、売り手の目標価格は高くする必要があります。

その後、研究者らは批評家として機能し、他の 2 つの LLM の交渉戦略を改善するためのフィードバックを提供する 3 番目の言語モデルを採用しました。

研究者らは、2 つの LLM を複数のラウンドで競争させ、過去の交渉履歴と AI フィードバックをコンテキストとして使用して、モデルの交渉戦略を反復的に改善しました。

2 つの LLM は GPT と Claude であり、取引価格を評価指標として使用します。

研究チームは、ごく一部のモデルだけが AL フィードバックを通じて自己ゲームを行い、取引価格を上げることができ、弱いモデルはゲームのルールを理解していないか、さらなる改善のために AI フィードバックを取り入れることができていないことを発見しました。

さらに、異なる役割を果たすモデルは、フィードバックから学習する能力が異なります。たとえば、Claude-instant は、売り手としてよりも買い手として改善するのが困難です。

一方、ゲームが複数のラウンドに渡って展開されるにつれて、より強力なエージェントは、過去の経験を意図的に活用し、AI フィードバックを繰り返すことで、継続的にパフォーマンスを向上させることができますが、それが決定打となるリスクが高くなります。

研究者たちは、この研究が、ゲームや AI フィードバックを通じてモデルが自律的に相互に改善できるようにすることについての初期調査となることを期待しています。

研究者らは、明確に定義されたルールの下で競争的なゲームを継続的にプレイすることで AI エージェントが自らを向上させる AlphaGo Zero と同様に、人間の介入を最小限に抑えた交渉ゲームで複数の LLM が互いに向上できるかどうかを調査しました。

この質問は広範囲にわたる影響を及ぼします。エージェントが自律的に改善できれば、研究者は人間による注釈をほとんど加えずに強力なエージェントを作成でき、トレーニングコストを大幅に節約できます。

リスクの面では、限られた人間による監視で強力なエージェントを作成できることも意味します。

次の図は、クロードと GPT の交渉の図です。

最初のラウンドでは、買い手と売り手が自由にプレイし、その後 AI がフィードバックを提供します。

その後、購入者と販売者はフィードバックに基づいて新たなやり取りを行います。

図 B は、AI が提供する可能性のあるフィードバックと、そのフィードバックに基づいて GPT-4 がどのように改善するかを示しています。

たとえば、交渉時の「後退テクニック」であるひるみテクニックは、驚きと喪失感を表します。

レトリックは「おい、これは私が思っていたよりも高いな」というようなものです。

強力な AI だけが毎ラウンドのフィードバックから改善することができ、弱い AI はこれができません。

下の図では、C1 は日常会話ができるモデル、C2 はロールプレイングや交渉ができるモデル、C3 は 1 ラウンド内で AI のフィードバックから自ら改善できるモデル、そして C4 は最強のグループ、つまり継続的に改善できるモデルを表しています。

実験により、AlphaGo Zero モードでは、明確に定義されたルールの下で、反復的な AI フィードバックによる継続的なプレイを通じて、一部のモデルが実際に改善できることが示されています。

研究者らはまた、取引価格が上がるとリスクも高まるため、価格改善とゲームの次のラウンドでの成功率の間にトレードオフがあることも実証した。

これは、複数のラウンドにわたる全体的な利益を向上させるために、将来の研究ではグローバル最適化が考慮される可能性があることを示唆しています。

研究者らはさらに、反復的な AI フィードバックによる言語の改善の証拠を示した。つまり、複数回のプレイで、あるモデルが他のモデルよりも自分自身を改良し、言葉をより適切に調整して、より効果的により良い取引を行えるようになる可能性がある。

研究者たちは、この研究結果がAI研究に広範囲にわたる影響を及ぼすと考えている。

良い面としては、人間の介入を最小限に抑えて言語モデルを継続的に改善できることが示されています。

リスク面では、研究者のフレームワークではモデルの動作を監視することがより困難になる可能性があります。これは、モデルが自律的に動作するため、マルチエージェントゲーム設定での将来の調整と安全性の研究が必要になるためです。

<<: DeepMindの創設者はチューリングテストを覆したい！外国人男性がAIを使って90日間で3万ドルを稼いだ

>>: GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

ノーコードプラットフォームトップ 8: 2020 年に見逃せない機械学習プラットフォーム

ブログ

「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

コード生成のための GPT 自己修復の秘密を解明

著者について

フーヤオの同様の調査結果

ノーコードプラットフォームトップ 8: 2020 年に見逃せない機械学習プラットフォーム

Facebook が人工知能を活用する 6 つの方法 (予想外のものもいくつかある)

6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

顔検出を実装するための50行のPythonコード

普通のプログラマーから人工知能の仕事に転職するにはどうすればいいでしょうか?

Kubernetes デバッグの究極の武器: K8sGPT

推薦する

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

公開されたマイクロソフトのチャットボットの特許はユーザーの言語スタイルや表現を模倣できる

10億の顔データが完全に削除されました！ Facebookが顔認識ツールを廃止

AWS は、機械学習の経験がなくても、企業の日常業務を改革し改善する 5 つの新しい機械学習サービスを開始しました。

Unity Greater China プラットフォームテクノロジーディレクター Yang Dong: メタバースでのデジタルヒューマンの旅の始まり

ビデオ分析以外に、AI と機械学習はどのようなメリットをもたらすのでしょうか?

ロボットが家庭に入り込み、家事を引き受け始めています。あなたのお気に入りはどれですか?

ボストン・ダイナミクスのロボット犬はまもなく腕が生え、走って充電できるようになる

ディープラーニングプロジェクトをゼロから構築するにはどうすればよいでしょうか?詳細なチュートリアルはこちら

Python で自然言語処理を始める

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

顔認識技術: スマートシティのためのスマートなソリューション