大規模言語モデルがコード生成において並外れた能力を発揮していることは誰もが知っています。しかし、コンテストやソフトウェア エンジニアリングの面接など、難しいプログラミング タスクではパフォーマンスが低下します。 幸いなことに、多くのモデルは、自己修復ワークフローを通じて「自己反映」し、コード内のエラーを自己修正することができます。 研究者たちは、これらのモデルがどの程度正確なフィードバックを提供し、生成されたコードがなぜ間違っているのかを説明できるかを理解することに興味を持っています。 最近、MIT と Microsoft の学者たちは、GPT-4 と GPT-3.5 のうち、GPT-4 だけが効果的な自己修復を示したことを発見しました。さらに、GPT-4 は GPT-3.5 によって生成されたプログラムにフィードバックを提供することもできます。 論文アドレス: https://arxiv.org/abs/2306.09896 エディンバラ大学の博士課程の学生であるフー・ヤオ氏は、彼のチームも同様の結果を発見したと述べた。GPT-4だけが自己改善できるが、より弱いモデルは自己改善できないという。 つまり、新しい「創発的機能」(つまり、自然言語フィードバックに基づく改善)は、モデルが十分に「成熟」(規模が大きく、適切に調整されている)している場合にのみ存在する可能性があります。 十分に「成熟した」モデルだけが、自然言語のフィードバックを聞いてそれに基づいて改善することができます。それより弱いモデルは、フィードバックを理解できないか、フィードバックに基づいて改善することができません。 この「創発的能力」(言語フィードバックによる自己改善)は、AI が人間の監督をほとんど受けずに自律的に改善し続けることができることを意味するため、LLM の開発に非常に大きな影響を与えるだろうと私は考えています。 オレゴン州立大学の著名な教授である Thomas G. Dietterich 氏は、LLM には複数のサブモデルが含まれており、それらのサブモデル間に矛盾が生じる可能性があるため、この状況は大規模なモデルでより一般的に発生する可能性があると考えています。 「自己改善」とは、こうした矛盾を取り除くプロセスです。これらの矛盾が解消されれば、自己改善は止まるだろうと彼は予測している。 Fu Yao 氏も同意しています。「コンテキスト学習で自己改善を使用すると、モデルをある程度まで押し進めることができますが、進歩は大きくありません。強化学習により、さらに押し進めることができます。その後、モデルは世界と対話し、実際の状況に基づいてフィードバックを受け取ることでさらに改善する必要があります。」 しかし、オハイオ州立大学の著名な工学助教授であるユ・スー氏は、これは単に指示を微調整するために使用されたデータにおける意図しない差異によるものである可能性があると考えている。 Fu Yao 氏は、Claude モデルでも同様の行動が見つかったと述べました。Claude-instant は言語フィードバックにうまく反応できませんでした (指示を理解して従うことが困難だったため) が、Claude は反応できました。 さらに、これらの観察結果は複数の関連論文に記載されており、意図しないデータの相違である可能性は低いです。 コード生成のための GPT 自己修復の秘密を解明大規模言語モデルは自己修復を通じてどのようにパフォーマンスを向上させることができるのでしょうか?このプロセスは、モデルの自己反映を利用してコード内のエラーを自己修正します。 次の図は、モデルの自己修復方法の一般的なワークフローを示しています。 まず、仕様が与えられたら、コード生成モデルからプログラムをサンプリングし、仕様内の一連の単体テストでプログラムを実行します。 テスト中にプログラムが失敗した場合、エラー メッセージがフィードバック生成モデルに渡され、コードが失敗した理由の説明が出力され、フィードバックが修復モデルに渡されます。 表面的には、このワークフローは完璧に見えます。これにより、システムはデコード処理中に不良サンプルによって発生するエラーを克服できるようになり、人間のソフトウェア エンジニアがコードを記述する際に使用する試行錯誤の方法を模倣することもできます。 ただし、ワークフローには問題があります。自己修復にはモデルへの呼び出しがさらに必要になり、計算コストが増加します。 さらに、研究者たちは非常に興味深い現象を発見しました。大規模モデルの自己修復の有効性は、モデルのコード生成能力だけでなく、タスクでコードがどのように間違いを犯すかを認識する能力にも依存するということです。 これを詳細に調査した研究はまだないので、競争レベルのコード生成タスクを解決する際の GPT-3.5 と GPT-4 の自己修復の有効性を研究します。 彼らは、モデルからサンプリングされたトークンの総数に基づいてタスクの合格率を測定する、pass@t の新しい評価戦略を提案しました。 従来の pass@k (実験回数に基づいて合格率を測定) の代わりに pass@t を使用するため、純粋にサンプリングベースの方法と公平に比較できます。 実験から研究者たちは次のことを発見しました。 1. GPT-4 は自己修復によってもたらされるパフォーマンスの向上を実現できます。GPT-3.5 の場合、修復後の合格率は、すべての予算においてベースラインの未修復方法以下になります。 2. GPT-4 モデルの場合でも、パフォーマンスの向上はせいぜい中程度です (7000 トークンの予算で合格率が 66% から 71% に向上し、これは 45 個の独立した同一に分散された GPT-4 サンプルのコストとほぼ同等です)。また、初期プログラムが十分に多様であることに依存します。 3. GPT-3.5 のエラーの説明を GPT-4 によって生成されたフィードバックに置き換えると、自己修復パフォーマンスが向上し、ベースラインの修復されていない GPT-3.5 アプローチよりも優れたパフォーマンスを発揮します (7000 トークンで 50% から 54%)。 4. GPT-4 自身の説明を人間のプログラマーが提供した説明に置き換えると、修復結果が大幅に改善され、修復されてテストに合格したプログラムの数が 57% 増加しました。 実験 研究者らはさらに3つの質問を検証した。 1. より困難なプログラミングタスクの場合、これらのモデルの自己修復により、修復なしの iid よりも優れたサンプリングが可能になりますか? 2. フィードバック モデルを強化すると、モデルの修復パフォーマンスは向上しますか? 3. 最も強力なモデルの自己修復ループに人間が関与して人工的なフィードバックを提供すれば、より優れた修復パフォーマンスを実現できるでしょうか? まず、研究チームは、非常に難しいプログラミングタスク、つまり Automated Programming Progress Standard (APPS) データセットのプログラミングタスクを導入しました。 このデータセットのタスクには、初級レベルから大学の競技レベルまでのプログラミング タスクが含まれており、人間のプログラマーの問題解決能力とコーディング能力を評価するために使用できます。 研究者らは、60の初級レベルのタスクと60の競技レベルのタスクを含む300のタスクを選択しました。 研究者らは、テンプレート文字列の連結と自己修復のための単一のプロンプト単語を使用して、GPT-3.5 と GPT-4 をモデルとして選択しました。 次の図はプロンプトワードの例です。 自己修復には強力なモデルと多様な初期サンプルが必要 研究者たちは、個別のモデルにコード修正生成とフィードバック生成の両方を実行させました。 右の図では、軸に沿って 2 つのハイパーパラメータを持つヒートマップを示しています。各セルの値は、同じトークン バジェット (つまり、t の同じ値、pass@t) が与えられた場合のベースラインの平均合格率によって正規化された平均合格率を表しています。 図から、GPT-3.5 モデルの場合、pass@t はすべての設定で対応するベースライン (黒) 以下であり、自己修復は GPT-3.5 にとって効果的な戦略ではないことが明確にわかります。 GPT-4(下図)では、いくつかの値に対する自己修復合格率がベースラインよりも大幅に向上しています。 GPT-4フィードバックはGPT3.5の修復結果を改善する 研究者たちはさらに一歩進んで、モデルが自身のコードをイントロスペクトしてデバッグできないために自己修復が妨げられるという仮説を検証するために、フィードバックを生成するために別のより強力なモデルを使用する効果を評価するための新しい実験を実施しました(たとえば、GPT-3.5の場合)。 この実験の結果は上図(明るい青)に示されています。 絶対的なパフォーマンスの点では、GPT-3.5、GPT-4 はパフォーマンスの壁を打ち破り、GPT-3.5 の iid サンプリングよりもわずかに効率的です。 これは、テキスト フィードバック ステージ自体が重要であり、これを改善することで GPT-3.5 自己修復のボトルネックを軽減できることを示唆しています。 人間のフィードバックによりGPT-4修復の成功率が大幅に向上 最後の実験では、より強力なモデル (GPT-4) を使用して修復を実行するときに、熟練した人間のプログラマーからのフィードバックを取り入れることの影響を調査したいと考えました。 目標は、コード内のバグを識別するモデルの能力が人間の能力とどのように比較されるか、そしてこれが自己修復の下流のパフォーマンスにどのように影響するかを理解することです。 研究者らは、大学院生 15 名とプロの機械学習エンジニア 1 名を含む 16 名の参加者を募集しました。 各参加者には、Python の経験に基づいてコーディングする 5 つの異なる基本プログラムが与えられました。 各プログラムは異なるタスクから取得され、参加者は同じタスクに属する 2 つの異なるプログラムを目にすることはありませんでした。 次に、参加者はプログラムのどこが間違っていたのかを自分の言葉で説明するよう求められました。 実験結果を下の図に示します。 研究者たちは、GPT-4 自身のデバッグを人間の参加者によるデバッグに置き換えると、全体的な成功率が 1.57 倍以上増加することを発見しました。 当然のことながら、問題が難しくなるにつれて相対的な差は大きくなり、タスク(およびコード)が複雑になるにつれて、正確で有用なフィードバックを生成する GPT-4 の能力は人間の参加者よりはるかに遅れていることを示唆しています。 著者についてジャンフェン・ガオ Jianfeng Gao 氏は著名な科学者であり、Microsoft の副社長であり、IEEE フェローでもあります。 Microsoft Research では、レドモンド支社のディープラーニング (DL) グループの責任者を務めています。このグループの使命は、DL の最先端技術を進歩させ、それを自然言語と画像の理解、会話エージェントの構築に適用することです。彼は、Microsoft の主要な AI 製品を支える大規模な基礎モデルの構築に関する研究を主導しています。 2022年からは、商用AIシステムの開発に向けたLLM(ChatGPT/GPT4など)の強化と適応を含む自己改善型AIの研究を担当します。 これに先立ち、1999年に上海交通大学で博士号を取得しました。 王成龍 Chenglong Wang 氏は Microsoft Research の研究員です。以前はワシントン大学で博士号を取得し、北京大学で学びました。 フーヤオの同様の調査結果論文アドレス: https://arxiv.org/abs/2305.10142 この論文では、研究者らは、複数の LLM が交渉ゲームにおいて自律的に改善できるかどうかを調査しました。 LLM が互いに改善し合うことができれば、研究者は人間の介入を最小限に抑えて強力な AI エージェントを作成できる可能性があります。 2 人の LLM にそれぞれ買い手と売り手の役割を担わせ、買い手との取引を成立させることを目標とします。その際、買い手の目標価格は低く、売り手の目標価格は高くする必要があります。 その後、研究者らは批評家として機能し、他の 2 つの LLM の交渉戦略を改善するためのフィードバックを提供する 3 番目の言語モデルを採用しました。 研究者らは、2 つの LLM を複数のラウンドで競争させ、過去の交渉履歴と AI フィードバックをコンテキストとして使用して、モデルの交渉戦略を反復的に改善しました。 2 つの LLM は GPT と Claude であり、取引価格を評価指標として使用します。 研究チームは、ごく一部のモデルだけが AL フィードバックを通じて自己ゲームを行い、取引価格を上げることができ、弱いモデルはゲームのルールを理解していないか、さらなる改善のために AI フィードバックを取り入れることができていないことを発見しました。 さらに、異なる役割を果たすモデルは、フィードバックから学習する能力が異なります。たとえば、Claude-instant は、売り手としてよりも買い手として改善するのが困難です。 一方、ゲームが複数のラウンドに渡って展開されるにつれて、より強力なエージェントは、過去の経験を意図的に活用し、AI フィードバックを繰り返すことで、継続的にパフォーマンスを向上させることができますが、それが決定打となるリスクが高くなります。 研究者たちは、この研究が、ゲームや AI フィードバックを通じてモデルが自律的に相互に改善できるようにすることについての初期調査となることを期待しています。 研究者らは、明確に定義されたルールの下で競争的なゲームを継続的にプレイすることで AI エージェントが自らを向上させる AlphaGo Zero と同様に、人間の介入を最小限に抑えた交渉ゲームで複数の LLM が互いに向上できるかどうかを調査しました。 この質問は広範囲にわたる影響を及ぼします。エージェントが自律的に改善できれば、研究者は人間による注釈をほとんど加えずに強力なエージェントを作成でき、トレーニングコストを大幅に節約できます。 リスクの面では、限られた人間による監視で強力なエージェントを作成できることも意味します。 次の図は、クロードと GPT の交渉の図です。 最初のラウンドでは、買い手と売り手が自由にプレイし、その後 AI がフィードバックを提供します。 その後、購入者と販売者はフィードバックに基づいて新たなやり取りを行います。 図 B は、AI が提供する可能性のあるフィードバックと、そのフィードバックに基づいて GPT-4 がどのように改善するかを示しています。 たとえば、交渉時の「後退テクニック」であるひるみテクニックは、驚きと喪失感を表します。 レトリックは「おい、これは私が思っていたよりも高いな」というようなものです。 強力な AI だけが毎ラウンドのフィードバックから改善することができ、弱い AI はこれができません。 下の図では、C1 は日常会話ができるモデル、C2 はロールプレイングや交渉ができるモデル、C3 は 1 ラウンド内で AI のフィードバックから自ら改善できるモデル、そして C4 は最強のグループ、つまり継続的に改善できるモデルを表しています。 実験により、AlphaGo Zero モードでは、明確に定義されたルールの下で、反復的な AI フィードバックによる継続的なプレイを通じて、一部のモデルが実際に改善できることが示されています。 研究者らはまた、取引価格が上がるとリスクも高まるため、価格改善とゲームの次のラウンドでの成功率の間にトレードオフがあることも実証した。 これは、複数のラウンドにわたる全体的な利益を向上させるために、将来の研究ではグローバル最適化が考慮される可能性があることを示唆しています。 研究者らはさらに、反復的な AI フィードバックによる言語の改善の証拠を示した。つまり、複数回のプレイで、あるモデルが他のモデルよりも自分自身を改良し、言葉をより適切に調整して、より効果的により良い取引を行えるようになる可能性がある。 研究者たちは、この研究結果がAI研究に広範囲にわたる影響を及ぼすと考えている。 良い面としては、人間の介入を最小限に抑えて言語モデルを継続的に改善できることが示されています。 リスク面では、研究者のフレームワークではモデルの動作を監視することがより困難になる可能性があります。これは、モデルが自律的に動作するため、マルチエージェント ゲーム設定での将来の調整と安全性の研究が必要になるためです。 |
<<: DeepMindの創設者はチューリングテストを覆したい!外国人男性がAIを使って90日間で3万ドルを稼いだ
>>: GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している
「5Gは大量のデータをもたらしますが、そのデータで何ができるのかが問題です。それをアプリケーションシ...
以前の記事では、Naive Bayes、KNN、KMeans、EM、線形回帰、ロジスティック回帰など...
7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。その性能はオープン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
物理的な世界を中心としたこれまでの産業革命とは異なり、第 4 次産業革命によって導入されたデジタル要...
[[183545]]ハッカーが徐々に人工知能システムに適応するにつれて、プログラマーも積極的に新し...
人工知能とニューラルネットワークの機能はどちらもイベント処理です。たとえば、人工知能は自動文書処理を...
最先端の技術力に加え、人工知能は教育分野にも進出し始めています。北京では先日、中国・外国教師科学教育...
海外メディアの報道によると、ヨーロッパ人は5年前よりもロボットに対して保守的になっていることが調査で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.comより引用] Sina Weiboは情報交換プラットフォームであるだけでなく、メデ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
人工知能(AI)はここ数か月、ビジネス環境における流行語となっています。効率性の向上、コストの削減、...
[51CTO.comからのオリジナル記事]現在、疫病と政治環境の影響により、多くの不確定要素が重なり...