Fei-Fei Li DeepMind の新しい「コードチェーン」が CoT を圧倒! Pythonコード推論を使用することで、大規模モデルのパフォーマンスが12%向上しました。

最も先駆的で影響力のあるキューエンジニアリング技術の 1 つである Chain of Thought (CoT) は、推論による意思決定における LLM のパフォーマンスを向上させることができます。

では、大規模なモデルがコード内で「考える」ことができたらどうなるでしょうか?

最近、Google DeepMind、スタンフォード大学、カリフォルニア大学バークレー校のチームが共同で新しい技術「コードチェーン」(CoC) を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.04474.pdf

「コードチェーン」は、コーディングロジックと自然言語理解を組み合わせた、シンプルでありながら非常に効果的な革新的な方法です。LLM のコードベースの推論能力を強化し、よりスマートで多用途なものにすることができます。

簡単に言えば、CoC により、LLM は「疑似コード」を生成して難しい問題を分解し、LMulator を通じて有効なコードを実行し、無効なコードをシミュレートできるようになります。

調査結果によると、BIG-Bench Hard ベンチマークでは、CoC は 84% の精度を達成し、CoT よりも 12% 向上しました。

さらに、CoC は BIG-Bench Hard の 23 のタスクのうち 18 で平均的な人間のパフォーマンスを上回ります。

「コードチェーン」は CoT をさらに一歩進め、論理的推論のためのコード生成と LLM の意味的推論を統合していることがわかります。

研究者らは、CoC はロボット工学に適しており、意味論的およびアルゴリズム的推論を実行でき、現実世界で優れたパフォーマンスを発揮すると述べている。

ゴミとリサイクル可能なものを分別してください。

トマト入りスクランブルエッグのサイドディッシュも用意できます。

李菲菲の学生もこの論文の中心著者の一人であることは言及する価値がある。

「コードチェーン」により、大規模なモデルをコードで考えることができる

CoT に加えて、これまでの研究でも、大規模モデルの推論能力を向上させるためにさまざまな方法が使用されてきました。

たとえば、Program of Thoughts はコードの記述と実行を促し、ScratchPad はプログラムの状態の中間ステップを追跡することで、既に記述されたコードの実行をシミュレートします。

最新の研究では、研究者らは「コードチェーン」（CoC）を提案しました。これは、ビッグモデルがプログラムを作成するだけでなく、ビッグモデルのコードベースの推論能力も向上させるというものです。

具体的には、ビッグモデルはプログラムを作成するだけでなく、特定のコード行の予想される出力を生成することによってインタープリターを選択的に「シミュレート」します。

重要なアイデアは、大規模なモデルがプログラム内のセマンティックサブタスクを柔軟な疑似コードにフォーマットし、実行時に明示的にキャプチャしてシミュレーションのために LLM に渡すようにすることです。著者らはこれを LMulator と呼んでいます。

たとえば、与えられた課題は「上記の段落で、この人が皮肉を言った回数を数えなさい」です。

次に、コンテキスト内で LM に、 is_sarcastic(sentence) などのヘルパー関数を呼び出すことができるというヒントを与えることができます。これにより、LM は言語予測を行い、その結果をブール出力として返します。その後、この結果はプログラムの残りの部分と一緒に処理されます。

具体的には、研究者らは、LM 推論を次の図に示すように次のようなプロセスとして定式化しました。

LM がコードを記述し、インタープリターがコードの各行を段階的に実行します (赤)。失敗した場合は、LM を使用して結果がシミュレートされ (紫)、プログラムの状態が更新されます (緑)。

CoC は、(i) 実行可能コードを記述する (正確なアルゴリズム計算はインタープリタに任せる)、および (ii) 意味上の問題に対する疑似コードを記述してその出力を生成する (これは、LM が非常に適応性の高い単純な形式の変更と見なすことができます) という利点を継承し、LM が「コードで考える」ことを可能にします。

研究者らはまた、「コードチェーン」のいくつかの特徴を次のようにまとめた。

- コードの強みと言語モデルの強力なセマンティクスおよび常識的な知識を組み合わせることで、まったく新しいシステムでコードを使用できるようになります。

- 言語モデルのエンコーディング能力を活用します。これは、高品質のデータが利用可能であることによる最近の言語モデルの特別な利点です。

- コードの形式的な表現構造 (チューリング完全性など) やコードに使用できる強力な計算ツールなど、コードに関する推論の利点の多くを継承します。

- CoT などの中間ステップを通じて推論する手法の多くの利点を継承します。これらの技術により、言語モデルは必要に応じてより多くの計算を使用して問題を解決し、より高い解釈可能性を提供できるようになります。

言語的推論能力評価

CoC の全体的なパフォーマンスを以下の表 1 に示します。

ご覧のとおり、CoC は、人間のベースラインを超えるタスクの数と、ベースラインを超える全体の数の両方において、他の方法よりも優れています。

実際、CoC はタスクの 84% で SoTA を達成しています。いくつかのタスクにおいても、CoC は人間のベースラインや他の方法を大幅に上回り、ほぼ 100% の精度を達成しています。

一般に、これらのタスクの結果は言語的には複雑ですが、コード的には単純です。たとえば、複数ステップの算術 Q タスク: ((-3+5×8×-4)-(9-8×-7))=)。

研究者らはまた、CoT が多くのタスクで人間の基準を上回るパフォーマンスを示したのに対し、直接回答では成績が悪かったことも観察しました。

図 3 は結果を質問タイプ別に分類したもので、タスクのラベルは表 a1 に示されています。研究者たちは、問題を主にアルゴリズムによるものと主に自然言語によるものとに分類しました。

実験結果によると、CoC はアルゴリズムタスクでは特に優れたパフォーマンスを発揮し、自然言語タスクでは CoT と同等のパフォーマンスを発揮します。

これらの言語指向のタスクはエンコードにあまり適していないと予想されるため、この結果は特に心強いものです。重要なのは、CoC アプローチでは、自然言語の質問について意味的に推論する LM の能力を維持しながら、シミュレーターを使用してコード実行の出力をエミュレートする柔軟性が提供されることです。

アブレーション研究

図 4 と 5、および表 2 は、「コードチェーン」プロンプトのさまざまな側面を動機付けるために実行されたアブレーション研究を示しています。

予想どおり、Python 実装は複数のタスクで 100% のパフォーマンスを達成し、コードが正しければ、モデルは毎回正しい出力を生成します。

しかし、Python のみに依存する方法 (CoC (Python)) は、非アルゴリズムタスクに適用するとパフォーマンスが低下し、ほとんどが失敗します。

CoC (Python) のアブレーションは、コードに関する推論が数値問題に適用された場合にうまく機能することを示す最近の研究と似ています。

拡張機能

図 6 は、さまざまなサイズのモデルにおける CoC のパフォーマンスを示しています。

研究者たちは、「思考連鎖」プロンプトと同様に、モデルが増えるにつれて CoC の改善が増加することを観察しました。

実際、いくつかのアルゴリズムタスクでは、CodeChain は最高の人間の評価者よりも優れたパフォーマンスを発揮しました。ただし、CoT は最大モデル (d-3) にのみパフォーマンス上の利点をもたらしますが、CoC はより小さなモデル (a-1、b-1、c-1) でも直接質問応答ベースラインを上回ります。これは、より小さなモデルでは、中間ステップとして自然言語ではなく構造化コードを出力する可能性が高いことを示しています。

クロスタスクプロンプト

クロスタスクプロンプトでは、研究者はさまざまな問題の例を使って言語モデルにプロンプトを出しました。図 6 と表 2 から、すべての方法でパフォーマンスが低下していることがわかります。

この低下にもかかわらず、CoC は CoT や直接プロンプトよりもパフォーマンスが優れており、平均的な人間のパフォーマンスにほぼ達しています。

命令チューニングモデル

チャットインターフェースからのコマンドを使用して調整されたモデルと比較するために、研究者はモデルに望ましい推論を引き出すコマンドを与えました。

ベースラインとして、著者らはモデルに「直接答える」（Direct）か「段階的に考える」（CoT）かのいずれかを要求しました。

CoC バリアントの場合、研究者はモデルに「役立つ場合は、問題解決に役立つ Python コードを書く」ように依頼しました。

プログラムを作成した場合は、Python インタープリターを使用してコードを実行し、その結果 (実行が失敗した場合はエラー情報) をモデルに入力して最終的な答えを決定する (CoC (Python)) か、LMulator としてコード実行の出力をシミュレートするようにモデルに要求することができます (CoC (LM))。

次の表は、各方法のパフォーマンスを示しています。 gpt-3.5-turbo を使用すると、CoT と CoC (Python) はどちらも直接ヒントよりも優れたパフォーマンスを示しますが、どちらも CoC (Interweave) よりも大幅に優れています。

ロボットが使用される

さらに、研究者らは実際の環境でのロボットアームの調査にも CoC 方式を使用しました。

CodeChain は、ロボットタスクの解決に適していることがわかりました。これは、ロボットタスクには意味論的およびアルゴリズム的推論が必要であるためです。

また、コード (制御 API または認識 API) を介して他の API と対話したり、自然言語を介してユーザーと対話したりすることもできます。

例えば、冒頭で触れたゴミの分別作業において、「Code Chain」によって可能になるロボットアームの「思考プロセス」は以下のようになります。

赤いハイライトはインタープリターが LM 生成コードを実行していることを示し、紫色のハイライトは LMulator がコードをエミュレートしていることを示します。

トマト入りスクランブルエッグを作る工程。

<<: 海外メディア：ウルトラマンのOpenAIへの復帰は主にチェスキー氏とナデラ氏の支援にかかっている

>>: NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

Fei-Fei Li DeepMind の新しい「コードチェーン」が CoT を圧倒! Pythonコード推論を使用することで、大規模モデルのパフォーマンスが12%向上しました。

「コードチェーン」により、大規模なモデルをコードで考えることができる

言語的推論能力評価

ロボットが使用される

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

新しい顔認識ツール: 少ないデータでも「国際的な顔」を認識

ChatGPT 以外にも驚くような 6 つの AI ツール

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

GTA5をプレイしていますか?インテルの新しいモデルは3Dレンダリングをリアルな画像に変換します

ネットワーク人工知能とは何ですか?

ガートナー：ディープフェイクと生成AIがゼロトラストの世界へ

OpenAIの「コピー＆ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

畳み込みニューラルネットワークの父：人工知能が動画から常識を学ぶための次のステップ

自動運転列車が完成しました！しかし、あなたは座る勇気がありますか?

推薦する

AI はクラウドコンピューティングをどのように改善するのでしょうか?

3つの大きな問題を解決すれば、ドローン配送の時代が徐々に近づいてくる

信頼できるAIを開発する方法

口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

IBM、生成AIの基礎モデルを発表

PyTorch モデルのトレーニングを高速化するための 9 つのヒント!

「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか？

ロボットは銀行業務を破壊するのか？

人工知能は建設ロボットを誇大広告から現実のものへと変える

「人と車のインタラクション」に新たなブレークスルー！パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

患者が人工知能から得られる恩恵

自動運転はどこへ行ってしまったのか？

スタートアップ企業の皆様、人工知能は本当に必要ですか?