コードコーパス、大規模モデル、インテリジェントエージェントの魔法の杖を振ると、より強力なエネルギーが呼び出されます

熱帯雨林の杖が、ダンブルドアのようなあらゆる時代の並外れた魔法使いの伝説を生み出したのと同じように、大きな可能性を秘めた従来の大規模言語モデルは、コードコーパスでの事前トレーニング/微調整を経て、その起源を超えた実行機能を習得しました。

具体的には、大規模モデルの高度なバージョンでは、コードの記述、推論の強化、実行インターフェースの自律的な呼び出し、自律的な改善の面で改善されており、AI エージェントとして、また下流のタスクを実行する際に、あらゆる面でメリットをもたらします。

最近、イリノイ大学アーバナ・シャンペーン校（UIUC）の研究チームが重要なレビューを発表しました。

論文リンク: https://arxiv.org/abs/2401.00812

このレビューでは、コードが大規模言語モデル (LLM) とそれに基づくインテリジェントエージェントにどのように役立つかを探ります。

ここで、コードとは、プログラミング言語、定義済み関数のセットなど、機械が実行可能で人間が読める形式言語を指します。 LLM に従来の自然言語を理解/生成するように教える方法と同様に、LLM にコードに精通させるには、同じ言語モデリングトレーニング目標をコードデータに適用するだけで済みます。

従来の言語モデルとは異なり、Llama2 や GPT4 などの今日の一般的な LLM は、サイズが大幅に改善されただけでなく、一般的な自然言語コーパスとは独立したコードコーパスでトレーニングされています。コードは、標準化された構文、論理的な一貫性、抽象化、モジュール性を備えており、高レベルの目標を実行可能なステップに変換できるため、人間とコンピューターを接続するための理想的な媒体となります。

図 2 に示すように、このレビューでは、研究者は関連する研究をまとめ、LLM トレーニングデータにコードを組み込むことのさまざまな利点を詳細に分析しました。

具体的には、研究者たちは、コードの独自の特性によって次のようなことが実現されることを観察しました。

1. LLM のコード記述、推論、構造化情報処理機能を強化し、より複雑な自然言語タスクに適用できるようにする。

2. LLM をガイドして、関数呼び出しを通じて外部の実行終了に接続できる構造化された正確な中間ステップを生成します。

3. コードのコンパイルおよび実行環境を使用して、自律的なモデル改善のための多様なフィードバックを提供します。

さらに、研究者らは、コードによって与えられたこれらの LLM の最適化項目が、インテリジェントエージェントの意思決定センターとしての機能、指示の理解、目標の分解、アクションの計画と実行、フィードバックによる改善にどのように役立つかについても詳しく調べました。

図 3 に示すように、最初の部分では、研究者は、コードに関する LLM の事前トレーニングによって、LLM のタスク範囲が自然言語を超えて拡大したことを発見しました。これらのモデルは、数学理論のコード生成、一般的なプログラミングタスク、データ取得など、さまざまなアプリケーションをサポートできます。コードは、論理的に一貫性があり、順序付けられた一連のステップを生成する必要があり、これは効果的な実行に不可欠です。さらに、コード内の各ステップが実行可能であるため、ロジックをステップごとに検証できます。事前トレーニング中にこれらのコードプロパティを活用して埋め込むと、多くの従来の自然言語ダウンストリームタスクにおける LLM の Chain of Thoughts (CoT) パフォーマンスが向上し、複雑な推論スキルの向上が実証されます。同時に、コードの構造化された形式を暗黙的に学習することにより、codeLLM は、マークアップ言語、HTML、図の理解に関連するような常識的な構造化推論タスクでより優れたパフォーマンスを発揮します。

図 4 に示すように、LLM を他の機能端に接続すると (つまり、外部ツールや実行モジュールを通じて LLM の機能を拡張すると)、LLM はより正確かつ確実にタスクを実行できるようになります。

2 番目の部分では、表 1 に示すように、研究者は一般的な傾向を観察しました。LLM は、プログラミング言語を生成するか、定義済み関数を活用することで、他の機能目的との接続を確立します。この「コード中心のパラダイム」は、LLM が調整可能なパラメータを使用して実行モジュールを呼び出すトークンを動的に生成できるようにすることで、LLM の推論メカニズムにおけるツール呼び出しをハードコーディングする厳格なアプローチとは異なります。

このパラダイムは、LLM が他の機能エンドと対話するためのシンプルで明確な方法を提供し、アプリケーションの柔軟性とスケーラビリティを向上させます。さらに重要なことは、LLM が複数のモダリティとドメインをカバーする幅広い機能エンドポイントと対話できるようになることです。 LLM がアクセスできる機能エンドポイントの数と種類を拡張することで、LLM はより複雑なタスクを処理できるようになります。

図 5 に示すように、LLM をコード実行環境に組み込むことで、自動フィードバックと自律的なモデル改善を実現できます。 LLM はフィードバックに対応できるため、トレーニングパラメータを超えたパフォーマンスを発揮します。ただし、ノイズの多いプロンプト入力は下流のタスクでの LLM のパフォーマンスを妨げる可能性があるため、フィードバックは慎重に選択する必要があります。さらに、人的資源にはコストがかかるため、信頼性を維持しながらフィードバックを自動的に収集する必要があります。 3 番目の部分では、研究者らは、LLM をコード実行環境に埋め込むことで、これらすべての基準を満たすフィードバックを得られることを示しています。

まず、コードの実行は決定論的であるため、コードの実行結果からフィードバックを取得すると、LLM によって実行されたタスクを直接かつ忠実に反映できます。さらに、コードインタープリターは、LLM が内部フィードバックを自動的に照会する方法を提供するため、LLM を使用してエラーのあるコードをデバッグまたは最適化するときに、高価な人手による注釈付けが不要になります。また、コードのコンパイルおよび実行環境により、LLM は、単純なバイナリの正解およびエラー評価、実行結果のやや複雑な自然言語による説明、フィードバック値を使用したさまざまなランキング方法など、多様で包括的な形式の外部フィードバックを組み込むことができ、パフォーマンスを向上させる方法を高度にカスタマイズできるようになります。

研究者らは、コードトレーニングデータの統合が LLM の機能を強化するさまざまな方法を分析することにより、コード対応 LLM の利点が、主要な LLM アプリケーション領域であるインテリジェントエージェントの開発において特に顕著であることも発見しました。

図 6 は、インテリジェントアシスタントの標準的なワークフローを示しています。研究者たちは、コードトレーニングを通じて LLM にもたらされた改善が、インテリジェントアシスタントとして使用された場合の実際の手順にも影響を与えていることを観察しました。

これらのステップには、(1)環境認識と計画の観点からIAの意思決定能力を強化すること、(2)アクションをモジュール式アクションプリミティブに実装し、メモリを効率的に編成することによってポリシー実行を最適化すること、(3)コード実行環境から自動的に得られるフィードバックを通じてパフォーマンスを最適化することが含まれます。

要約すると、このレビューでは、研究者は、コードが LLM に強力な機能をどのように付与するか、またコードが LLM をインテリジェントエージェントの意思決定センターとして機能させる方法を分析し、説明しました。

研究者らは、包括的な文献レビューを通じて、コードトレーニングを受けたLLMはプログラミングスキルと推論能力が向上し、モードやドメインを越えて複数の機能端末に柔軟に接続する能力を獲得し、コード実行環境に統合された評価モジュールと対話して自動的な自己改善を実現する能力が強化されたことを観察した。

さらに、コードトレーニングによって LLM の能力が向上すると、下流のアプリケーションでインテリジェントエージェントとして機能することができ、それが意思決定、実行、自己改善などの特定の運用ステップに反映されます。研究者らは、これまでの研究を検討するだけでなく、将来の開発の方向性を導く要因として、この分野におけるいくつかの課題も提案した。

詳しくは原文をご参照ください！

<<: OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

>>: