LLM ウィザード、コードの事前トレーニングは魔法の杖です! UIUC中国チームがコードデータの3つの利点を明らかに

大規模モデルの時代における言語モデル (LLM) は、サイズが大きくなるだけでなく、トレーニングデータにも自然言語と形式言語 (コード) の両方が含まれます。

コードは、人間とコンピューターの間の媒体として、高レベルの目標を実行可能な中間ステップに変換することができ、標準構文、論理的一貫性、抽象化、モジュール性などの特性を備えています。

最近、イリノイ大学アーバナ・シャンペーン校の研究チームが、LLM トレーニングデータにコードを統合することのさまざまな利点を概説したレビュー論文を発表しました。

論文リンク: https://arxiv.org/abs/2401.00812v1

具体的には、LLM のコード生成機能の向上に加えて、次の 3 つの利点があります。

1. LLM の推論機能を解放し、より複雑な自然言語タスクに適用できるようにします。

2. LLM を誘導して構造化された正確な中間ステップを生成し、関数呼び出しを通じて外部の実行終了に接続できるようにします。

3. コードのコンパイルおよび実行環境を使用すると、モデルをさらに改善するためのより多様なフィードバック信号を提供できます。

さらに研究者らは、LLM が指示を理解し、目標を分解し、行動を計画して実行し、フィードバックから抽出する能力が、インテリジェントエージェント (IA) として機能する際に下流のタスクで重要な役割を果たす方法を追跡しました。

最後に、この論文では、「コードによる LLM の強化」の分野における主要な課題と将来の研究方向も提案しています。

コードの事前トレーニングによりLLMのパフォーマンスが向上

OpenAI の GPT Codex を例にとると、LLM のコード事前トレーニング後、LLM のタスク範囲を拡大できます。このモデルは、自然言語処理に加えて、数学理論のコード生成、一般的なプログラミングタスクの実行、データ検索なども実行できます。

コード生成タスクには、1) コードシーケンスを効率的に実行する必要があるため、一貫したロジックを持つ必要がある、2) 各中間ステップを段階的に検証できる、という 2 つの特性があります。

事前トレーニングでコードのこれら 2 つの特性を活用して埋め込むと、従来の自然言語の下流タスクにおける LLM Chain of Thought (CoT) テクノロジのパフォーマンスが向上し、コードトレーニングによって LLM の複雑な推論を実行する能力が向上することが示されます。

Code LLM は、構造化された形式のコードから暗黙的に学習することで、マークアップ、HTML、図の理解に関連する常識的な構造推論タスクでも優れたパフォーマンスを発揮します。

サポート機能終了

最近の研究結果によると、LLM を他の機能端末に接続すると (つまり、LLM を外部ツールや実行モジュールで拡張すると)、LLM はより正確かつ確実にタスクを実行できるようになります。

これらの機能的目的により、LLM は外部の知識を獲得し、マルチモーダルデータを活用し、環境と効果的にやり取りできるようになります。

関連する研究から、研究者は、LLM がプログラミング言語を生成したり、定義済みの関数を利用して他の機能端末との接続を確立したりする、つまり「コード中心」のパラダイムという一般的な傾向を観察しました。

LLM 推論メカニズムにおける厳密にハードコードされたツール呼び出しの固定された実践とは対照的に、コード中心のパラダイムにより、LLM はトークンを動的に生成し、適応可能なパラメータを使用して実行モジュールを呼び出すことができます。これにより、LLM が他の機能端末と対話するためのシンプルで明確な方法が提供され、アプリケーションの柔軟性とスケーラビリティが向上します。

重要なのは、このパラダイムにより、LLM がさまざまなモダリティやドメインにわたる多数の機能端末と対話できるようになることです。アクセス可能な機能端末の数と種類を増やすことで、LLM はより複雑なタスクを処理できるようになります。

この論文では、LLM に関連するテキストおよびマルチモーダルツール、およびロボット工学や自動運転などの物理世界の機能的側面に焦点を当て、さまざまなモダリティとドメインにわたる問題を解決する LLM の汎用性を示します。

自動フィードバックを提供する実行環境

LLM は、特に非静的な現実世界のアプリケーションにおいて、フィードバック信号を組み込むモデルの能力により、トレーニングパラメータを超えるパフォーマンスを発揮します。

ただし、ノイズの多いキューは下流のタスクでの LLM のパフォーマンスを妨げる可能性があるため、フィードバック信号は慎重に選択する必要があります。

さらに、人的労力はコストがかかるため、忠実さを保ちながら自動的にフィードバックを収集することが重要です。

LLM をコード実行環境に組み込むことで、上記の条件の自動フィードバックを実現できます。

コード実行はほぼ決定論的であるため、LLM がコード実行の結果から取得するフィードバックはターゲットタスクに忠実なままです。また、コードインタープリターは LLM が内部フィードバックを照会するための自動パスも提供し、手動で注釈を付けることなく、LLM によって生成されたエラーのあるコードのデバッグと最適化を可能にします。

さらに、コード環境により、LLM はバイナリ正確性フィードバック、結果の自然言語による説明、報酬値のランキングなど、さまざまな外部フィードバック形式を組み込むことができるため、パフォーマンスを向上させるための高度にカスタマイズ可能なアプローチが可能になります。

現在の課題

コードの事前トレーニングとLLM推論による因果関係の強化

コードデータの特定の特性が LLM の推論能力に寄与する可能性があることは直感的にわかりますが、推論スキルの向上に対する影響の正確な範囲は不明です。

次の研究では、トレーニングデータで強化されたこれらのコード特性が、実際にトレーニングされた LLM の推論能力を強化できるかどうかを調査することが重要になります。

実際、コードの特定の特性に関する事前トレーニングによって LLM の推論能力が直接的に向上するのであれば、この現象を理解することが、現在のモデルの複雑な推論能力をさらに向上させる鍵となるでしょう。

コードを超えた推論機能

コードの事前トレーニングを通じて推論機能が強化されたにもかかわらず、基礎となるモデルには、真の汎用 AI に期待される人間のような推論機能がまだ欠けています。

コードに加えて、他の多数のテキストデータソースも LLM 推論機能を強化する可能性があります。コードの固有の特性 (あいまいさの欠如、実行可能性、論理的な連続構造など) は、これらのデータセットを収集または作成するための指針となります。

しかし、言語モデリングの目的で大規模なコーパスで言語モデルをトレーニングするというパラダイムに固執し続けると、形式言語よりも抽象的で、高度に構造化され、記号言語と密接に関連し、デジタルネットワーク環境に豊富に存在する、順次読み取り可能な言語を想像することは困難です。

研究者たちは、代替データモダリティ、多様なトレーニング目標、新しいアーキテクチャを探索することで、モデルの推論機能をさらに強化する機会が増えると考えています。

コード中心のパラダイムを適用する際の課題

LLM では、コードを使用してさまざまな関数端末に接続する場合の主な課題は、適切な関数端末を選択し、適切な場合に適切なパラメータを渡すなど、さまざまな関数を呼び出す正しい方法を学習することです。

たとえば、単純なタスク (Web ページナビゲーション) の場合、マウスの移動、クリック、ページのスクロールなどのアクションプリミティブの限られたセットと、いくつかの例 (few-shot) が与えられたときに、強力な基本 LLM では、LLM がこれらのプリミティブの使用を正確に習得することが求められることがよくあります。

化学、生物学、天文学などのデータ集約型ドメインにおけるより複雑なタスクでは、さまざまな機能を持つ多くの複雑な関数を含むドメイン固有の Python ライブラリの呼び出しが伴いますが、これらの関数を正しく呼び出すための LLM の学習能力を強化することは、LLM がきめ細かいドメインで専門家レベルのタスクを実行できるようにする将来的な方向性です。

複数回のやり取りとフィードバックから学ぶ

LLM は通常、ユーザーや環境と複数回対話し、継続的に自己修正して複雑なタスクの完了を改善する必要があります。

コード実行により信頼性が高くカスタマイズ可能なフィードバックが提供されますが、このフィードバックを最大限に活用する完璧な方法はまだ確立されていません。

現在の選択ベースの方法は有用ではあるものの、パフォーマンスの向上を保証するものではなく、非効率的です。再帰ベースの方法は LLM のコンテキスト学習機能に大きく依存しているため、適用範囲が制限される可能性があります。また、微調整方法は、継続的に改善しますが、収集と微調整に多くのリソースを必要とするため、実際に使用するのは困難です。

研究者たちは、強化学習はフィードバックを活用して改善するためのより効果的な方法であり、慎重に設計された報酬関数を通じてフィードバックに適応する動的な方法を提供し、現在の技術の限界に対処できる可能性があると考えています。

しかし、報酬関数をどのように設計するか、また強化学習と LLM を最適に統合して複雑なタスクを達成する方法を理解するには、まだ多くの研究が必要です。

<<: Google が名誉挽回を果たし、新しいバードが GPT-4 を打ち負かし、LLM ランキングで 2 位にランクインしました。ジェフ・ディーンは「我々は戻ってきた」と叫ぶ

>>:

ブログ

LLM ウィザード、コードの事前トレーニングは魔法の杖です! UIUC中国チームがコードデータの3つの利点を明らかに

コードの事前トレーニングによりLLMのパフォーマンスが向上

サポート機能終了

自動フィードバックを提供する実行環境

現在の課題

Python が機械学習に最適な理由は何ですか?

人工知能企業が大規模なデータ漏洩事件に見舞われ、250万人以上のデータが流出

2023 ACM フェローがチューリングビッグスリーに授与されました。清華大学の馬衛英氏、マイクロソフトの高建鋒氏、上海交通大学の陳海波氏、その他14名の中国人が選出された。

人工知能は知的ではないのでしょうか?最初から方向性が間違っていた

openKylinオペレーティングシステムが正式に発表され、ビッグモデルに接続し、音声アシスタントとデスクトッププラグインを提供します

ポストパンデミックの時代に、伝統的なオフィスビルは時代遅れになるのでしょうか？

ディープラーニングの父が懸念：データ漏洩、AI兵器、批判の欠如

推薦する

Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

ピリパインテリジェントファイナンス＆タックス2018エンタープライズサービス+ウィズダムフォーラムが成功裏に終了

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

顔認識禁止が迫る：テクノロジー企業はどこへ向かうべきか？

機械学習プロジェクトを構築するための6つのステップをマスターしましょう

デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践

AIとデジタルワークスペースがパンデミック後の世界のリモートワーカーをサポート

2時間で人間を超えることができます！ DeepMind の最新 AI が 26 の Atari ゲームをスピードラン