Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コードレベルでのさまざまなダウンストリームタスクで優れたパフォーマンスを示しています。大量のコードベースのデータ (GitHub パブリックデータなど) を事前トレーニングすることで、LLM はさまざまなコード関連の下流タスクに転送可能な豊富なコンテキスト表現を学習できます。ただし、既存のモデルの多くは、アーキテクチャや事前トレーニングタスクの制限により、タスクのサブセットでしか適切に機能しません。

アーキテクチャの観点から見ると、既存の LLM は通常、純粋なエンコーダーモデルまたは純粋なデコーダーモデルを採用しており、これらは通常、一部の理解タスクまたは生成タスクでのみ優れたパフォーマンスを発揮します。純粋なエンコーディングモデルは通常、テキストの理解やコードの取得などのタスクに適していますが、純粋なデコーダーモデルはコード生成タスクでより優れたパフォーマンスを実現できます。さらに、最近のモデルの中には、より統合されたエンコーダー/デコーダーアーキテクチャを使用してさまざまなタスクに対処するものもあります。これらのモデルは理解タスクと生成タスクの両方をサポートできますが、特定のタスクでは最適なパフォーマンスを達成できません。検索およびコード補完タスクでは、エンコーダー/デコーダーモデルは、最先端 (SOTA) のエンコーダーのみおよびデコーダーのみのベースラインよりもパフォーマンスが劣っています。単一モジュールアーキテクチャは一般にすべてのタスクに適用できますが、その制限によりエンコーダー/デコーダーモデルの欠点も生じます。要約すると、これまでのアプローチは、さまざまな種類の下流のタスクに適合するように個々のコンポーネントをどのようにアクティブ化できるかを考慮して設計されていませんでした。

学習オブジェクトの観点から見ると、現在のモデルは通常、事前トレーニングタスクの限定されたセットを採用しています。事前トレーニング段階と微調整段階の違いにより、これらの事前トレーニングタスクによって一部の下流タスクのパフォーマンスが低下する可能性があります。たとえば、T5 ベースのモデルは、多くの場合、スパンノイズ除去の目的でトレーニングされます。ただし、コード生成などの下流タスクでは、ほとんどの最新モデルは、トークンごとの自己回帰予測を実行する次のトークン予測目的で事前トレーニングされています。対照的なコード表現を学習することは、テキスト理解やコード検索などのタスクにとって重要ですが、多くのモデルはそのためトレーニングされていません。最近のいくつかの研究では、この問題を軽減するために対照学習タスクを導入しようと試みましたが、これらの方法では、テキストとコード表現間のきめ細かいクロスモーダル調整が無視されています。

上記の制限に対処するために、Salesforce の研究者は、幅広いコード理解および生成タスクに使用できる新しい基本的な LLM シリーズエンコーダー/デコーダーである「CodeT5+」を提案しました。

論文アドレス: https://arxiv.org/pdf/2305.07922.pdf
プロジェクトアドレス: https://github.com/salesforce/CodeT5/tree/main/CodeT5%2B

CodeT5+ はエンコーダー/デコーダーモデルに基づいていますが、エンコーダーのみ、デコーダーのみ、エンコーダー/デコーダーの各モードで柔軟に動作し、さまざまなダウンストリームアプリケーションに適応できます。全体的なアーキテクチャを図 1 に示します。

この柔軟性は、コードデータに対するスパンノイズ除去や因果言語モデリング (CLM) タスク、およびテキストコードデータに対するテキストコード対照学習、マッチング、CLM タスクなどの事前トレーニングタスクに基づいて実現されます。このような幅広い事前トレーニングタスクは、コードやテキストデータの豊富な表現を学習し、さまざまなアプリケーションにおける事前トレーニングと微調整のギャップを埋めるのに役立ちます。マッチングタスクと対照学習を組み合わせることが、きめ細かいテキストとコードのアライメントを捉え、検索パフォーマンスを向上させるために重要であることがわかりました。

既製の LLM コードを活用して CodeT5+ コンポーネントを初期化することにより、計算効率の高い事前トレーニング戦略を使用して CodeT5+ のモデルサイズを拡張します。 CodeT5+ は「浅いエンコーダーと深いデコーダー」アーキテクチャを採用しており、エンコーダーとデコーダーの両方が事前トレーニング済みのチェックポイントから初期化され、クロスアテンションレイヤーによって接続されます。さらに、この研究ではディープデコーダー LLM を凍結し、浅いエンコーダーと交差注意層のみをトレーニングしたため、効果的に調整できるトレーニング可能なパラメーターの数が大幅に削減されました。最後に、NLP の分野に触発されて、研究者たちは、モデルを自然言語の命令とより適切に一致させるために、CodeT5+ が命令のチューニングに与える影響を調査し始めました。

この調査では、ゼロショット、微調整、命令調整など、20 を超えるコード関連のベンチマークで CodeT5+ を徹底的に評価します。結果は、CodeT5+ が、8 つのテキストからコードへの検索タスク (+3.2 平均 MRR)、2 つの行レベルのコード補完タスク (+2.1 平均完全一致)、および 2 つの検索強化コード生成タスク (+5.8 平均 BLEU-4) など、多くの下流タスクで SOTA ベースラインに対して大幅なパフォーマンス向上を達成したことを示しています。

MathQA および GSM8K ベンチマークの 2 つの数学プログラミングタスクでは、10 億未満のパラメータを持つ CodeT5+ モデルが、最大 1370 億のパラメータを持つ多くの LLM よりも大幅に優れたパフォーマンスを発揮します。特に、HumanEval ベンチマークのゼロショットテキストからコードへの生成タスクでは、命令調整された CodeT5+ 16B は、他のオープンソースコード LLM と比較して、35.0% pass@1 および 54.5% pass@10 という新しい SOTA 結果を達成し、クローズドソースの OpenAI code-cusherman-001 モデルを上回りました。最後に、この研究では、CodeT5+ はセミパラメトリック検索強化型生成システムとしてシームレスに見ることができ、コード生成における他の同様の方法を大幅に上回る性能を発揮することがわかりました。すべての CodeT5+ モデルは、研究および開発者コミュニティをサポートするためにオープンソースになります。

CodeT5+: オープンソースの大規模言語モデル

本稿では、コードの理解と生成タスクのためのオープンソースの大規模言語モデルの新しいファミリーである CodeT5+ を開発します。 CodeT5+ は、エンコーダー/デコーダーアーキテクチャに基づいて、この論文で提案されているように、ユニモーダルデータとバイモーダルデータで事前トレーニング目標を混合することにより、さまざまなダウンストリームタスクでさまざまなモードで動作する柔軟性を高めます。

アーキテクチャの詳細

事前トレーニングの詳細

ユニモーダル事前トレーニング段階では、研究者は計算効率を目標に大量のコードデータを使用してモデルを事前トレーニングします。バイモーダル事前トレーニング段階では、クロスモーダル学習目標を持つより小さなコードテキストデータセットを使用してモデルの事前トレーニングを継続します。各ステージでは、同じ重みを使用して、複数の事前トレーニング済み目標が共同で最適化されます。

研究者たちは、この段階的なトレーニング手法により、モデルをより多様なデータに効果的にさらして、豊富なコンテキスト表現を学習できることを発見しました。さらに、モデルを効率的にスケーリングするために、既製のコード LLM を使用して CodeT5+ を初期化する方法も検討しました。最後に、CodeT5+ のモデルコンポーネントを動的に組み合わせて、さまざまな下流のアプリケーションタスクに適応できます。

実験

研究者らは、モデルサイズが 220M から 16B に及ぶ一連の CodeT5+ モデルを実装しました。

CodeT5+ 220M および 770M は T5 と同じアーキテクチャを使用し、最初から事前トレーニングされていますが、CodeT5+ 2B、6B、16B は「浅いエンコーダーと深いデコーダー」アーキテクチャを使用し、エンコーダーは CodeGen-mono 350M から初期化され、デコーダーはそれぞれ CodeGen-mono 2B、6B、16B から初期化されています。研究者らは、CodeT5+ と SOTA コードモデルを比較しました。これらの LLM は、純粋なエンコーダー、純粋なデコーダー、エンコーダーデコーダーモデルの 3 種類に分けられます。

テキストからコードへの生成タスクのゼロショット評価

自然言語仕様を与えられた場合にゼロショット設定で Python コードを生成するモデルの能力を評価し、生成されたコードを単体テストでテストすることでモデルのパフォーマンスを評価しました。表2は合格率pass@kを示しています。

数理計画タスクの評価

研究者らは、他のコード生成タスク、具体的には 2 つの数学プログラミングベンチマークである MathQAPython と GSM8K も調査しました。表 3 に示すように、CodeT5+ は大幅なパフォーマンスの向上を実現し、多くの大規模コード LLM を上回っています。

図 6 は、MathQA-Python における数学プログラミング問題の複雑さによるモデルパフォーマンスの分析を示しています。それぞれの問題について、その問題を解決するために必要な推論ステップの数を抽出しました。 CodeT5 と比較すると、CodeT5+ は問題の複雑さ (必要な推論ステップの数) に対してより堅牢です。

コード要約タスクの評価

コード要約タスクは、コードスニペットを自然言語のドキュメント文字列に要約することを目的としています。研究者らは、6つのプログラミング言語のCodeSearchNetデータセットのクリーンバージョンを使用して、このタスクのモデルを評価しました。

表 4 から、エンコーダー/デコーダーモデル (CodeT5 および CodeT5+) のパフォーマンスは、純粋なエンコーダーモデル、純粋なデコーダーモデル、および UniLM スタイルモデル UniXcoder よりも一般的に優れていることがわかります。

コード補完タスクの評価

コンテキストに基づいて次のコード行を完了することを目的とした行レベル完了タスクで、CodeT5 + デコーダーのみの生成機能を評価しました。

表 5 に示すように、CodeT5+ (純粋なデコーダーモード) と純粋なデコーダーモデル (上部のブロック) のパフォーマンスは、エンコーダー/デコーダーモデル (中央のブロック) よりも大幅に優れており、純粋なデコーダーモデルがコード補完タスクに適切に適応できることが証明されています。

テキストからコードへの検索タスクの評価

また、複数の PL にわたるテキストからコードへの検索タスクを通じて、CodeT5+ のコード理解能力も評価しました。

表 6 からわかるように、CodeT5+ 220M は、既存のすべてのエンコーダーのみ/デコーダーのみのモデル (上部ブロック) およびエンコーダー/デコーダーモデル (中央ブロック) よりも大幅に優れたパフォーマンスを発揮します。

研究の詳細については原著論文を参照してください。

<<: 自動運転にはセンサーがいくつ必要ですか?

>>: DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

ブログ

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

CodeT5+: オープンソースの大規模言語モデル

実験

人工知能デジタル技術の強化は現実予測において徐々にその力を発揮しつつある

人間の知能と人工知能：どちらが優れているのでしょうか？

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

マイクロソフトがニュースルーム向けのAI支援プログラムを開始：ジャーナリストはAIを最大限に活用する方法を学ぶための無料コースを受講できる

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

ビッグデータ、機械学習、人工知能の将来に影響を与える8つの要因

Java プログラミングスキル - データ構造とアルゴリズム「ソートアルゴリズムの分類と紹介」

推薦する

ロボットが人間の「仲間」となり、人間と機械の関係が変化する。これは良いことなのか、悪いことなのか？

LeCunは再び自己回帰LLMを批判：2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

CPP アルゴリズム問題のための共通コンテナ技術

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか？

アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

AIビッグモデルデータ注釈「出稼ぎ労働者」の月収は5000元以下、単価は50セントから4セントに下落

機械学習の第一歩、ランダムフォレストのステップバイステップの入門書です

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

LLaMA のコアオリジナルクリエイターのほとんどが辞職し、Meta AI の内部事情が暴露されました!計算能力をめぐる争いが勃発し、大規模モデルチームのメンバーは3度も入れ替わった

Google GlassのDIY貧弱版、カスタムジェスチャーコントロール、Raspberry Piがまたもや新しい遊び方を開発

iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

.NET8 究極のパフォーマンス最適化プリミティブ - DateTime

ICLR2021 対照学習 NLP 論文進捗レビュー

CNNを称賛するのはやめろ。類似点と相違点さえ区別できない