自動生成された小さなデータセットを使用してエンコーディング LLM をトレーニングする方法

自動生成された小さなデータセットを使用してエンコーディング LLM をトレーニングする方法

翻訳者 |李睿

レビュー | Chonglou

GPT-4 のような大規模言語モデル (LLM) はソフトウェア コードの記述に非常に優れていますが、これらのモデルのコストと不透明性により、より経済的でサイズの小さい LLM のエンコードへの関心が高まっています。

これらの代替手段は、特定のタスクに合わせて微調整でき、コストも低くなります。これらの LLM を開発する際の主な課題は、トレーニング データセットのサイズとモデルのパフォーマンスの間の最適なバランスを見つけることです。

この課題に対処するため、Microsoft は最近、より少ない例を使用して効率的なエンコーディング言語モデルをトレーニングするための新しい手法を紹介する論文を発表しました。この論文では、WaveCoder モデルを紹介し、同様の数の例でトレーニングされた他のエンコーディング LLM よりも優れたパフォーマンスを発揮すると主張しています。

WaveCoder を補完するために、Microsoft は 20,000 種類のコード例を厳選したデータセットである CodeOcean を開発しました。このデータセットは、コーディング アプリケーションの基本モデルの微調整を強化できます。

正しいエンコード例を選択してください

図1 CodeOceanパイプライン

WaveCoder は印象的な LLM モデルですが、この論文でさらに興味深いのは、付随するデータセットである CodeOcean です。 CodeOcean は、コスト効率と品質のバランスが取れたデータセットを作成するという大きな課題を解決します。研究者らは、多様性を最大限に高めたデータセットであれば、含まれる例の数が限られている場合でも、印象的な結果を生み出すことができると主張している。

研究チームは、200 万のコメントとコードのペアを含む大規模なコーディング データセットである CodeSearchNet から始めました。彼らは、BERT ベースのTransformerモデルを使用して各例の埋め込みを生成し、複雑な情報を数字のリストに変換しました。

彼らは、埋め込みにクラスタリング アルゴリズムを適用し、類似性に応じて例を並べ替えました。このアプローチにより、研究者は元のデータセットから多様性を最大化するサブセットを抽出できます。

説明を追加

コア データセットを構築した後、研究者はコードと手順を含むトレーニング例を作成する必要があります。これを実現するために、彼らは生のコード例から指導データを生成するジェネレーター-ディスクリミネーター フレームワークを作成しました。当初、彼らは GPT-4 を使用して特定のシナリオでのタスク定義を作成しました。これらの初期タスク定義は、ガイダンス プロンプトと組み合わせて GPT-3.5 に送られ、追加の例に対応する指示が生成されます。

図2 CodeOceanのジェネレーター・ディスクリミネーターフレームワーク

識別要素については、研究者らは別の評価プロンプトを開発しました。このプロンプトは、コードと命令の例とともに、評価のために GPT-4 に提供されます。 CodeOcean パイプラインは、適切な例を使用して将来のトレーニング例を生成します。

研究者たちは、この反復的なプロセスを通じて 20,000 個の高品質な教育サンプルを生成しました。例は、コード生成、コード要約、言語変換(あるプログラミング言語から別のプログラミング言語へ)、およびコード修復という 4 つの異なるコーディング タスクのカテゴリにわたります。これら 4 つのカテゴリは、LLM コーディング タスクの大部分を構成します。

WaveCoder のトレーニング

図 3. WaveCoder は、同様の数の例でトレーニングされた他のエンコーディング LLM よりも優れたパフォーマンスを発揮します。

LLM をエンコードするためのトレーニング例を生成する方法は多数ありますしかし、Microsoft の CodeOcean は、一般化と例の効率性に重点を置いている点で独特です。大量のデータに依存する研究とは異なり、CodeOcean はより小さなデータセットで高いパフォーマンスを実現できます。

CodeOcean の有効性を実証するために、研究者らは 3 つのコーディング言語モデル (StarCoder-15B、CodeLLaMA (7B および 13B)、DeepseekCoder-6.7B) を微調整しました。データセットのサイズを考慮すると、微調整は高速かつコスト効率に優れています。研究者らは、微調整されたモデルを 3 つの主要なエンコード ベンチマーク (HumanEval、MBPP、HumanEvalPack) で評価しました。

CodeOcean で複数回トレーニングすることで、すべてのモデルがこれらのベンチマークで大幅な改善を示します。コード生成の面では、研究者は WaveCoder の影響と限界について次のように述べています。「微調整プロセスの後、WaveCoder モデルのパフォーマンスは、ベース モデルや一部のオープン ソース モデルと比較して大幅に向上しましたが、独自のモデル (GPT-4 や Gemini など) や、70,000 を超えるトレーニング データを使用してトレーニングされたモデルに比べるとまだ遅れをとっています。」

78,000 のトレーニング例の場合、WaveCoder と WizardCoder のパフォーマンスの違いはわずかです。これは、「洗練された多様な命令データにより、命令チューニングの効率が大幅に向上する可能性がある」ことを示しています。

WaveCoder は、特にコードの要約と修復タスクに優れています。ほぼすべてのプログラミング言語において、他のオープンソース モデルよりも優れたパフォーマンスを発揮します。この成功は、コード LLM の一般化能力を強化するためにコード関連のタスクを定義および分類することの有効性を浮き彫りにしています。

Microsoft はまだ WaveCoder と CodeOcean のモデル、コード、データを公開していないが、 Hugging Faceでの議論から、同社がそれらを公開するかどうかを検討していることがうかがえる。今後、研究者たちは、より大きなデータセットの効果と、CodeOcean と他のコーディング データセットを組み合わせることで得られる潜在的な利点を調査することを目指しています。

原題:小さな自動生成データセットを使用してコーディング LLM をトレーニングする方法、著者: Ben Dickson

<<:  周紅一の2024年大模型予測は8つの点を検証し、ソラの出現は予想を超えていると述べている

>>:  大規模言語モデルとベクトルデータベースに基づくニュース推奨システムの開発

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

2020年の世界スマート街灯市場の現状と発展見通しの分析

Technavioが発表した「世界のスマートポール市場2020-2024」レポートデータによると、2...

AIは役に立たないなんて誰が言ったのでしょうか?パンデミックの間、AIは人類のために多くのことを行ってきました...

[[314062]] 10日以上も経過したが、流行は収束の兆しを見せず、事態はますます深刻化してい...

AI にはどのような IT インフラストラクチャが必要ですか?

長年にわたり、AI テクノロジーの発展と変化に伴い、さまざまな業界や IT 意思決定者がこの分野に多...

2020年に人工知能はどのように発展するでしょうか?機械学習のトップ専門家が予測するトレンド

[[311763]]人工知能はもはや、いつか世界を変える準備をしているのではなく、すでに世界を変えて...

トレンド検索No.1! B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

[[408814]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ディープニューラルネットワークを使用して三体問題を1億倍速く解く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

iOS の位置決めと座標系アルゴリズム

この話題を始める前に、もう一度皆さんの無知を解明させてください。私が解明したいのは、座標系についての...

人工知能は社会統治の近代化を効果的に促進できる

現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...

20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

近年、四足歩行、把持、器用な操作など、ロボットの強化学習技術の分野では大きな進歩が遂げられていますが...

ユビキタス「AI+」人工知能はこのように私たちの生活を変える

人工知能(略して AI)は、コンピュータサイエンスの重要な分野として、1956 年にダートマス協会で...

...

保険業界は人工知能をどのように活用しているのか

人工知能が保険会社、顧客、カスタマーサービススタッフにどのように役立つかを人々が理解する必要がありま...

SDNアーキテクチャに基づくデータセンターネットワークルーティングアルゴリズムの需要分析

現在のネットワーク情報技術の急速な発展に伴い、ネットワーク アーキテクチャはますます複雑になっていま...