Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

本日、Meta は Code Llama シリーズで最大かつ最も強力なバージョンである Code Llama 70B を正式にリリースし、GPT-4 を一撃で打ち負かしました。

現在、このモデルには 3 つのバージョンがあり、研究目的および商用目的ではすべて無料で使用できます。

CodeLlama - 70B: 基本コードモデル。

CodeLlama - 70B - Python: Python 専用の 70B モデル。

CodeLlama - 70B - Instruct: 自然言語の指示を理解するために特化したモデル。

8 月にリリースされた Code Llama 7B、13B、34B が加わり、このファミリーが完成しました。

論文アドレス: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

実際、Code Llama はリリース時にすでにその優れた強みを発揮しており、数あるコード生成モデルの中でもトップの地位を占めています。

しかし、GPT-4 は HumanEval (pass@1) スコアが 67.0 (Code Llama 34B は 53.7) と、依然として大きくリードしています。

Code Llama の調整版は後により良い結果を達成しましたが、Meta の公式表には掲載されませんでした。

しかし！ 5 か月の懸命な研究を経て、Code Llama はついに注目を集め、最強の 70B モデルで 3 つのテストすべてでトップに躍り出ました。

その中で、CodeLlama-70B-Instruct は HumanEval で 67.8 という高スコアを直接獲得し、現在最も強力なオープンソースモデルの 1 つとなっています。

GPT-4 を除いて、他の同様のモデルはこれに匹敵することはほとんど不可能であると言えます。

これに対して、LeCun 氏はリツイートして自身の新しいモデルを宣伝した。「新世代の Code Llama は、以前のモデルと同様にオープンソースのままです。」

ついに自身のAIが宝物だと気づいたザッカーバーグ氏は、宣伝活動も強化した。

700 億の大規模なパラメータモデルを含む、新しくてより強力な Code Llama を正式にオープンソース化しました。

今日の AI 分野では、コードの作成と編集が最も重要なアプリケーションの 1 つになっています。同様に、他の分野でより厳密かつ論理的な情報処理を実行する AI モデルにとっても、プログラミング能力は特に重要です。

私はこの分野で私たちが成し遂げた進歩を非常に誇りに思っており、これらの進歩を将来のLlama 3およびそれ以降のモデルに組み込むことを非常に楽しみにしています。

技術詳細

Code Llama は、テキストプロンプトからコードを生成できる大規模な言語モデルです。既存の開発者の作業効率が向上するだけでなく、プログラミング初心者の学習ハードルも下がります。

Meta は、Code Llama を生産性を向上させるだけでなく、教育的価値も持ち、プログラマーがより安定した、文書化されたソフトウェアを作成できるようにするツールにしたいと考えています。

Code Llama は、プログラミングタスク専用に開発された Llama 2 のバージョンです。

Code Llama は、コーディング専用に設計されたデータセットでより深いトレーニングを実施することで、関数の作成、コード補完、デバッグなどのプログラミングタスクを支援するコードを理解して生成できます。

Python、C++、Java、PHP、Typescript (Javascript)、C#、Bash など、多くの一般的なプログラミング言語をサポートしています。

これまでのところ、Code Llama シリーズには 4 つのサイズがあり、パラメータはそれぞれ 7B、13B、34B、70B です。

最初の 3 つのモデルは 500B トークンのコードと関連データを使用してトレーニングされましたが、新しくリリースされた 70B モデルでは 1TB トークンが使用されました。

さらに、7B および 13B の基本モデルと命令モデルは、既存のコードに新しいコードを直接挿入できる (コード補完) 中間補完 (FIM) 機能を使用してトレーニングされています。

Code Llama シリーズモデルは、さまざまなニーズとパフォーマンス要件に合わせて最適化されています。

7B モデルは単一の GPU で実行でき、高速応答のシナリオに適しています。一方、34B モデルと 70B モデルはより高度なエンコード支援機能を提供しますが、実行速度は遅くなります。

Code Llama は最大 100,000 トークンの長さのコンテキストを処理できるため、モデルはより長いプログラムコードを理解して生成できます。

これは、開発者が多くのコードコンテキストを提供してより正確なコーディング提案を得ることができる、大規模なコードベースでのタスクのデバッグに特に役立ちます。

さらに、Code Llama は、Code Llama - Python と Code Llama - Instruct という 2 つの特別エディションをリリースしました。

AI コミュニティにおける Python の重要性を考慮して、Code Llama - Python は Python コードに特別に最適化されており (1000 億トークンの Python コードデータを使用して微調整済み)、Python コードの生成がよりスムーズかつ正確になります。

CodeLlama-70B-Python は、Web スクレイピング、データ分析、機械学習 (ML)、Web 開発などのさまざまなタスクも処理できます。

Code Llama - Instruct は、自然言語の指示と予想される出力を受け入れることでトレーニングされ、ユーザーのニーズに基づいてコードや回答をより適切に生成できるようになります。

CodeLlama-70B-Instruct は、データの並べ替え、検索、フィルタリング、操作のほか、アルゴリズム (二分探索、フィボナッチ、階乗など) の実装にも使用できます。

より安全で有用な結果を得るためにコード生成が必要な場合は、Code Llama - Instruct を優先して使用することをお勧めします。

主にプログラミングの問題に使用される Code Llama と Code Llama - Python は、一般的な自然言語タスクの処理には適していないことに注意してください。

ベンチマーク

業界で広く使用されているプログラミングベンチマークを使用して、新しい Code Llama が同様のモデルと比較してどのように機能するかを見てみましょう。

HumanEval と Mostly Basic Python Programming (MBPP)。

HumanEval は、コード生成モデルの機能的正確性とロジックをテストする 164 個のプログラミング問題のベンチマークデータセットであり、MBPP は特定の説明に基づいてコードを記述するモデルのスキルをテストします。

前世代の 34B のパフォーマンスが非常に優れていることがわかります。パラメータ数が 2 倍の Code Llama 70B がリストを直接支配し、34B と比較してパフォーマンスが大幅に向上しています。

その中で、CodeLlama-70B-InstructはHumanEvalで67.8という高スコアを獲得し、CodeGen-16B-Mono（29.3）やStarCoder（40.1）などのオープンモデルのこれまでの最高スコアを上回り、GPT-4（68.2）やGemini Pro（69.4）などのクローズドソースモデルに匹敵するスコアを獲得しました。

もちろん、AI モデルをより責任を持って開発するために、Meta は複数のセキュリティ対策を講じ、悪意のあるコードを生成するリスクを定量化しました。

結果は、Code Llama が ChatGPT (GPT3.5 Turbo) よりも安全な回答を提供することを示しています。