Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。

専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。

2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。

2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。

Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。

研究

Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。

モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。

  • 位置埋め込み: スループットを向上させるために、回転した位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
  • トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの FIM 関数をトレーニングするための特別なトークンを追加します。

電車

トレーニングデータセット

Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。

トレーニングインフラ

  • ハードウェア: Stable Code 3B は、Stability AI クラスター上の 256 個の NVIDIA A100 40GB GPU を使用してトレーニングされました。
  • ソフトウェア: 安定コード 3B は gpt-neox のブランチを使用し、2D 並列処理 (データとテンソルの並列処理) でのトレーニングに ZeRO-1 を使用し、flash-attention、SwiGLU、および FlashAttention-2 の回転埋め込みカーネルに依存します。

最後に、Stable Code 3B のパフォーマンスを見てみましょう。

Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。

<<: 

>>:  ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

...

...

...

機械学習が製造業に革命を起こす10の方法

人工知能の導入は製造業に大きな経済的利益をもたらすでしょう。この点に関しては、さまざまな研究機関が関...

AIopsにおける人工知能

組織にとって、機械学習 (ML)、自動化、人工知能 (AI) 機能を備えたテクノロジー プラットフォ...

Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!

先月末、スタートアップ企業Groqの製品が一夜にして人気を博した。自社開発のハードウェアアクセラレー...

Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...

専門家:歩行者の安全問題を解決するために都市は自動運転だけに頼ることはできない

自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...

AI 導入を迅速に進める 5 つの方法

重要な実現技術である AI の急速な成功により、より広範なデジタル変革とイノベーションの取り組みへの...

AI時代に私たちは子供たちに何を教えるべきでしょうか?

私たちの子供たちが今後20年、30年でどのような仕事に就くことになるのかを予測するのは本当に難しいこ...

知っておくべき6種類のニューラルネットワーク

[51CTO.com クイック翻訳]ニューラルネットワークは人工知能の分野で非常に人気が高まっていま...

研究のアイデアがうまくいかない場合、それはアイデアが悪いからではなく、ハードウェアが追いついていないからかもしれません。

研究アイデアの成功は、そのアイデアが他の研究方向よりも優れているかどうかではなく、適切なハードウェア...