Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。

専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。

2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。

2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。

Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。

研究

Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。

モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。

  • 位置埋め込み: スループットを向上させるために、回転した位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
  • トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの FIM 関数をトレーニングするための特別なトークンを追加します。

電車

トレーニングデータセット

Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。

トレーニングインフラ

  • ハードウェア: Stable Code 3B は、Stability AI クラスター上の 256 個の NVIDIA A100 40GB GPU を使用してトレーニングされました。
  • ソフトウェア: 安定コード 3B は gpt-neox のブランチを使用し、2D 並列処理 (データとテンソルの並列処理) でのトレーニングに ZeRO-1 を使用し、flash-attention、SwiGLU、および FlashAttention-2 の回転埋め込みカーネルに依存します。

最後に、Stable Code 3B のパフォーマンスを見てみましょう。

Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。

<<: 

>>:  ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

ブログ    
ブログ    
ブログ    

推薦する

英国、心臓発作予測の精度向上のため新たな人工知能アルゴリズムを開発

心臓発作を事前に予測することは困難です。 17日のサイエンス誌によると、英国ノッティンガム大学の科学...

モノのインターネットにおける人工知能の主要技術と手法

人工知能は、IoT の機能を実現する上で重要な役割を果たします。 AI と IoT の融合を推進し、...

...

ロボットとIoTがサプライチェーンに与える影響

過去1年ほど、COVID-19パンデミックの影響により、効率的なサプライチェーンの重要性が特に顕著に...

...

インドの天才数学者ラマヌジャンが残した3000以上の魔法の公式をAIに「証明」させる!

最近、ネイチャー誌に、新しい数式を生成できる AI アルゴリズム プロジェクトを研究者が構築したプロ...

「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

ニュージーランド政府は、政府機関がアルゴリズムを使用する方法のガイドとなることを目的とした一連の標準...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...

エッジ AI ソフトウェア市場は 2023 年までに 11 億 5,000 万ドルに達する見込み

市場調査会社MarketsandMarketsによると、世界のエッジ人工知能(エッジAI)ソフトウェ...

OpenAIが「Copyright Shield」機能を開始、AI著作権問題の支払いプラットフォーム

IT Homeは11月7日、本日開催されたOpenAI初の開発者会議で、OpenAIが「Copyri...

...

ChatGPTにはファイル分析や自動検索などの新機能がある。スタートアップ企業の製品は置き換えられるのだろうか?

最近、OpenAIはChatGPT Plusメンバー向けに新しいベータ機能を開始しました。これには主...

MySQL: データ構造とアルゴリズムの原則

[[190898]]この記事では、MySQL データベースを研究対象として取り上げ、データベース イ...

無意味または有害なボットトラフィックは年間最大2億5000万ドルのコストがかかる

Cyber​​news によると、ますます多くの企業が、検出がますます困難になっている悪意のあるボッ...