Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。

専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。

2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。

2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。

Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。

研究

Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。

モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。

  • 位置埋め込み: スループットを向上させるために、回転した位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
  • トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの FIM 関数をトレーニングするための特別なトークンを追加します。

電車

トレーニングデータセット

Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。

トレーニングインフラ

  • ハードウェア: Stable Code 3B は、Stability AI クラスター上の 256 個の NVIDIA A100 40GB GPU を使用してトレーニングされました。
  • ソフトウェア: 安定コード 3B は gpt-neox のブランチを使用し、2D 並列処理 (データとテンソルの並列処理) でのトレーニングに ZeRO-1 を使用し、flash-attention、SwiGLU、および FlashAttention-2 の回転埋め込みカーネルに依存します。

最後に、Stable Code 3B のパフォーマンスを見てみましょう。

Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。

<<: 

>>:  ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

ブログ    
ブログ    

推薦する

人工知能が科学を変える4つの方法

新たな医学研究から宇宙の新たな理解まで、新しいモデルは科学界に衝撃を与えました。世界中のほとんどの人...

英国最高裁:AIは「発明者」として記載できない

英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

人工知能はどのようにしてデジタル経済の新しい時代を導くのでしょうか?デジタルサミットの専門家は言う

[[346344]] 「人類の技術発展の歴史を振り返ると、機械化、電化、情報化の時代を経験し、生産や...

大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか?このレビューでは明らかに

大規模言語モデル (LLM) は私たちの生活や仕事の一部となり、その驚くべき汎用性とインテリジェンス...

ディープラーニングとニューラルネットワーク: 複雑なタスクのための AI モデル

人工知能の分野では、ディープラーニングとニューラルネットワークが最も注目を集める技術の一つとなってい...

AI を活用した予測分析で物流に革命を起こす

今日の急速に変化する物流の世界では、効率が鍵となります。世界経済は商品の円滑な流れに完全に依存してい...

人工知能のもう一つの方向性:メモリスタに基づくストレージおよびコンピューティング技術

[[325184]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける! 600以上の法執行機関と銀行の情報が盗まれた

多数の法執行機関と契約している顔認識会社が、ハッキングされ顧客リスト全体が盗まれたと報告した。デイリ...

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...

マスク氏はWeChatの複製に本気だ! 𝕏は音声通話とビデオ通話を推進します、シャオ・ザッカーバーグ:私は4年前にそれをやりました

マスク氏はツイッターで新たな計画を発表した。音声通話とビデオ通話を提供します。電話番号は必要ありませ...

...