コンシューマーグレードのグラフィック カードが利用可能になりました。李開復のゼロワンエブリシングは、史上最強の数学コードである90億パラメータのYiモデルをリリースし、オープンソース化しました。

コンシューマーグレードのグラフィック カードが利用可能になりました。李開復のゼロワンエブリシングは、史上最強の数学コードである90億パラメータのYiモデルをリリースし、オープンソース化しました。

李開復氏が所有するAI企業Zero One Everythingにも、もう1つの大手モデルプレイヤーが登場した。

90億のパラメータYi-9B

Yiシリーズの中では「理科の成績優秀者」として知られており、コーディング数学を「補い」つつ、総合的な能力でも劣っていません。

これは、同様の規模の一連のオープンソース モデル(Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 など) の中で最も優れたパフォーマンスを発揮します。

いつものように、このリリースはオープンソースであり、特に開発者にとって使いやすいものとなっています

Yi-9B (BF 16) とその量子化バージョンである Yi-9B (Int8) はどちらも、コンシューマーグレードのグラフィック カードに導入できます。

RTX 4090 1 台と RTX 3090 1 台で十分です。

深い増幅 + 多段階の漸進的トレーニング

Zero One Thing の Yi ファミリーは、これまでに Yi-6B および Yi-34B シリーズをリリースしています。

どちらも 3.1T トークンの中国語と英語のデータで事前トレーニングされていますが、Yi-9B はさらなるトレーニングのために 0.8T トークンを追加します。

データの締め切りは2023年6月です

冒頭で述べたように、Yi-9B の最大の改善点は数学とコードにあります。では、この 2 つの機能はどのように改善されたのでしょうか?

ゼロワンエブリシングの紹介:

単にデータ量を増やすだけでは、望ましい結果は得られません。

まずモデルのサイズをYi-6Bから9Bに増やし次に多段階のデータ増分トレーニングを実行します

まず、モデルのサイズを大きくするにはどうすればいいでしょうか?

1 つの前提は、チームが分析を通じて次のことを発見したことです。

Yi-6B は完全に訓練されており、トークンを追加しても訓練効果が向上しない可能性があるため、サイズを拡大することを検討しています。 (下の写真の単位はTBではなくBです)

増やす方法は?答えは、ディープ増幅です。

ゼロワンエブリシングの紹介:

元のモデルの幅を拡張すると、パフォーマンスの低下が大きくなります。適切なレイヤーを選択してモデルの深さを拡張した後、新しく追加されたレイヤーの入出力コサインが 1.0 に近づくほど、拡張モデルのパフォーマンスが向上し、元のモデルのパフォーマンスを維持でき、モデルのパフォーマンスの低下はわずかになります。

このアイデアに従い、ゼロワンエブリシングは、比較的後期の Yi-6B の 16 層(12 ~ 28 層)をコピーして、48 層の Yi-9B を形成することを選択しました。

実験では、この方法は Solar-10.7B モデルを使用して中間の 16 層(8 ~ 24 層)をコピーするよりもパフォーマンスが優れていることが示されています。

次に、多段階トレーニング法とは何でしょうか?

答えは、まずテキストやコードを含むデータを0.4T増やすことですが、データ比率はYi-6Bと同じです。

次に、テキストとコードも含めた 0.4T のデータを追加しますが、コードと数学データの割合を増やすことに重点を置きます。

(分かりました。これは、大きなモデルの質問で使用したトリックと同じです。「段階的に考える」)

これら 2 つのステップを完了した後、チームは 2 つの論文(「An Empirical Model of Large-Batch Training」と「Don't Decay the Learning Rate, Increase the Batch Size」) のアイデアを参考にして、パラメータ調整方法も最適化しました

つまり、固定の学習率から始めて、モデルの損失が減少しなくなったら、バッチ サイズを増やして、中断することなく損失が減少し続けるようにし、モデルがより完全に学習できるようにします。

最終的に、Yi-9B には合計 88 億個のパラメータが含まれており、4k のコンテキスト長が達成されます。

Yiシリーズは最も強力なコーディングと数学の能力を持っています

実際のテストでは、Zero One Everything は貪欲なデコード生成方法(つまり、毎回最大の確率値を持つ単語を選択する方法)を使用してテストを行います。

参加モデルは、DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B、Gemma-7B です。

(1)国内ディープラーニング企業のDeepSeek-Coderには、人間による評価でGPT-3.5-turboを上回る33B命令チューニング版と、CodeLlama-34Bの性能に達する7B版がある。

DeepSeek-Math は70 億のパラメータで GPT-4 を打ち負かし、オープンソース コミュニティ全体に衝撃を与えました。

(2) SOLAR-10.7Bは韓国のUpstage AI社製。2023年12月に打ち上げられ、その性能はMixtral-8x7B-Instructを上回る。

(3)ミストラル7Bは、ラマ270BやGPT3.5のレベルに達し、あるいはそれを上回る最初のオープンソースのMoE大型モデルである。

(4)GoogleのGemma-7B 、Zero One Everythingは次のように述べています。

その有効パラメータ量は、実際にはYi-9Bと同等レベルです。

(2 つの命名規則は異なります。前者は非埋め込みパラメータのみを使用し、後者はすべてのパラメータ量を使用して切り上げます。)

結果は以下の通りです。

まず、コーディングタスクでは、Yi-9B のパフォーマンスは DeepSeek-Coder-7B に次ぐもので、他の 4 つはすべて KO されています。

数学的能力の面では、Yi-9B のパフォーマンスは DeepSeek-Math-7B に次ぐもので、他の 4 つを上回っています。

全体的な能力も悪くありません。

そのパフォーマンスは、同様のサイズのオープンソース モデルの中で最高であり、他の 5 つの競合製品すべてを上回っています。

最後に、常識と推論能力もテストされました。

その結果、Yi-9B は Mistral-7B、SOLAR-10.7B、Gemma-7B と同等となりました。

語学力に関しては、英語だけでなく中国語も好評です。

最後に、これを読んだネットユーザーの中には、「試すのが待ちきれない」と言った人もいます。

DeepSeek について心配する人もいました。

急いで「ゲーム」をレベルアップしましょう。全体的な優位性は失われました。

ポータルはこちらです: https://huggingface.co/01-ai/Yi-9B

<<:  中国科学院による1万語の説明:最先端の画像拡散モデルのレビュー

>>:  マスクとイリヤのプライベートメールがクロードによって解読され、OpenAIの暗号化された情報が公開され、Googleが損害を被った

ブログ    

推薦する

2020年東京五輪の秘密兵器が暴露される:AIは計時を担当するだけでなく、審判員の職を失わせる

最近、2020年夏季オリンピックがついに2021年に開幕しました。 [[413267]]現在、我が国...

データ分析とAIのミスが原因の注目度の高い事件9件

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドローンの交通管制はますます標準化されつつあります。副作用を避けるためにこれらのことを行ってください

今日、都市化の加速と都市人口の増加により、都市ガバナンスはますます困難になっています。例えば、都市統...

...

エンタープライズITがAIを実際に適用できる場所

人工知能は、さまざまなエンタープライズ システム、特に分析や異常検出のユース ケースで実際に応用され...

フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

フォーブスによると、コーエン研究所の研究者らは最近、テスラのオートパイロットシステムへのハッキングに...

PyTorch を学ぶには?簡単すぎる

多くの友人から、PyTorch の学習方法を尋ねられました。長期間の練習を経て、初心者が知っておく必...

たった1ミリ低くなれば時間が遅くなります!科学者が初めてミリメートルスケールで一般相対性理論を検証

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

復旦大学データインテリジェンスおよびソーシャルコンピューティング研究所復旦大学のデータインテリジェン...

Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

[[271667]]この記事では、ブラウザ上で動作する顔認識フレームワーク、Face-api.js ...

新たな突破口!商用ドローン配送がさらに一歩前進

ドローンはすでに、医療製品の配送、インフラの検査、監視、メンテナンス、人間の労働力へのリスクの軽減、...

偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LLaMA-v2-Chat と Alpaca: 異なる AI モデルはいつ使用すべきですか?

翻訳者 |李睿レビュー | Chonglou今日、大規模言語モデル (LLM) は、言語生成から画像...