700億Llama2が即完売！申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

国内の大型モデルに新たなプレーヤーが登場しました。

670億のパラメータを持つDeepSeek。

中国語と英語の公開評価リスト約20件で700億回の視聴回数を記録し、同レベルのLlama 2を直接上回りました。

特に優れているのは推論力、数学力、コーディング能力です。

写真

数学的能力に関しては、グロクが参加したばかりの今年のハンガリーの最新の高校数学テストで65点を獲得した。

写真

当時Grokが発表したスコア59点やGPT-4の68点と比較すると、抜群の性能です。

DeepSeek は、リリース時にオープンソースに重点を置いています。

70億と670億の2つのパラメータバージョンが含まれています。各バージョンには、基本モデルと命令微調整モデルが含まれています。申請なしで無料で商用利用可能です。

同時に、完全な内部テストもオープンしており、登録するだけでプレイ可能です。

写真

P.S. DeepSeek の中国語機能は GPT-3.5 よりも優れており、中国語でテストできます。

写真

Twitter では、DeepSeek は多くの技術者の注目を集めました。

初期にテストした人たちは何も問題はないと言っていました。

写真

他の人たちは、数学とコーディングにおけるオープンソースのLLMの欠点を補ったとしてDeepSeekを賞賛した。

写真

では、DeepSeek はどのようにトレーニングされるのでしょうか?

Llamaと同じアーキテクチャ

DeepSeek は、Llama と同じアーキテクチャ、つまり自己回帰 Transformer デコーダーアーキテクチャを使用します。

70 億パラメータバージョンではマルチヘッドアテンションを使用し、670 億パラメータバージョンではグループクエリアテンションを使用します。

事前トレーニングは、2兆個の中国語と英語のトークン（シーケンス長4096）とAdamWオプティマイザーを含むデータセットで実行されます。

70 億パラメータバージョンのモデルのトレーニングバッチサイズは 2304 で、学習率は 4.2e-4 です。670 億パラメータバージョンのモデルのバッチサイズは 4608 で、学習率は 3.2e-4 です。

DeepSeek のトレーニングプロセスでは、具体的には、複数ステップの学習率スケジュールを使用します。

最初は2,000の予測ステップから始まり、1.6兆トークンで徐々に最大値の31.6％に達し、1.8兆トークンで徐々に最大値の10％に達します。

それを見たネットユーザーの中には、こう言う人もいた。

1.6 兆トークンから始まるこの学習率冷却フェーズは、「Scaling Vision Transformers」論文の LR プランアブレーション操作に多少似ています。

これは、Llama のコサイン学習率減衰 (先のステップ数を指定する必要がある) とはまったく異なり、非常に興味深いものです。

写真

次の図は、著者が公開した DeepSeek トレーニング損失曲線といくつかのベンチマークの曲線です。

写真

優れた数学とコーディングスキル

DeepSeek が実施したテスト結果の次の 3 つのカテゴリに焦点を当てます。

1つは、今年5月に発表されたばかりの2023年ハンガリー高校数学テスト問題です。

DeepSeek は、GSM8k と MATH という 2 つの標準ベンチマークで良好な結果を達成しましたが、

写真

しかし、これらのデータセットを過剰適合するリスクがあるため、著者らは数学のサンプル外一般化機能を評価することにしました。

下の図に示すように、右上隅の 670 億パラメータの DeepSeek は、最終的にサンプル内数学能力 (縦軸 GSM8K) では Claude 2 と GPT-4 に次ぐ 3 位にランクされましたが、サンプル外数学能力 (横軸 Exam Score) では GPT-4 に次ぐ 2 位にランクされました。

写真

2 つ目は、DeepSeek のコマンド追従能力のテストです。

ここで著者は、11月15日にGoogleがリリースしたばかりの指示追従評価セットを使用して、モデルの「従順さ」を評価しました。

この結果は多くのオープンソースモデルを上回っていますが、スコア 59.1 は依然として GPT-4 より 20 ポイント低いです。

写真

最後にコーディング能力テストがあります。

同様に、著者はここでサンプル外の能力に焦点を当て、今年 7 月 2 日から 11 月 12 日までの LeetCode の最新の実際の質問をテスト用に選択しました。

この結果は、中国で一般的に使用されている大規模モデルよりもはるかに優れており、GPT 3.5 をはるかに上回っています。

写真

その背後にある会社は誰ですか?

検索してみると、DeepSeek の背後にある会社は DeepSeek という会社であることがわかりました。基地は北京にあり、今年5月に正式に設立されました。

目標は単なる大きなモデルではなく、AGI です。

同社は11月初旬に大規模コードモデル「DeepSeek Coder」をリリースした。

これまでの最高のオープンソース大規模モデル CodeLlama と比較すると、DeepSeek Coder はコード生成タスクでそれぞれ 9.3%、10.8%、5.9% リードしています (標準データセット HumanEval、MBPP、DS-1000 を使用して評価)。

写真

Deepin Quest は、実は有名なプライベートエクイティ大手 Huanfang からスピンオフした独立企業であることは特筆に値します。

Huanfangという会社はAIとは何の関係もないように思えますが、実は2019年に自社開発のディープラーニングトレーニングプラットフォーム「Firefly No.1」をリリースしました。

プロジェクトの総投資額は2億元近くで、合計1,100基のGPUが搭載されるとのこと。

その後、「Firefly 1」は「Firefly 2」へとバージョンアップし、搭載されるGPUの数も約1万個に達した。

参考リンク:
[1] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ [2] https://twitter.com/johannes_hage/status/1730075189428494842
[3] https://twitter.com/jeremyphoward/status/1730113946345205970
[4] https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

<<: Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

>>: 大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者：上海交通大学卒業生：コストと時間を大幅に節約