700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

国内の大型モデルに新たなプレーヤーが登場しました。

670億のパラメータを持つDeepSeek。

中国語と英語の公開評価リスト約20件で700億回の視聴回数を記録し、同レベルのLlama 2を直接上回りました。

特に優れているのは推論力、数学力、コーディング能力です。

写真

数学的能力に関しては、グロクが参加したばかりの今年のハンガリーの最新の高校数学テストで65点を獲得した。

写真

当時Grokが発表したスコア59点やGPT-4の68点と比較すると、抜群の性能です。

DeepSeek は、リリース時にオープンソースに重点を置いています。

70億と670億の2つのパラメータバージョンが含まれています。各バージョンには、基本モデルと命令微調整モデルが含まれています。申請なしで無料で商用利用可能です。

同時に、完全な内部テストもオープンしており、登録するだけでプレイ可能です。

写真

P.S. DeepSeek の中国語機能は GPT-3.5 よりも優れており、中国語でテストできます。

写真

Twitter では、DeepSeek は多くの技術者の注目を集めました。

初期にテストした人たちは何も問題はないと言っていました。

写真

他の人たちは、数学とコーディングにおけるオープンソースのLLMの欠点を補ったとしてDeepSeekを賞賛した。

写真

では、DeepSeek はどのようにトレーニングされるのでしょうか?

Llamaと同じアーキテクチャ

DeepSeek は、Llama と同じアーキテクチャ、つまり自己回帰 Transformer デコーダー アーキテクチャを使用します。

70 億パラメータ バージョンではマルチヘッド アテンションを使用し、670 億パラメータ バージョンではグループ クエリ アテンションを使用します。

事前トレーニングは、2兆個の中国語と英語のトークン(シーケンス長4096)とAdamWオプティマイザーを含むデータセットで実行されます。

70 億パラメータ バージョンのモデルのトレーニング バッチ サイズは 2304 で、学習率は 4.2e-4 です。670 億パラメータ バージョンのモデルのバッチ サイズは 4608 で、学習率は 3.2e-4 です。

DeepSeek のトレーニング プロセスでは、具体的には、複数ステップの学習率スケジュールを使用します。

最初は2,000の予測ステップから始まり、1.6兆トークンで徐々に最大値の31.6%に達し、1.8兆トークンで徐々に最大値の10%に達します。

それを見たネットユーザーの中には、こう言う人もいた。

1.6 兆トークンから始まるこの学習率冷却フェーズは、「Scaling Vision Transformers」論文の LR プランアブレーション操作に多少似ています。

これは、Llama のコサイン学習率減衰 (先のステップ数を指定する必要がある) とはまったく異なり、非常に興味深いものです。

写真

次の図は、著者が公開した DeepSeek トレーニング損失曲線といくつかのベンチマークの曲線です。

写真

優れた数学とコーディングスキル

DeepSeek が実施したテスト結果の次の 3 つのカテゴリに焦点を当てます。

1つは、今年5月に発表されたばかりの2023年ハンガリー高校数学テスト問題です。

DeepSeek は、GSM8k と MATH という 2 つの標準ベンチマークで良好な結果を達成しましたが、

写真

しかし、これらのデータセットを過剰適合するリスクがあるため、著者らは数学のサンプル外一般化機能を評価することにしました。

下の図に示すように、右上隅の 670 億パラメータの DeepSeek は、最終的にサンプル内数学能力 (縦軸 GSM8K) では Claude 2 と GPT-4 に次ぐ 3 位にランクされましたが、サンプル外数学能力 (横軸 Exam Score) では GPT-4 に次ぐ 2 位にランクされました。

写真

2 つ目は、DeepSeek のコマンド追従能力のテストです。

ここで著者は、11月15日にGoogleがリリースしたばかりの指示追従評価セットを使用して、モデルの「従順さ」を評価しました。

この結果は多くのオープンソース モデルを上回っていますが、スコア 59.1 は依然として GPT-4 より 20 ポイント低いです。

写真

最後にコーディング能力テストがあります。

同様に、著者はここでサンプル外の能力に焦点を当て、今年 7 月 2 日から 11 月 12 日までの LeetCode の最新の実際の質問をテスト用に選択しました。

この結果は、中国で一般的に使用されている大規模モデルよりもはるかに優れており、GPT 3.5 をはるかに上回っています。

写真

その背後にある会社は誰ですか?

検索してみると、DeepSeek の背後にある会社は DeepSeek という会社であることがわかりました。基地は北京にあり、今年5月に正式に設立されました。

目標は単なる大きなモデルではなく、AGI です。

同社は11月初旬に大規模コードモデル「DeepSeek Coder」をリリースした。

これまでの最高のオープンソース大規模モデル CodeLlama と比較すると、DeepSeek Coder はコード生成タスクでそれぞれ 9.3%、10.8%、5.9% リードしています (標準データセット HumanEval、MBPP、DS-1000 を使用して評価)。

写真

Deepin Quest は、実は有名なプライベートエクイティ大手 Huanfang からスピンオフした独立企業であることは特筆に値します。

Huanfangという会社はAIとは何の関係もないように思えますが、実は2019年に自社開発のディープラーニングトレーニングプラットフォーム「Firefly No.1」をリリースしました。

プロジェクトの総投資額は2億元近くで、合計1,100基のGPUが搭載されるとのこと。

その後、「Firefly 1」は「Firefly 2」へとバージョンアップし、搭載されるGPUの数も約1万個に達した。

参考リンク:
[1] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ [2] https://twitter.com/johannes_hage/status/1730075189428494842
[3] https://twitter.com/jeremyphoward/status/1730113946345205970
[4] https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

<<:  Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

>>:  大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者:上海交通大学卒業生:コストと時間を大幅に節約

ブログ    
ブログ    
ブログ    

推薦する

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラル ネットワークの作成とともに 1950 年代の初期の研究以...

...

AI開発者の皆さん、こちらをお読みください: 主流のモバイルディープラーニングフレームワークの包括的なレビュー

PCと比較すると、モバイルデバイスは携帯性に優れており、普及率も高くなっています。近年、モバイルデバ...

自動運転によって交通事故はどれくらい減らせるのでしょうか?

自動運転技術の発達により交通事故の発生率を減らすことができるのは確かです。しかし、交通事故を完全に避...

...

メタバースはヘリコプターの飛行に役立ちますか? ALIASシステムはブラックホークを30分間フル稼働させる

無人ヘリコプター自体は目新しいものではないが、現在市販されている無人ヘリコプターは、第一に誰かが遠隔...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...

人工知能は商業用不動産にどのような影響を与えるでしょうか?

AI は商業用不動産業界を変革し、あらゆるものをより効率的、アクセスしやすく、透明性の高いものにし...

本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか?

囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...

...

このアルゴリズムに関する優れた本を読めば、AIを本当に理解できる

[[240202]]新しい技術を学ぶとき、多くの人は公式ドキュメントを読み、ビデオチュートリアルやデ...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

より安全な街路のためのリアルタイムのインテリジェントビデオ分析

[[401969]]英国政府は最近、夜間経済が回復する中で安全が最優先事項であることを国民に再確認さ...

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

朗報です、朗報です、本物のソラの新しいビデオがあります!通りかかったらぜひお見逃しなく! (本物のS...

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう!

工業情報化部が突然、人工知能に関するもう一つの重要な文書を発行しました!文書では、2018年から2...