700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

国内の大型モデルに新たなプレーヤーが登場しました。

670億のパラメータを持つDeepSeek。

中国語と英語の公開評価リスト約20件で700億回の視聴回数を記録し、同レベルのLlama 2を直接上回りました。

特に優れているのは推論力、数学力、コーディング能力です。

写真

数学的能力に関しては、グロクが参加したばかりの今年のハンガリーの最新の高校数学テストで65点を獲得した。

写真

当時Grokが発表したスコア59点やGPT-4の68点と比較すると、抜群の性能です。

DeepSeek は、リリース時にオープンソースに重点を置いています。

70億と670億の2つのパラメータバージョンが含まれています。各バージョンには、基本モデルと命令微調整モデルが含まれています。申請なしで無料で商用利用可能です。

同時に、完全な内部テストもオープンしており、登録するだけでプレイ可能です。

写真

P.S. DeepSeek の中国語機能は GPT-3.5 よりも優れており、中国語でテストできます。

写真

Twitter では、DeepSeek は多くの技術者の注目を集めました。

初期にテストした人たちは何も問題はないと言っていました。

写真

他の人たちは、数学とコーディングにおけるオープンソースのLLMの欠点を補ったとしてDeepSeekを賞賛した。

写真

では、DeepSeek はどのようにトレーニングされるのでしょうか?

Llamaと同じアーキテクチャ

DeepSeek は、Llama と同じアーキテクチャ、つまり自己回帰 Transformer デコーダー アーキテクチャを使用します。

70 億パラメータ バージョンではマルチヘッド アテンションを使用し、670 億パラメータ バージョンではグループ クエリ アテンションを使用します。

事前トレーニングは、2兆個の中国語と英語のトークン(シーケンス長4096)とAdamWオプティマイザーを含むデータセットで実行されます。

70 億パラメータ バージョンのモデルのトレーニング バッチ サイズは 2304 で、学習率は 4.2e-4 です。670 億パラメータ バージョンのモデルのバッチ サイズは 4608 で、学習率は 3.2e-4 です。

DeepSeek のトレーニング プロセスでは、具体的には、複数ステップの学習率スケジュールを使用します。

最初は2,000の予測ステップから始まり、1.6兆トークンで徐々に最大値の31.6%に達し、1.8兆トークンで徐々に最大値の10%に達します。

それを見たネットユーザーの中には、こう言う人もいた。

1.6 兆トークンから始まるこの学習率冷却フェーズは、「Scaling Vision Transformers」論文の LR プランアブレーション操作に多少似ています。

これは、Llama のコサイン学習率減衰 (先のステップ数を指定する必要がある) とはまったく異なり、非常に興味深いものです。

写真

次の図は、著者が公開した DeepSeek トレーニング損失曲線といくつかのベンチマークの曲線です。

写真

優れた数学とコーディングスキル

DeepSeek が実施したテスト結果の次の 3 つのカテゴリに焦点を当てます。

1つは、今年5月に発表されたばかりの2023年ハンガリー高校数学テスト問題です。

DeepSeek は、GSM8k と MATH という 2 つの標準ベンチマークで良好な結果を達成しましたが、

写真

しかし、これらのデータセットを過剰適合するリスクがあるため、著者らは数学のサンプル外一般化機能を評価することにしました。

下の図に示すように、右上隅の 670 億パラメータの DeepSeek は、最終的にサンプル内数学能力 (縦軸 GSM8K) では Claude 2 と GPT-4 に次ぐ 3 位にランクされましたが、サンプル外数学能力 (横軸 Exam Score) では GPT-4 に次ぐ 2 位にランクされました。

写真

2 つ目は、DeepSeek のコマンド追従能力のテストです。

ここで著者は、11月15日にGoogleがリリースしたばかりの指示追従評価セットを使用して、モデルの「従順さ」を評価しました。

この結果は多くのオープンソース モデルを上回っていますが、スコア 59.1 は依然として GPT-4 より 20 ポイント低いです。

写真

最後にコーディング能力テストがあります。

同様に、著者はここでサンプル外の能力に焦点を当て、今年 7 月 2 日から 11 月 12 日までの LeetCode の最新の実際の質問をテスト用に選択しました。

この結果は、中国で一般的に使用されている大規模モデルよりもはるかに優れており、GPT 3.5 をはるかに上回っています。

写真

その背後にある会社は誰ですか?

検索してみると、DeepSeek の背後にある会社は DeepSeek という会社であることがわかりました。基地は北京にあり、今年5月に正式に設立されました。

目標は単なる大きなモデルではなく、AGI です。

同社は11月初旬に大規模コードモデル「DeepSeek Coder」をリリースした。

これまでの最高のオープンソース大規模モデル CodeLlama と比較すると、DeepSeek Coder はコード生成タスクでそれぞれ 9.3%、10.8%、5.9% リードしています (標準データセット HumanEval、MBPP、DS-1000 を使用して評価)。

写真

Deepin Quest は、実は有名なプライベートエクイティ大手 Huanfang からスピンオフした独立企業であることは特筆に値します。

Huanfangという会社はAIとは何の関係もないように思えますが、実は2019年に自社開発のディープラーニングトレーニングプラットフォーム「Firefly No.1」をリリースしました。

プロジェクトの総投資額は2億元近くで、合計1,100基のGPUが搭載されるとのこと。

その後、「Firefly 1」は「Firefly 2」へとバージョンアップし、搭載されるGPUの数も約1万個に達した。

参考リンク:
[1] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ [2] https://twitter.com/johannes_hage/status/1730075189428494842
[3] https://twitter.com/jeremyphoward/status/1730113946345205970
[4] https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

<<:  Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

>>:  大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者:上海交通大学卒業生:コストと時間を大幅に節約

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習のバックボーン: モデル構築のためのインフラストラクチャ ツールは何ですか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

電子商取引で人工知能を効果的に活用する10の方法

[[388530]] [51CTO.com クイック翻訳] 「人工知能」は今日では人気の用語となり、...

人工知能が普及したら、誰が職を失うのでしょうか?この3つのタイプの人々が最前線にいるかもしれない

科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...

クリアビューAI、民間企業への顔認識技術の販売を永久に禁止することに同意

顔認識監視会社Clearview AIは、裁判所との和解により、ほとんどの民間企業による同社のサービ...

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx...

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...

リカレントニューラルネットワークの父:未来のロボットはアリを見るように人間を見るだろう

4月19日、ガーディアン紙は、ロボットの将来について語ったインタビューで、再帰型ニューラルネットワー...

欧州が世界クラスの人工知能研究機関を建設へ

英国の「ガーディアン」ウェブサイトは、この新しい研究所を設立した理由は、欧州原子核研究機構を設立した...

AIがスタートアップの成功にどのように役立つか

人工知能は現在、あらゆる規模のビジネスの運営方法に大きな影響を与えています。スタートアップ企業も A...

Google、AIアシスタント「Gemini」の修正を加速、拒否率を半減

2月18日、Googleは人工知能プロジェクトを大幅にアップデートし、BardをGeminiに改名し...

PaddlePaddle ディープラーニング実践 - 英語-フランス語翻訳マシン

自然言語処理[1]は、コンピュータサイエンスと人工知能の分野におけるもう一つの重要な方向性です。重要...

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

急速に発展するデジタル時代において、ビジネスの成功にとって高品質で効率的なテスト サービスが重要であ...

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...

自動運転ブームがAIチップ戦争に火をつけ、爆発したのはテスラだけではない

以前から大きく騒がれ、メディアもその信憑性を証明する手がかりを繰り返し探していた「テスラの自社開発A...