70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。

その性能はオープンソースモデルの限界を突破しており、アリババ・トンイの研究者でさえスケーリング則が無効になったと嘆いている。

外部ツールを使わずに、競技レベルの MATH データセットで 51.7% の精度を達成できます。

オープンソースモデルの中で、このデータセットで半分の精度を達成した最初のモデルであり、GPT-4 の以前のバージョンや API バージョンを上回っています。

このパフォーマンスはオープンソースコミュニティ全体に衝撃を与えました。Stability AI の創設者である Emad Mostaque 氏も、R&D チームは本当に素晴らしいもので、その潜在能力は過小評価されていたと述べています。

これは、 DeepSeekチームによる最新のオープンソース 7B 数学モデル DeepSeekMath です。

7Bモデルは他を圧倒する

DeepSeekMath の数学的機能を評価するため、研究チームは中国語(MGSM-zh、CMATH)と英語(GSM8K、MATH)のバイリンガルデータセットをテストに使用しました。

補助ツールを使用せず、Chain of Thought (CoT)プロンプトのみに頼ることで、DeepSeekMath は 70B の大規模数学モデル MetaMATH を含む他のオープンソースモデルよりも優れたパフォーマンスを発揮しました。

自社の67B汎用大型モデルと比較すると、DeepSeekMathのパフォーマンスも大幅に向上しました。

クローズドソースモデルを考慮すると、DeepSeekMath はいくつかのデータセットで Gemini Pro や GPT-3.5 を上回り、Chinese CMATH では GPT-4 を上回り、MATH でのパフォーマンスもそれに近いものとなっています。

しかし、漏洩した仕様によれば、GPT-4 は数千億のパラメータを持つ巨大なものであるのに対し、DeepSeekMath には 70 億のパラメータしかないことに注意する必要があります。

ツール(Python)の支援が許されれば、DeepSeekMath は競争難易度(MATH)データセットでパフォーマンスをさらに 7 パーセントポイント向上させることができます。

では、DeepSeekMath の優れたパフォーマンスの背後にはどのようなテクノロジーが使われているのでしょうか?

コードモデルに基づいて構築

一般的なモデルから得られるよりも優れた数学的機能を得るために、研究チームはコードモデル DeepSeek-Coder-v1.5 を使用して初期化しました。

チームは、2 段階のトレーニングでも 1 段階のトレーニングでも、一般的なデータトレーニングと比較して、コードトレーニングによってモデルの数学的能力を向上できることを発見したためです。

研究チームは Coder をベースに 5,000 億トークンのトレーニングを継続し、データの分布は次のようになりました。

トレーニングデータに関しては、DeepSeekMath は Common Crawl から抽出した 120B の高品質な数学 Web ページデータを使用して DeepSeekMath Corpus を取得します。総データ量は、オープンソースデータセット OpenWebMath の 9 倍です。

データ収集プロセスは反復的に実行されました。4 回の反復を経て、研究チームは 3,500 万以上の数学 Web ページを収集し、トークンの数は 1,200 億に達しました。

トレーニングデータにテストセットの内容が含まれないようにするため（GSM8KとMATHの内容はインターネット上に大量に存在するため）、研究チームは特別なフィルタリングも実行しました。

DeepSeekMath Corpus のデータ品質を検証するために、研究チームは MathPile などの複数のデータセットを使用して 1500 億のトークンをトレーニングしました。その結果、Corpus は複数の数学ベンチマークで大幅に優れたパフォーマンスを発揮することが示されました。

アライメント段階では、研究チームはまず、CoT、PoT、ツール統合推論の 3 つの形式を含む、776,000 サンプルの中国語 - 英語数学ガイド付き教師あり微調整(SFT)データセットを構築しました。

強化学習（RL）段階では、研究チームはグループ相対ポリシー最適化（GRPO）と呼ばれる効率的なアルゴリズムを使用しました。

GRPO は、従来の価値関数をグループベースの相対報酬推定に置き換えた近似ポリシー最適化(PPO)の変形であり、トレーニング中の計算とメモリの要件を削減できます。

同時に、GRPO は反復的なプロセスを通じてトレーニングされ、報酬モデルはポリシーモデルの出力に応じて継続的に更新され、戦略の継続的な改善が保証されます。

国内初のオープンソースMoEモデルを発表

DeepSeekMath を立ち上げた DeepSeek チームは、中国におけるオープンソースモデルの分野におけるリーダー的存在です。

以前、チームは国内初のオープンソース MoE モデル DeepSeek MoE をリリースしました。その 7B バージョンは、同じサイズの高密度モデル Llama 2 を 40% の計算労力で上回りました。

一般的なモデルとして、DeepSeek MoE はコードと数学のタスクで非常に優れたパフォーマンスを発揮し、リソースの消費量も非常に少なくなります。

コード面では、チームが立ち上げた DeepSeek-Coder のプログラミング機能は、コード生成、ファイル間コード補完、数学問題のプログラム解決など、複数のタスクにおいて、同規模のオープンソースベンチマーク CodeLllama の機能を上回っています。

同時に、GPT-3.5-Turbo も上回り、GPT-4-Turbo に最も近いオープンソースコードモデルとなりました。

先ほども述べたように、今回発売されたDeepSeekMathもCoderをベースに構築されています。

X では、すでに Coder と Math の MoE バージョンを楽しみにしている人もいます。

論文アドレス: https://arxiv.org/abs/2402.03300

<<: Google が TensorFlow-GNN 1.0 のリリースを正式に発表しました。大規模なグラフニューラルネットワークを構築するための動的かつインタラクティブなサンプリング

>>: Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。

Google版AIペイント検索ボックスで直接プレイ！ Imagen 上に構築されたネットユーザー: DALL-E の代替品がここにあります

ブログ

70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

7Bモデルは他を圧倒する

コードモデルに基づいて構築

国内初のオープンソースMoEモデルを発表

Google版AIペイント検索ボックスで直接プレイ！ Imagen 上に構築されたネットユーザー: DALL-E の代替品がここにあります

ガートナーのJi Xinsu氏：AI大手モデルメーカーは今後集中化され、企業が独自に構築するのは経済的ではない

人工知能の7つの応用シナリオ

毎日のアルゴリズム: バランスのとれた二分木

LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

人工知能の時代において、ロボットを超える子どもたちが身につけるべき能力とは何でしょうか？

情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

推薦する

人工知能の70年間で、研究者が最も直面したくない痛い教訓は...

運試しに自撮りしてみませんか？これはすべて顔認識技術のおかげです

ウナギの下半身は切り落とされた後もまだ動きます。ロボット: 受け取ってください。

人気は高まり続け、医療AIは業界の爆発的な成長の重要なポイントに達している

あなた自身のarXivを作成しましょう！ドイツの大学のトップビジュアルチームが「カスタマイズされた論文」推奨システムを立ち上げました。これは無料で一般に公開されています。

デジタルツインブレイン：生物と人工知能の架け橋

トランスフォーマーに挑むマンバの起源とは？著者の博士論文はSSMの進化の道筋を明らかにしている

スタンフォード大学がトランスフォーマー代替モデルを訓練：1億7000万のパラメータ、バイアスを除去可能、制御可能、解釈可能

AIは期待に応えられていない？これらの人為的ミスが発生した可能性がある

P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議（WRC）に輝かしい登場を果たしました。

倉庫の自動化は人気が高い。ソフトバンクは28億ドルを投じてオートストアの40％を買収した。

IBMの人工知能システム「プロジェクト・ディベーター」が両討論会で勝利

PS効果よりも優れています！このような写真編集ツールを使ったことがありますか?