国産初のオープンソースMoE大型モデルが登場！パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます！

そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。

このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。

これは、 DeepSeekチームによる最新のオープンソースモデルである、160 億のパラメータを持つエキスパートモデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。

このパフォーマンス活性化パラメータグラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。

リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。

JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。

同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。

では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか?

計算量を60%削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。

独自の 7B 高密度モデルと比較すると、19 のデータセットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。

同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。

ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。

20 億のパラメータで実行されたパフォーマンステストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。

さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。

予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。

研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の新MoEアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。

パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。

同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーションエキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。

エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。

これらの共有エキスパートは、ルーティングモジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。

この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。

共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。

アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。

論文アドレス: https://arxiv.org/abs/2401.06066.

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

<<:

>>: IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

国産初のオープンソースMoE大型モデルが登場！パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

計算量を60%削減

自社開発の新MoEアーキテクチャ

自動化と人工知能の違いをご存知ですか?

Alipay のディープラーニングエンジン xNN を公開

2020年の世界産業用ロボット業界の現在の市場状況と競争環境の分析

初心者向けガイド: 自然言語処理のためのニューラルネットワーク

ChatGPTをよりスムーズに使用するためのツール「Pandora」

90年代以降の博士号取得者がアルゴリズムを使って生物の脳を置き換え、生きたマイクロロボットを作成し、サイエンス誌に発表した。

今後5年間の人工知能における5つのブレークスルー

アルゴリズム: 2つの順序付きリンクリストをマージする

推薦する

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

なぜ人工知能は高度な数学を解くことができるのでしょうか?

プログラマーが知っておくべき 10 個の基本的な実用的なアルゴリズムとその説明_IT テクノロジーウィークリー 402 号_51CTO.com

OpenAIの内部抗争による被害はまだまだ終わっていない

人工知能技術は、ビルインターホン業界の発展における主流技術の一つとなっている。

百度の女性デーのポスターはスマートライフの姿を描いている：人工知能は女性をより自由にする

機械学習を簡単にする 5 つのオープンソース Python ライブラリ

AIアプリケーションはコストを2倍以上にする

AIの世界はデータから知識へと移行しており、独自のデータセットは組織間で共有されるデータへと移行している。

8つのソートアルゴリズムのPython実装

AIと機械学習、5G、IoTは2021年に重要な技術となる