国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます!

そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。

このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。

これは、 DeepSeekチームによる最新のオープンソース モデルである、160 億のパラメータを持つエキスパート モデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。

このパフォーマンス活性化パラメータ グラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。

リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。

JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。

同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。

では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか?

計算量を60%削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。

独自の 7B 高密度モデルと比較すると、19 のデータ セットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。

同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。

ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。

20 億のパラメータで実行されたパフォーマンス テストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。

さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。

予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。

研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の新MoEアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。

パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。

同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーション エキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。

エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。

これらの共有エキスパートは、ルーティング モジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。

この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。

共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。

アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。

論文アドレス: https://arxiv.org/abs/2401.06066.

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

<<: 

>>:  IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

ブログ    

推薦する

ウルトラマンの新技に開発者激怒! ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。

ウルトラマンの新たな動きが多くの開発者を怒らせた。これらの開発者は、プラグインの開発許可を待つのでは...

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルゴリズムのインテリジェントなアップグレードにより、将来のデジタルライフはより明るくなります

[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...

人工知能に関するあまり知られていない3つの事実!古代中国にロボットは存在したのでしょうか?

時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...

2021 年にグラフ機械学習にはどのような新たなブレークスルーがあるでしょうか?マギル大学のポスドク研究員が分野の動向を整理

[[443041]]今年ももうすぐ終わり、あと3日で2021年も終わりです。さまざまなAI分野でも...

...

中国人はアルゴリズムと戦い始めている:ログインなし、いいねなし、フォローなし、コメントなし

[[402565]]インターネット業務に携わる陸鋒さんは、あるテクノロジー製品の機能やユーザーエクス...

...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176522]]ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピューティングと...

デイリーアルゴリズム: 有効な括弧

[[420388]] '('、')'、'{'、...

マイクロソフトはWindows 11の組み込みアプリにAI機能を導入すると報じられている。写真、スクリーンショット、描画などに新しい機能が追加される。

8月23日、マイクロソフトは過去1年間で人工知能の分野で大きな進歩を遂げており、同社の新製品のほぼ...

顔認証決済はまだ普及していないが、中央銀行はすでに新しい決済方法を発表しており、ジャック・マーは今回不意を突かれた

顔認識の隠れた危険性これらの便利な支払い方法が普及したのは、ジャック・マーのおかげです。アリペイの登...

AI、機械学習、ディープラーニングのつながりと違いを1つの記事で理解する

急速に変化する今日のテクノロジーの世界では、人工知能 (AI)、機械学習 (ML)、ディープラーニン...

組織内の AI スキルを向上させる 3 つのステップ

[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...

AI天気予報には依然として人間の介入が必要

業界では、デート、マーケティング、ソーシャルメディアから宇宙探査、医療の進歩に至るまで、人工知能とそ...