オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます! そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。 このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。 これは、 DeepSeekチームによる最新のオープンソース モデルである、160 億のパラメータを持つエキスパート モデル DeepSeek MoE です。 DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。 このパフォーマンス活性化パラメータ グラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。 リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。 JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。 同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。 では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか? 計算量を60%削減現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。 独自の 7B 高密度モデルと比較すると、19 のデータ セットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。 同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。 ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。 20 億のパラメータで実行されたパフォーマンス テストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。 さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。 さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。 予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。 研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。 これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。 自社開発の新MoEアーキテクチャまず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。 パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。 同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。 このセグメンテーション戦略により、アクティベーション エキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。 エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。 これらの共有エキスパートは、ルーティング モジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。 この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。 共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。 アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。 論文アドレス: https://arxiv.org/abs/2401.06066. 参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg. |
>>: IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している
この記事では、Xiaohongshu プッシュ検索シナリオの完全な GPU 構築プロセスにおけるモデ...
編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...
企業は現在、AIGC の可能性を活かすためにデータ、人材、プロセスを準備することが今後の課題であると...
敵対的機械学習とは、主に、攻撃者の能力と攻撃の結果の調査と理解に基づいて、セキュリティ上の課題 (攻...
「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...
[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...
顔をスキャンするだけで支払いができます。顔をスキャンするだけでさまざまなゲートに出入りできます。顔を...
科学技術の発展に伴い、人々は次第にプライバシーに気を配るようになり、「顔認識」という新興技術に対して...
将来、テーブルクロスがあなたの持ち物の所在を知らせたり、あなたの食事を追跡したりすることを想像してみ...