磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

1 か月前、Mistral AI が突然マグネットリンクをリリースし、AI コミュニティ全体が騒然となったことを今でも覚えています。

その後すぐに、Mixtral 8x7B の技術的詳細が発表され、Llama 2 70B よりも優れた性能を発揮するだけでなく、推論速度が 6 倍も向上したことが示されました。

実際、ほとんどの標準ベンチマークでは GPT-3.5 と同等か、それよりわずかに優れています。

本日、フランスのスタートアップ企業は、Mixtral 8x7B Mixed Experts モデルに関する論文を正式に発表しました。

論文アドレス: https://arxiv.org/abs/2401.04088

ネットユーザーによると、最高のオープンソースモデル論文がついに発表されたとのこと。

具体的な技術的な詳細を見てみましょう。

建築

Mixtral は、エキスパートネットワークとデコーダーのみのモデルのスパース混合です。フィードフォワードブロックは、8 つの異なるパラメータグループのセットから選択します。

各レイヤーでは、各トークンに対して、ルーティングネットワークはトークンを処理する「エキスパート」のグループを 2 つ選択し、それらの出力を合計します。

この手法は、モデルのパラメータ数を増やすだけでなく、処理されるトークンごとにパラメータの一部のみを使用するため、コストとレイテンシも制御します。

具体的には、Mixtral は 32,000 トークンのコンテキスト情報を使用して事前トレーニングされています。複数のベンチマークでは、Llama 2 70B および GPT-3.5 のパフォーマンスと同等か、それを上回ります。

特に、Mixtral は数学、コード生成、多言語理解のタスクに優れており、これらの分野では Llama 2 70B を大幅に上回っています。

さらに、この研究では、Mixtral はシーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキストウィンドウから情報を正常に取得できることが示されています。

アーキテクチャの詳細

Mixtra は Transformer アーキテクチャ上に構築されており、「Mistral 7B」論文のいくつかのモデル変更方法を使用します。

しかし、明らかな違いは、Mixtral が 32k トークンの完全な密なコンテキスト長を完全にサポートし、フィードフォワードブロックが Mixture-of-Expert レイヤーに置き換えられていることです。まず、モデルアーキテクチャの特定のパラメータをまとめた以下の表 1 を見てみましょう。

スパース混合エキスパート

下の図に示すように、研究者は混合エキスパート層を具体的に導入しました。

これは入力データを処理する特別なレイヤーであり、各入力データポイントは 8 つの処理ユニット (「エキスパート」と呼ばれる) のうち 2 つに割り当てられます。

この割り当てプロセスはルーターによって実行されますが、ここでのルーターは、通常話題にするネットワークデバイスではなく、特定のデータポイントを処理する「エキスパート」を決定する役割を担うニューラルネットワークのコンポーネントです。

各「エキスパート」は、実際には割り当てられたデータを個別に処理して結果を出力する処理モジュールです。

最終的に、このレイヤーの出力は、選択された 2 人の「エキスパート」の出力に重み付けすることによって得られます。

Mixtral システムでは、各「エキスパート」は実際には標準のフィードフォワードネットワークモジュールであり、標準の Transformer モデルアーキテクチャと呼ばれるものでも使用されます。

専門家の混合層

MoE レイヤーは、高性能な専用コアを備えた単一の GPU 上で効率的に実行できます。

たとえば、Megablocks は、MoE レイヤーのフィードフォワードネットワーク (FFN) 操作を大規模なスパースマトリックス乗算に変換し、実行速度を大幅に向上させ、さまざまなエキスパートに可変数のトークンが割り当てられる状況を自然に処理します。

さらに、MoE レイヤーは、標準モデル並列処理技術と、Expert Parallelism (EP) と呼ばれる特別なパーティショニング戦略を介して複数の GPU に分散できます。

MoE レイヤーの実行中、特定のエキスパートによって処理されるはずだったトークンは、対応する GPU にルーティングされて処理され、エキスパートの出力は元のトークンの場所に戻されます。

結果

研究者らはMixtralとLlamaの比較研究を実施し、公平な比較を確実にするために、今回は社内で開発された評価プロセスを使用してすべてのベンチマークを再実行しました。

研究者たちは、さまざまなタスクのパフォーマンスを評価しました。これは、次のカテゴリに分類できます。

- 常識的推論（ゼロショット）： Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge、CommonsenseQA を含む

- 世界知識（少数のサンプル、5つのサンプル）： NaturalQuestionsとTriviaQAをカバー

- 読解力（ゼロショット）： BoolQとQuAC

- 数学: GSM8K (少数のサンプル、8 サンプル) では多数決 (maj@8) を使用し、MATH (少数のサンプル、4 サンプル) でも多数決 (maj@4) を使用します。

- プログラミングコード: Humaneval (ゼロサンプル) および MBPP (少数サンプル、3 サンプル)

- 総合テスト: MMLU (小規模サンプル、5 サンプル)、BBH (小規模サンプル、3 サンプル)、AGI Eval (小規模サンプル、3 ～ 5 サンプル、英語の複数選択問題のみ)

ご覧のとおり、すべてのベンチマークにおいて、Mixtral は Llama 2 70B よりも優れているか、少なくとも同等です。 Mixtral は、数学とコード生成の 2 つの領域で Llama 2 70B を大幅に上回っていることは特筆に値します。

一連のベンチマークにおける異なるパラメータを持つMixtralモデルとLlamaモデルのパフォーマンス比較

以下の表 2 は、Mixtral 8x7B、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B の詳細な結果を示しています。

モデルパラメータスケールと効率の比較

研究者らは、Mixtral モデルのパフォーマンスを Llama 2 シリーズと比較し、コストとパフォーマンス比の観点から Mixtral の効率を調査しました (図 3)。

専門家のスパース混合モデルである Mixtral では、各トークンを処理するために 130 億個のパラメータをアクティブ化するだけで済みます。アクティブパラメータが 5 倍少ないにもかかわらず、Mixtral はほとんどの領域で Llama 2 70B よりも優れたパフォーマンスを発揮します。

さらに、この分析は、推論フェーズの計算コストに直接関係するアクティブパラメーターの数に焦点を当てていますが、メモリコストやハードウェアの使用効率は考慮されていないことにも留意する必要があります。

Mixtral を実行するためのメモリコストは、そのスパースパラメータの合計数に関係しており、合計で 47B ですが、それでも Llama 2 の 70B パラメータよりも少ないです。

ハードウェアの使用に関しては、研究者らは、SMoEs レイヤーがエキスパートモデルのルーティングメカニズムにより追加の計算コストを導入することを指摘しました。

また、ハードウェアデバイスごとに複数のエキスパートモデルを実行すると、メモリ要件の増加によりコストも高くなります。このモデルは、高い計算密度を実現できるバッチ処理タスクに適しています。

Llama 2 70BとGPT-3.5とのパフォーマンス比較

表3では、研究者らはMixtral 8x7B、Llama 2 70B、GPT-3.5のパフォーマンス比較結果を示しています。

比較すると、研究者らは、Mixtral が多くの点で他の 2 つのモデルと同等かそれ以上の性能を発揮していることも発見しました。

マルチモーダル学習と理解 (MMLU) の評価では、Mixtral はモデルパラメータの数が少ないにもかかわらず (470 億トークン対 700 億トークン)、パフォーマンスが向上しました。

機械翻訳ベンチマーク（MTベンチ）に関しては、研究者らは現在最新のGPT-3.5-Turboモデル、すなわちgpt-3.5-turbo-1106バージョンのパフォーマンスデータを報告した。

ご覧のとおり、Mixtral は一般的にすべてのベンチマークで Llama 2 70B を上回っていますが、唯一の例外は読解ベンチマークで、アクティベーションパラメータの数が Llama 2 70B の 1/5 しかないことです。

特にコードと数学の分野では、Mixtral は Llama 2 70B を大幅に上回ります。

MMLU、常識的推論、世界知識、読解力、数学、コードにおけるMixtral（7B/8x7B）とLlama 2（7B/13B/70B）の比較結果

多言語ベンチマーク

研究者らは、Mistral 7Bと比較して、モデルの事前トレーニング段階で多言語データの割合を大幅に増加させました。

このモデルパラメータの増加により、Mixtral は英語での精度を損なうことなく、多言語パフォーマンス評価で優れたパフォーマンスを発揮できるようになります。

特に注目すべきは、Mixtral がフランス語、ドイツ語、スペイン語、イタリア語のタスクの処理において Llama 2 70B を大幅に上回っていることです。具体的な結果は表 4 に示されています。

長距離パフォーマンス

幅広い情報に関わる状況での Mixtral のパフォーマンスをテストするために、研究者らはパスキー取得と呼ばれるタスクも提案しました。

このタスクは、ランダムに挿入されたパスキーを含む長いプロンプトに直面したときに、モデルがパスキーを回復する能力を評価するために特別に設計されています。

図 4 (左) の結果は、コンテキストの長さやパスキーがテキストシーケンスのどこに表示されるかに関係なく、Mixtral が 100% の回復精度を維持していることを示しています。

図 4 (右) は、プルーフパイルデータセットのサブセットにおける Mixtral のパープレキシティを示しています。コンテキストの量が増えるにつれて、そのパープレキシティは単調に減少する傾向を示します。

指示の微調整

さらに、研究者らは、まず指導データセットに対して教師あり微調整 (SFT) を実行し、次にペアフィードバックデータセットに対して直接選好最適化 (DPO) を適用することで、Mixtral-Instruct モデルを開発しました。

MT-Bench評価では、Mixtral-Instructは8.30（表2）という高いスコアを達成し、2023年12月時点で最高のパフォーマンスを発揮するオープンソースの重みモデルとなりました。

LMSys が実施した手動評価の結果を図 6 に示します。この図から、Mixtral–Instruct が GPT-3.5-Turbo、Gemini Pro、Claude-2.1、および Llama 2 70B チャットモデルよりも優れていることがわかります。

ルート分析

最後に、研究者らはルーターが「専門家」を選択する方法を簡単に分析しました。特に、研修中に、特定の分野（数学、生物学、哲学など）に特化することを選択する「専門家」が存在するでしょうか。

これを調査するために、研究者は The Pile 検証データセットのさまざまなサブセットにおける「専門家」の選択の分布を測定しました。その結果を図 7 に示します。このモデルには、レイヤー 0、15、および 31 (最後のレイヤー) が含まれます。

驚いたことに、トピックに基づいて「専門家」を割り当てる明確なパターンはここでは見つかりませんでした。

たとえば、「専門家」の分布は、arXiv 論文 (LaTeX で記述)、生物学 (PubMed 抄録)、哲学 (PhilPapers) など、すべての層で非常に似ています。

数学（DM 数学）の分野のみ、「専門家」の分布がわずかに異なります。

研究者たちは、この違いはデータセット自体が合成されたものであり、特にモデルの最初と最後の層で隠れ状態がそれぞれ入力と出力の埋め込みと高度に相関しているため、自然言語のカバレッジが限られているためである可能性があると考えています。

これは、ルーターが何らかの構造化された構文動作を示すことも示しています。

図 8 は、さまざまなドメイン (Python コード、数学、英語) のテキストの例を示しています。これらの中で、各トークンは異なる背景色でマークされており、それに割り当てられている対応する「エキスパート」を簡単に確認することができます。

Python の「self」や英語の「Question」などの単語は、複数のトークンを含んでいるにもかかわらず、同じ「エキスパート」に割り当てられることが多いことがわかります。同様に、隣接するトークンは同じ「エキスパート」に割り当てられます。

コードでは、インデントされたトークンも常に同じ「エキスパート」に割り当てられます。これは、モデルの最初のレイヤーと最後のレイヤーで特に顕著です。これは、これらのレイヤーの非表示状態がモデルの入力と出力に密接に関連しているためです。

さらに、The Pileデータセットに基づいて、研究者らはいくつかの位置の局所性も発見しました。

表5は、異なる分野とネットワーク層で同じ「専門家」によって選択された連続トークンの割合を示しています。

ネットワークの上位層では、この連続的な繰り返し分布はランダム分布の確率よりもはるかに高くなります。この現象は、モデルの最適化、つまりトレーニングと推論のプロセスの加速に重要な意味を持ちます。

たとえば、エキスパート並列処理では、位置の近接性が高い状況では、特定の「エキスパート」が過剰に使用される可能性が高くなります。ただし、この近接性はキャッシュ技術にも使用できます。

図 10 は、すべてのネットワーク層とさまざまなデータセットを網羅し、これらの「エキスパート」が選択される頻度をより包括的に示しています。

結論は

この論文では、研究者らが、SOTA パフォーマンスを実現する最初のオープンソースの専門家混合ネットワークである Mixtral 8x7B を紹介します。

人間による評価ベンチマークでは、Mixtral 8x7B Instruct は Claude-2.1、Gemini Pro、GPT-3.5-Turbo よりも優れたパフォーマンスを発揮します。

Mixtral の主な特徴は、各トークンを処理するときに 13B のパラメータのみをアクティブにして使用することです。これは、Llama 2 70B で使用される 70B のパラメータよりもはるかに低いものです。

現在、研究者らは、訓練され微調整されたモデルを Apache 2.0 オープンソースライセンスの下で公開し、コミュニティのメンバーが自由に使用できるようにしています。

<<: A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

>>: 世界初のグラフェン半導体がネイチャー誌に掲載され、中国チームがムーアの法則の寿命を10年延長しました！

ブログ

ブログ

最先端のディープラーニングデバイスのベンチマーク：Nvidia Jetson Nanoが勝利

磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

建築

結果

多言語ベンチマーク

長距離パフォーマンス

指示の微調整

ルート分析

結論は

2019年の中国人工知能産業の競争環境の分析

5Gベースバンドに機械学習ユニットを追加：クアルコムには多くのAI脳の穴がある

人工知能の便利な日常的な活用例8つ

最先端のディープラーニングデバイスのベンチマーク：Nvidia Jetson Nanoが勝利

機械学習専用サーバーの重要性の高まり

AI技術の自立を実現するために、国内のディープラーニングフレームワークは3つの大きな課題に直面している

10人が2か月かけて大型模型を製作しました！ 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない

推薦する

JavaScript による機械学習の例 10 選

第2回世界情報会議の3つのハイライトを一足先にご紹介

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

指紋と顔の認識が手のひらスキャンにアップグレードされ、大ヒット映画でしか見られない新技術がシティエキスポでデビュー

テクノロジー大手は疑似環境の仮面を脱ぎ捨て、AIの積極的な開発によりエネルギー消費が増加している

技術的負債の高利クレジットカード: 最もよく知られているエンドツーエンドの機械学習プラットフォームを詳しく調べる

人工知能がメモリ相互接続の進化を推進

すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

人工知能は第4世代に入り、人工直感が開発の次のステップとなる

Jupyter Notebookの3つの大きな欠点は、この新しいツールによってすべて補われています。

マイクロマシンラーニングは、マイクロプロセッサにディープラーニングを組み込むことを約束する

AIが初めて量子レベルで物質を記述！自然：化学分野で最も価値のある技術の一つ