1 か月前、Mistral AI が突然マグネット リンクをリリースし、AI コミュニティ全体が騒然となったことを今でも覚えています。 その後すぐに、Mixtral 8x7B の技術的詳細が発表され、Llama 2 70B よりも優れた性能を発揮するだけでなく、推論速度が 6 倍も向上したことが示されました。 実際、ほとんどの標準ベンチマークでは GPT-3.5 と同等か、それよりわずかに優れています。 本日、フランスのスタートアップ企業は、Mixtral 8x7B Mixed Experts モデルに関する論文を正式に発表しました。 論文アドレス: https://arxiv.org/abs/2401.04088 ネットユーザーによると、最高のオープンソースモデル論文がついに発表されたとのこと。 具体的な技術的な詳細を見てみましょう。 建築Mixtral は、エキスパート ネットワークとデコーダーのみのモデルのスパース混合です。フィードフォワード ブロックは、8 つの異なるパラメータ グループのセットから選択します。 各レイヤーでは、各トークンに対して、ルーティング ネットワークはトークンを処理する「エキスパート」のグループを 2 つ選択し、それらの出力を合計します。 この手法は、モデルのパラメータ数を増やすだけでなく、処理されるトークンごとにパラメータの一部のみを使用するため、コストとレイテンシも制御します。 具体的には、Mixtral は 32,000 トークンのコンテキスト情報を使用して事前トレーニングされています。複数のベンチマークでは、Llama 2 70B および GPT-3.5 のパフォーマンスと同等か、それを上回ります。 特に、Mixtral は数学、コード生成、多言語理解のタスクに優れており、これらの分野では Llama 2 70B を大幅に上回っています。 さらに、この研究では、Mixtral はシーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキスト ウィンドウから情報を正常に取得できることが示されています。 アーキテクチャの詳細 Mixtra は Transformer アーキテクチャ上に構築されており、「Mistral 7B」論文のいくつかのモデル変更方法を使用します。 しかし、明らかな違いは、Mixtral が 32k トークンの完全な密なコンテキスト長を完全にサポートし、フィードフォワード ブロックが Mixture-of-Expert レイヤーに置き換えられていることです。まず、モデル アーキテクチャの特定のパラメータをまとめた以下の表 1 を見てみましょう。 スパース混合エキスパート 下の図に示すように、研究者は混合エキスパート層を具体的に導入しました。 これは入力データを処理する特別なレイヤーであり、各入力データ ポイントは 8 つの処理ユニット (「エキスパート」と呼ばれる) のうち 2 つに割り当てられます。 この割り当てプロセスはルーターによって実行されますが、ここでのルーターは、通常話題にするネットワーク デバイスではなく、特定のデータ ポイントを処理する「エキスパート」を決定する役割を担うニューラル ネットワークのコンポーネントです。 各「エキスパート」は、実際には割り当てられたデータを個別に処理して結果を出力する処理モジュールです。 最終的に、このレイヤーの出力は、選択された 2 人の「エキスパート」の出力に重み付けすることによって得られます。 Mixtral システムでは、各「エキスパート」は実際には標準のフィードフォワード ネットワーク モジュールであり、標準の Transformer モデル アーキテクチャと呼ばれるものでも使用されます。 専門家の混合層 MoE レイヤーは、高性能な専用コアを備えた単一の GPU 上で効率的に実行できます。 たとえば、Megablocks は、MoE レイヤーのフィードフォワード ネットワーク (FFN) 操作を大規模なスパース マトリックス乗算に変換し、実行速度を大幅に向上させ、さまざまなエキスパートに可変数のトークンが割り当てられる状況を自然に処理します。 さらに、MoE レイヤーは、標準モデル並列処理技術と、Expert Parallelism (EP) と呼ばれる特別なパーティショニング戦略を介して複数の GPU に分散できます。 MoE レイヤーの実行中、特定のエキスパートによって処理されるはずだったトークンは、対応する GPU にルーティングされて処理され、エキスパートの出力は元のトークンの場所に戻されます。 結果研究者らはMixtralとLlamaの比較研究を実施し、公平な比較を確実にするために、今回は社内で開発された評価プロセスを使用してすべてのベンチマークを再実行しました。 研究者たちは、さまざまなタスクのパフォーマンスを評価しました。これは、次のカテゴリに分類できます。 - 常識的推論(ゼロショット): Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge、CommonsenseQA を含む - 世界知識(少数のサンプル、5つのサンプル): NaturalQuestionsとTriviaQAをカバー - 読解力(ゼロショット): BoolQとQuAC - 数学: GSM8K (少数のサンプル、8 サンプル) では多数決 (maj@8) を使用し、MATH (少数のサンプル、4 サンプル) でも多数決 (maj@4) を使用します。 - プログラミング コード: Humaneval (ゼロ サンプル) および MBPP (少数サンプル、3 サンプル) - 総合テスト: MMLU (小規模サンプル、5 サンプル)、BBH (小規模サンプル、3 サンプル)、AGI Eval (小規模サンプル、3 ~ 5 サンプル、英語の複数選択問題のみ) ご覧のとおり、すべてのベンチマークにおいて、Mixtral は Llama 2 70B よりも優れているか、少なくとも同等です。 Mixtral は、数学とコード生成の 2 つの領域で Llama 2 70B を大幅に上回っていることは特筆に値します。 一連のベンチマークにおける異なるパラメータを持つMixtralモデルとLlamaモデルのパフォーマンス比較 以下の表 2 は、Mixtral 8x7B、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B の詳細な結果を示しています。 モデルパラメータスケールと効率の比較 研究者らは、Mixtral モデルのパフォーマンスを Llama 2 シリーズと比較し、コストとパフォーマンス比の観点から Mixtral の効率を調査しました (図 3)。 専門家のスパース混合モデルである Mixtral では、各トークンを処理するために 130 億個のパラメータをアクティブ化するだけで済みます。アクティブパラメータが 5 倍少ないにもかかわらず、Mixtral はほとんどの領域で Llama 2 70B よりも優れたパフォーマンスを発揮します。 さらに、この分析は、推論フェーズの計算コストに直接関係するアクティブ パラメーターの数に焦点を当てていますが、メモリ コストやハードウェアの使用効率は考慮されていないことにも留意する必要があります。 Mixtral を実行するためのメモリ コストは、そのスパース パラメータの合計数に関係しており、合計で 47B ですが、それでも Llama 2 の 70B パラメータよりも少ないです。 ハードウェアの使用に関しては、研究者らは、SMoEs レイヤーがエキスパート モデルのルーティング メカニズムにより追加の計算コストを導入することを指摘しました。 また、ハードウェア デバイスごとに複数のエキスパート モデルを実行すると、メモリ要件の増加によりコストも高くなります。このモデルは、高い計算密度を実現できるバッチ処理タスクに適しています。 Llama 2 70BとGPT-3.5とのパフォーマンス比較 表3では、研究者らはMixtral 8x7B、Llama 2 70B、GPT-3.5のパフォーマンス比較結果を示しています。 比較すると、研究者らは、Mixtral が多くの点で他の 2 つのモデルと同等かそれ以上の性能を発揮していることも発見しました。 マルチモーダル学習と理解 (MMLU) の評価では、Mixtral はモデル パラメータの数が少ないにもかかわらず (470 億トークン対 700 億トークン)、パフォーマンスが向上しました。 機械翻訳ベンチマーク(MTベンチ)に関しては、研究者らは現在最新のGPT-3.5-Turboモデル、すなわちgpt-3.5-turbo-1106バージョンのパフォーマンスデータを報告した。 ご覧のとおり、Mixtral は一般的にすべてのベンチマークで Llama 2 70B を上回っていますが、唯一の例外は読解ベンチマークで、アクティベーション パラメータの数が Llama 2 70B の 1/5 しかないことです。 特にコードと数学の分野では、Mixtral は Llama 2 70B を大幅に上回ります。 MMLU、常識的推論、世界知識、読解力、数学、コードにおけるMixtral(7B/8x7B)とLlama 2(7B/13B/70B)の比較結果 多言語ベンチマーク研究者らは、Mistral 7Bと比較して、モデルの事前トレーニング段階で多言語データの割合を大幅に増加させました。 このモデルパラメータの増加により、Mixtral は英語での精度を損なうことなく、多言語パフォーマンス評価で優れたパフォーマンスを発揮できるようになります。 特に注目すべきは、Mixtral がフランス語、ドイツ語、スペイン語、イタリア語のタスクの処理において Llama 2 70B を大幅に上回っていることです。具体的な結果は表 4 に示されています。 長距離パフォーマンス幅広い情報に関わる状況での Mixtral のパフォーマンスをテストするために、研究者らはパスキー取得と呼ばれるタスクも提案しました。 このタスクは、ランダムに挿入されたパスキーを含む長いプロンプトに直面したときに、モデルがパスキーを回復する能力を評価するために特別に設計されています。 図 4 (左) の結果は、コンテキストの長さやパスキーがテキスト シーケンスのどこに表示されるかに関係なく、Mixtral が 100% の回復精度を維持していることを示しています。 図 4 (右) は、プルーフパイル データセットのサブセットにおける Mixtral のパープレキシティを示しています。コンテキストの量が増えるにつれて、そのパープレキシティは単調に減少する傾向を示します。 指示の微調整さらに、研究者らは、まず指導データセットに対して教師あり微調整 (SFT) を実行し、次にペアフィードバックデータセットに対して直接選好最適化 (DPO) を適用することで、Mixtral-Instruct モデルを開発しました。 MT-Bench評価では、Mixtral-Instructは8.30(表2)という高いスコアを達成し、2023年12月時点で最高のパフォーマンスを発揮するオープンソースの重みモデルとなりました。 LMSys が実施した手動評価の結果を図 6 に示します。この図から、Mixtral–Instruct が GPT-3.5-Turbo、Gemini Pro、Claude-2.1、および Llama 2 70B チャット モデルよりも優れていることがわかります。 ルート分析最後に、研究者らはルーターが「専門家」を選択する方法を簡単に分析しました。特に、研修中に、特定の分野(数学、生物学、哲学など)に特化することを選択する「専門家」が存在するでしょうか。 これを調査するために、研究者は The Pile 検証データセットのさまざまなサブセットにおける「専門家」の選択の分布を測定しました。その結果を図 7 に示します。このモデルには、レイヤー 0、15、および 31 (最後のレイヤー) が含まれます。 驚いたことに、トピックに基づいて「専門家」を割り当てる明確なパターンはここでは見つかりませんでした。 たとえば、「専門家」の分布は、arXiv 論文 (LaTeX で記述)、生物学 (PubMed 抄録)、哲学 (PhilPapers) など、すべての層で非常に似ています。 数学(DM 数学)の分野のみ、「専門家」の分布がわずかに異なります。 研究者たちは、この違いはデータセット自体が合成されたものであり、特にモデルの最初と最後の層で隠れ状態がそれぞれ入力と出力の埋め込みと高度に相関しているため、自然言語のカバレッジが限られているためである可能性があると考えています。 これは、ルーターが何らかの構造化された構文動作を示すことも示しています。 図 8 は、さまざまなドメイン (Python コード、数学、英語) のテキストの例を示しています。これらの中で、各トークンは異なる背景色でマークされており、それに割り当てられている対応する「エキスパート」を簡単に確認することができます。 Python の「self」や英語の「Question」などの単語は、複数のトークンを含んでいるにもかかわらず、同じ「エキスパート」に割り当てられることが多いことがわかります。同様に、隣接するトークンは同じ「エキスパート」に割り当てられます。 コードでは、インデントされたトークンも常に同じ「エキスパート」に割り当てられます。これは、モデルの最初のレイヤーと最後のレイヤーで特に顕著です。これは、これらのレイヤーの非表示状態がモデルの入力と出力に密接に関連しているためです。 さらに、The Pileデータセットに基づいて、研究者らはいくつかの位置の局所性も発見しました。 表5は、異なる分野とネットワーク層で同じ「専門家」によって選択された連続トークンの割合を示しています。 ネットワークの上位層では、この連続的な繰り返し分布はランダム分布の確率よりもはるかに高くなります。この現象は、モデルの最適化、つまりトレーニングと推論のプロセスの加速に重要な意味を持ちます。 たとえば、エキスパート並列処理では、位置の近接性が高い状況では、特定の「エキスパート」が過剰に使用される可能性が高くなります。ただし、この近接性はキャッシュ技術にも使用できます。 図 10 は、すべてのネットワーク層とさまざまなデータセットを網羅し、これらの「エキスパート」が選択される頻度をより包括的に示しています。 結論はこの論文では、研究者らが、SOTA パフォーマンスを実現する最初のオープンソースの専門家混合ネットワークである Mixtral 8x7B を紹介します。 人間による評価ベンチマークでは、Mixtral 8x7B Instruct は Claude-2.1、Gemini Pro、GPT-3.5-Turbo よりも優れたパフォーマンスを発揮します。 Mixtral の主な特徴は、各トークンを処理するときに 13B のパラメータのみをアクティブにして使用することです。これは、Llama 2 70B で使用される 70B のパラメータよりもはるかに低いものです。 現在、研究者らは、訓練され微調整されたモデルを Apache 2.0 オープンソース ライセンスの下で公開し、コミュニティのメンバーが自由に使用できるようにしています。 |
<<: A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。
>>: 世界初のグラフェン半導体がネイチャー誌に掲載され、中国チームがムーアの法則の寿命を10年延長しました!
[[339371]] AIが人間の学習方法を模倣したら何が起こるでしょうか? 8月26日、アリババD...
コロナウイルスのパンデミックが業界に与える影響の程度は地域や業種によって異なると報告書は述べている合...
LLM の微調整は、複雑な問題から、継続的な技術改善を通じてアクセス可能な問題へと変化しました。さて...
クラウドネイティブ アーキテクチャを使用することで、企業はアプリケーションの開発時間を短縮し、低コス...
AlexNet、AlphaGo、GPT、CLIP、DALL-E、Codex、これらはAIの世界でセン...
ハッシュ アルゴリズムは C# 暗号化でよく使用される方法ですが、ハッシュ アルゴリズムとは何でしょ...
1. 概要大規模言語モデル (LLM) の急速な発展に伴い、LLM が人工知能業界の発展に与える影...
人工知能は、特に過去 10 年間で急速に発展しました。人工知能の分野は、自然言語処理、コンピューター...
2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...
翻訳者 |ブガッティレビュー | Chonglou図1. OpenAI Whisperモデルの動作原...
[[335033]]決定木からニューラルネットワークへTL;DR: エントロピーはシステム内の混沌の...
[[113040]]コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識...
米国の人工知能スタートアップOpenAIのサム・アルトマンCEOは現地時間1月17日火曜日、人間のレ...
最近人気の AI スタートアップ企業 Groq は、現在一般的な GPU 推論システムよりも 4 倍...