8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

オープンソースの奇跡が再び起こりました。Mistral AI が初のオープンソース MoE 大規模モデルをリリースしました。

数日前、磁気リンクが AI コミュニティに一瞬にして衝撃を与えました。

87GB のシード、8x7B の MoE アーキテクチャ、これは「オープンソース GPT-4」のミニバージョンのようです。

記者会見もプロモーションビデオもなかったが、開発者たちが夜も眠れなくなるほどの魅力的なつながりがあった。

フランスで設立されたこの AI スタートアップは、公式アカウントを開設して以来、たった 3 つのコンテンツしか公開していません。

6月にMistral AIが発売されました。わずか 7 ページの PPT で、ヨーロッパ史上最大のシードラウンドの資金調達を獲得しました。

9月には、当時70億のパラメータを備えた最も強力なオープンソースモデルであると主張したMistral 7Bがリリースされました。

12月には、GPT-4に似たアーキテクチャのオープンソース版であるMistral 8x7Bがリリースされました。数日後、海外メディアのファイナンシャル・タイムズは、ミストラルAIの最新の資金調達額は4億1500万ドルで、評価額は8倍の20億ドルに達したと発表した。

現在従業員数が20名を超える同社は、オープンソース企業史上最速の成長記録を樹立した。

では、クローズドソースのビッグモデルは本当に終わったのでしょうか?

8 7Bの小型モデル、ラマ2の700億パラメータを超える

さらに衝撃的なのは、つい先ほど、Mistral-MoE のベンチマーク結果が公開されたことです。

70 億のパラメータを持つこれら 8 つの小さなモデルの組み合わせは、複数の実行スコアで 700 億ものパラメータを持つ Llama 2 を直接上回っていることがわかります。

出典: OpenCompass

Nvidia の上級研究科学者 Jim Fan 氏は、Mistral がすでに 34Bx8E または 100B+x8E モデルを開発している可能性があると推測しました。そして、そのパフォーマンスは GPT-3.5/3.7 のレベルに達した可能性があります。

ここで簡単に紹介します。いわゆる専門家混合 (MoE) モデルでは、複雑なタスクを一連のより小さく扱いやすいサブタスクに分割し、各サブタスクを特定の分野の「専門家」が処理します。

1. エキスパートレイヤー: 特別にトレーニングされた小さなニューラルネットワークで、それぞれが独自の専門分野で優れたパフォーマンスを発揮します。

2. ゲーティングネットワーク: これは、MoE アーキテクチャにおける意思決定の中核です。特定の入力データの処理に最適なエキスパートを決定する役割を担います。ゲーティングネットワークは、入力データと各エキスパート間の互換性スコアを計算し、これらのスコアを使用してタスクの処理における各エキスパートの役割を決定します。

これらのコンポーネントは連携して動作し、適切なタスクが適切な専門家によって処理されるようにします。ゲーティングネットワークは、入力データを最も適切な専門家に効果的に送信し、専門家が専門分野に集中できるようにします。この共同トレーニングにより、全体的なモデルがより多用途かつ強力になります。

コメント欄で誰かが魂を問うような質問をしました: MoE とは何ですか?

ネットユーザーの分析によると、Mistral 8x7Bは各トークンの推論プロセスに2人の専門家しか使用していなかった。

以下はモデルメタデータから抽出された情報です。

{"dim": 4096、"n_layers": 32、"head_dim": 128、"hidden_dim": 14336、"n_heads": 32、"n_kv_heads": 8、"norm_eps": 1e-05、"vocab_size": 32000、"moe": {"num_experts_per_tok": 2、"num_experts": 8}

GPT-4（オンラインで流通しているバージョン）と比較すると、Mistral 8x7B は同様のアーキテクチャを備えていますが、サイズが小さくなっています。

- 専門家の数は 16 人から 8 人になりました (半分に減りました)

- 各エキスパートのパラメータは 1660 億ではなく 70 億です (約 24 倍の削減)

- 合計パラメータ数は 1.8 兆ではなく 420 億（推定）（約 42 倍の削減）

- オリジナルのGPT-4と同じ32Kコンテキストウィンドウ

GPT-4は8個または16個のMoEで構成されている可能性が高いことが以前に明らかにされた。

現在、Mistral 8×7B は多くのオープンソースモデルプラットフォームでリリースされています。興味のある読者は、そのパフォーマンスを自分で試すことができます。

ラングスミス: https://smith.langchain.com/

パープレキシティラボ: https://labs.perplexity.ai/

オープンルーター: https://openrouter.ai/models/fireworks/mixtral-8x7b-fw-chat

GPT-4 を超えるのは時間の問題でしょうか?

ネットユーザーたちは、Mistral AI こそが OpenAI のあるべき姿だと絶賛しました。

このベンチマーク結果は、単にスーパーヒーロー物語のスタートアップ版だと言う人もいます。

Mistral と Midjourney はどちらも明らかにコードを解読しており、次は GPT-4 を超えるだけの問題です。

ディープラーニングの専門家であるセバスチャン・ラシュカ氏は、Zephyr 7B は Mistral 7B をベースとしているため、ベンチマークに含めるのは良い考えだと述べました。このようにして、Mistral の微調整と Mistral MoE の比較を視覚的に確認できます。

これらのインジケーターは、チャットやコマンドの微調整ではなく、主に基本モデルに意味があるのではないかと疑問視する人もいます。

ラシュカ氏は、これは正しいが、命令の微調整はモデルの知識とQAベースのパフォーマンスを損なうことが多いため、依然として健全性チェックとして見ることができると答えた。

命令の微調整モデルの場合、MT-Bench や AlpacaEval などの会話型ベンチマークを追加すると効果的です。

さらに、ラシュカ氏は、ミストラル教育省が指示によって微調整されておらず、緊急に書類が必要であると推測しただけだと強調した。

さらに、Raschka 氏は次のようにも疑問を呈しています。「Mistral MoE は本当に Llama 2 7B を超えることができるのでしょうか?」

数か月前に、オリジナルの Mistra 7B モデルがベンチマークデータセットでトレーニングされた可能性があるという噂がありましたが、これは Mistral 8x7B にも当てはまるのでしょうか?

ソフトウェアエンジニアのアントンは、GPT-4 がベンチマークでトレーニングされていないとは断言できないと答えました。 Mistral チームが元 Llama の著者であることを考慮すると、汚染の問題を回避できると期待されます。

ラシュカ氏は、研究コミュニティがこれらの LLM を対象に Kaggle コンテストを開催することを強く望んでいると述べました。このコンテストには、未使用のデータを含む新しいベンチマークデータセットを含める必要があります。

何人かの人も議論していましたが、今、大規模モデルのボトルネックは何なのでしょうか？それはデータでしょうか、コンピューティングでしょうか、それとも魔法のような Transformer の微調整でしょうか?

これらのモデル間の最大の違いはデータセットだけであるようです。 OpenAI の誰かが、GPT のようなモデルを大量にトレーニングしたところ、トレーニングデータと比較して、アーキテクチャの変更がパフォーマンスにほとんど影響を与えなかったと述べました。

「7Bx8E=50B」という文に興味を示した人もいました。ここでの「統合」は LoRa 方式に基づいているため、多くのパラメータが保存されるからでしょうか?

(7x8=56、6B は LoRa アプローチではほとんど節約になりません。主に事前トレーニング済みの重みを再利用できるためです)

Transformer に代わると予想される新しい Mamba アーキテクチャが役立ち、Mistral-MoE をより迅速かつ安価に拡張できるようになると期待する人もいます。

OpenAIの科学者カルパシー氏は、発言の中で、Google Geminiの偽のビデオデモを密かに嘲笑した。

結局のところ、編集済みのビデオデモと比較すると、Mistral AI のプロモーション方法は単純すぎます。

しかし、Mitral MoE が最初のオープンソース MoE 大規模モデルであるという主張を反駁する者が現れました。

Mistral がこのオープンソースの 7B×8E MoE をリリースする前に、NVIDIA と Google も他の完全にオープンソースの MoE をリリースしていました。

かつてNVIDIAでインターンをしていたシンガポール国立大学の博士課程の学生、Fuzhao Xue氏は、彼らのチームも4か月前に80億パラメータのMoEモデルをオープンソース化したと語った。

わずか半年前に設立され、評価額は20億ドル

元MetaとGoogleの研究者によって設立された、パリを拠点とするスタートアップ企業Mistral AIは、わずか6か月で方向転換し、成功を収めました。

注目すべきは、Mistral AI が最新の資金調達ラウンドで 3 億 8,500 万ユーロ (約 4 億 1,500 万米ドル) を調達したことです。

この資金調達により、従業員わずか22名のこのスター企業の評価額は約20億ドルにまで上昇した。

この投資に参加したのは、シリコンバレーのベンチャーキャピタル企業アンドリーセン・ホロウィッツ（a16z）、Nvidia、Salesforceなどです。

6か月前、同社は設立から数週間しか経っておらず、従業員はわずか6人、製品もまだ生産していませんでしたが、7ページのPPTで1億1,300万ドルという巨額の資金調達を獲得しました。

現在、ミストラル AI の評価額はほぼ 10 倍に増加しています。

この会社はOpenAIほど有名ではないかもしれませんが、その技術はChatGPTに匹敵し、OpenAIの強力なライバルの1つとなっています。

これらは、オープンソースとクローズドソースという両極端の代表です。

Mistral AI は、その技術をオープンソースソフトウェアとして共有し、誰でもコンピューターコードを自由にコピー、変更、再利用できるようにすることを強く信じています。

これにより、独自のチャットボットを迅速に構築したい外部開発者に必要なものがすべて提供されます。

しかし、OpenAIやGoogleなどの競合企業は、オープンソースにはリスクがあり、独自の技術が偽情報やその他の有害なコンテンツの拡散に利用される可能性があると考えています。

Mistral AI の背後にあるオープンソースコンセプトの起源は、この会社を設立した中核創設者の当初の意図と切り離すことはできません。

ミストラルAIは、メタのパリAI研究所の研究者ティモシー・ラクロワ氏とギヨーム・ランプル氏、そして元ディープマインド社員のアーサー・メンシュ氏によって5月に設立された。

論文アドレス: https://arxiv.org/pdf/2302.13971.pdf

皆さんご存知のとおり、Meta は常にオープンソースを推進する企業のリーダーでした。 2023 年を振り返ると、このテクノロジー大手は、LLaMA 2、Code LLaMA など、多くの大規模モデルをオープンソース化しています。

したがって、創設者のティモシー・ラクロワとギヨーム・ランプルが以前の雇用主からこの伝統を受け継いだことは驚くべきことではありません。

興味深いことに、創設者の姓の頭文字は「LLM」を形成します。

これは名前の頭文字の略語であるだけでなく、チームが開発している Large Language Model の略語でもあります。

この人工知能の競争では、OpenAI、Microsoft、Google などのテクノロジー企業が長い間業界のリーダーとなり、LLM の研究開発に数千億ドルを投資してきました。

十分なインターネットデータを栄養として利用すれば、大規模なモデルは質問に答えるテキストを自律的に生成したり、詩を作ったり、さらにはコードを書いたりすることができ、世界中のすべての企業がこのテクノロジーの大きな可能性を実感できるようになります。

そのため、OpenAIとGoogleは、新しいAIシステムをリリースする前に、このテクノロジーが誤った情報やヘイトスピーチ、その他の有害なコンテンツを拡散するのを防ぐため、数か月かけてLLMのセキュリティ対策を講じる予定です。

ミストラルAIのCEO、メンシュ氏は、同チームがLLM向けに、より効率的で費用対効果の高いトレーニング方法を設計したと語った。そして、このモデルの運用コストは彼らのモデルの半分以下です。

月額約 300 万ドルの Mistral 7B は、世界中の無料 ChatGPT ユーザーの使用量の 100% に対応できると概算する人もいます。

彼らがモデルに掲げた目標は、ChatGPT-3.5 と Bard を大幅に上回ることです。

しかし、多くのAI研究者、ハイテク企業の幹部、ベンチャーキャピタリストは、AI競争に勝つのは、同じ技術を構築し、安全上の制限なしに無料で一般に公開する企業だと考えています。

ミストラルAIの誕生は、フランスがアメリカのテクノロジー大手に挑戦するチャンスとみなされている。

インターネット時代の到来以来、ヨーロッパには世界的に大きな影響力を持つテクノロジー企業はほとんどありませんでしたが、AIの分野では、ミストラルAIによってヨーロッパは進歩する可能性を見ることができました。

一方、投資家は「オープンソースコンセプト」を信じるスタートアップ企業に多額の投資を行っています。

昨年12月、OpenAIとDeepMindの元研究科学者によって設立されたPerplexity AIは、最近7,000万ドルの資金調達ラウンドを完了し、企業評価額は5億ドルに達した。

ベンチャーキャピタル会社a16zのパートナーであるアンジニー・ミドハ氏は、ミストラルへの新たな投資ラウンドについて次のように語った。

私たちは、AI はオープンソースであるべきだと強く信じています。コンピュータのオペレーティングシステム、プログラミング言語、データベースなど、現代のコンピューティングを支える主要なテクノロジの多くはオープンソースです。 AI の基礎となるコードを広く共有することは、より多くの人がテクノロジーをレビューし、潜在的な欠陥を特定して対処できるようになるため、最も安全なアプローチです。

単一のエンジニアリングチームですべての問題を見つけることはできません。大規模なコミュニティは、より安価で、より速く、より良く、より安全なソフトウェアを構築する上で有利です。

創業者のメンシュ氏はインタビューで、同社はまだ利益を上げていないが、「年末までには」状況が変わるだろうと明らかにした。

Mistral AI は、サードパーティ企業が使用するための AI モデルにアクセスするための新しいプラットフォームを開発しました。

<<:

>>: