初のオープンソースMoE大型モデル公開！ 7Bx8の専門家、GPT-4に最も近いエピソード

「今夜の予定は全部キャンセル！」多くのAI開発者は寝ないことを決意しました。

最初のオープンソース MoE 大規模モデルが Mistral AI によってリリースされたばかりだからです。

MoEアーキテクチャの正式名称はMixture-of-Expertsで、GPT-4が採用すると噂されているソリューションです。オープンソースの大規模モデルの中でGPT-4に最も近いエピソードと言えるでしょう。

記者会見やプロモーションビデオはなく、ただ磁力のリンクだけがセンセーショナルな効果を生み出した。

特定のパラメータは、構成ファイルをダウンロードしてスクリーンショットを撮った後、高速インターネットを使用しているユーザーによって引き続き送信されます。

7B パラメータ x 8 人のエキスパート、各トークンに対して、処理する最初の 2 人の最も関連性の高いエキスパートを選択します。

OpenAI の創設メンバーである Karpathy 氏が不満を漏らすほどです。何かが欠けているのでしょうか?

何度もリハーサルを重ね、AI 変革について語るプロフェッショナルなビデオが存在しないのはなぜでしょうか?

誰に対して文句を言われているのか、分かる人には分かるでしょう。

彼はまた、AI コミュニティが最近非常に活発である理由についても説明しました。最大のディープラーニングカンファレンス NeurIPS が来週に始まるからです。

MoE、オープンソースのビッグモデルの新たな舞台？

このオープンソースの MoE モデルがなぜ人気があるのでしょうか?

前身のMistral-7Bはオープンソースの基本モデルの中で最も強力であるため、13Bや34Bに対抗できる場合が多い。

さらに、Mistral-7B は、Apache-2.0 オープンソースプロトコルの下でリリースされており、商用利用は無料です。この新しいモデルもこのプロトコルに従うと思われます。

多くの評価ランキングでは、ミストラル7Bをベースに微調整を加えたゼファー7Bベータが唯一の最前列の7Bモデルであり、その前後にはそれよりもはるかに大きなモデルが並んでいます。

LLMSYS Chatbot Arena では、Zephry-7B-beta は現在 12 位にランクされています。

AlpacaEvalでも15位にランクされました。

現在、この新しい MoE モデルには正式な名前すらなく、コミュニティでは一般的に Mistral-7Bx8 MoE と呼ばれています。

しかし、誰もが期待しているように、新しい MoE モデルが単一の Mistral-7B に対して改善されるのは、GPT-4 が GPT-3.5 に対して改善されるのと同じようなものになるはずです。

しかし、MoEはメモリを多く消費するため、ローカル操作にはあまり適していないことを誰かが指摘しているので注意してください。

ただし、クラウドに展開して複数のデバイスで専門家が並行して実行し、同時要求を処理する際に企業がコスト面で優位に立つようにする方が適しています。

より速く動いたのは、元 PyTorch メンバーによって設立された fireworks.ai という会社でした。

最初は最適化なしで試してください。80GB のメモリを搭載したカードが 2 枚必要です。最適化バージョンは近日中にリリースされます。

Replicate には試用版もあります。簡単に試してみたところ、中国語のレベルもかなり良いと感じました。

実際、Mistral AI は、スタンフォード大学が昨年リリースした軽量 MoE ライブラリ Megablocks を使用して、すべての人向けの公式サポートコードも用意しています。

創設者：小型モデルはより興味深いアプリケーションをサポートします

Mistral AI は、元 DeepMind および Meta の科学者によって設立されました。

同社は4億8,700万ドルの新たな資金調達ラウンドを完了したばかりで、最新の評価額は20億ドル近くに達し、ユニコーン企業となった。

3人の共同創業者のうち、CEOのアーサー・メンシュ氏は以前パリのDeepMindで働いていた。

CTO の Timothée Lacroix 氏と主任科学者の Guillaume Lample 氏は、Meta での Llama シリーズの開発に共同で参加しており、Lample 氏は責任著者の 1 人です。

アーサー・メンシュ氏はかつてインタビューで、モデルを小型化することがエージェントの開発をサポートする方法の 1 つであると述べました。

コンピューティングコストを 100 倍削減できれば、より興味深いアプリケーションを構築できます。

Mistral AIは今年5月に設立され、シードラウンドの資金調達で1億1,300万ドルを調達した。

9月末、Mistral AIはマグネットリンクの形で初のオープンソースモデルであるMistral-7Bをリリースしました。当時、多くの開発者はLlama-2を試してみて、それほど良くないと感じていました。

12月初旬、Mistral AIは再びオープンソースのMoEモデルマグネットリンクをリリースし、再び熱狂の波を引き起こしました。

これらは同社の公式アカウントから出された数少ない声明である。

多くの人がこれを、Google の最近の過剰な宣伝と比較しました。

最新のミーム: マグネットリンクは新しい arXiv です。

参考リンク:
[1]https://x.com/MistralAI/status/1733150512395038967?s=20.
[2] https://github.com/mistralai/megablocks-public.
[3] https://replicate.com/nateraw/mixtral-8x7b-32kseqlen.

<<: Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

>>: OpenAIはGPT-4が怠惰になったことを認める：当面修正することはできない

ブログ

OpenAIの最初の投資家コスラ氏：AIスタートアップのほとんどは過大評価されている

初のオープンソースMoE大型モデル公開！ 7Bx8の専門家、GPT-4に最も近いエピソード

MoE、オープンソースのビッグモデルの新たな舞台？

創設者：小型モデルはより興味深いアプリケーションをサポートします

OpenAIの最初の投資家コスラ氏：AIスタートアップのほとんどは過大評価されている

スマート端末AxPOS A8Sは単なるハードウェアのフラッシュではありません

アルゴリズム設計者が新たな人気者になる

Amazon のニューラルネットワークに関する書籍トップ 10

今後10年間で、人間の仕事の約50％が人工知能に置き換えられるでしょうか？

推薦する

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

GoogleとHuawei、AI市場獲得に向け音声アシスタントの導入を急ぐ

GPT-4 の推論はとんでもない！大学の数学、物理、化学の合計得点は半分にも満たず、推理問題21種類すべて不合格。マーカス「AGIはまだ遠い」

OpenAIがヴィンセントのビデオモデル「Sora」をリリース。一般人がその恩恵を最大化するにはどうすればいいか？

人工知能教師向けの類似質問の作成

成功するビジネスインテリジェンス戦略を開発する方法

2050年に「電子的不死」は達成されるのか？計画が鍵

エッジコンピューティングと人工知能について知っておくべき7つのこと

2030年までに、仕事の70％が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか？

シリコンバレーのアイアンマンがウルトラマンを訴える！ GPT-4 がオープンソースになる見込みはありますか?

ディープラーニングを使って夢に現れる物体を分析する

GPT-3 がマーベルユニバースに登場! 2Dの男がスパイダーマンの続編を作るためにそれを使用しました