「今夜の予定は全部キャンセル!」多くのAI開発者は寝ないことを決意しました。 最初のオープンソース MoE 大規模モデルが Mistral AI によってリリースされたばかりだからです。 MoEアーキテクチャの正式名称はMixture-of-Expertsで、GPT-4が採用すると噂されているソリューションです。オープンソースの大規模モデルの中でGPT-4に最も近いエピソードと言えるでしょう。 記者会見やプロモーションビデオはなく、ただ磁力のリンクだけがセンセーショナルな効果を生み出した。 特定のパラメータは、構成ファイルをダウンロードしてスクリーンショットを撮った後、高速インターネットを使用しているユーザーによって引き続き送信されます。 7B パラメータ x 8 人のエキスパート、各トークンに対して、処理する最初の 2 人の最も関連性の高いエキスパートを選択します。 OpenAI の創設メンバーである Karpathy 氏が不満を漏らすほどです。何かが欠けているのでしょうか?
誰に対して文句を言われているのか、分かる人には分かるでしょう。 彼はまた、AI コミュニティが最近非常に活発である理由についても説明しました。最大のディープラーニング カンファレンス NeurIPS が来週に始まるからです。 MoE、オープンソースのビッグモデルの新たな舞台?このオープンソースの MoE モデルがなぜ人気があるのでしょうか? 前身のMistral-7Bはオープンソースの基本モデルの中で最も強力であるため、13Bや34Bに対抗できる場合が多い。 さらに、Mistral-7B は、Apache-2.0 オープン ソース プロトコルの下でリリースされており、商用利用は無料です。この新しいモデルもこのプロトコルに従うと思われます。 多くの評価ランキングでは、ミストラル7Bをベースに微調整を加えたゼファー7Bベータが唯一の最前列の7Bモデルであり、その前後にはそれよりもはるかに大きなモデルが並んでいます。 LLMSYS Chatbot Arena では、Zephry-7B-beta は現在 12 位にランクされています。 AlpacaEvalでも15位にランクされました。 現在、この新しい MoE モデルには正式な名前すらなく、コミュニティでは一般的に Mistral-7Bx8 MoE と呼ばれています。 しかし、誰もが期待しているように、新しい MoE モデルが単一の Mistral-7B に対して改善されるのは、GPT-4 が GPT-3.5 に対して改善されるのと同じようなものになるはずです。 しかし、MoEはメモリを多く消費するため、ローカル操作にはあまり適していないことを誰かが指摘しているので注意してください。 ただし、クラウドに展開して複数のデバイスで専門家が並行して実行し、同時要求を処理する際に企業がコスト面で優位に立つようにする方が適しています。 より速く動いたのは、元 PyTorch メンバーによって設立された fireworks.ai という会社でした。 最初は最適化なしで試してください。80GB のメモリを搭載したカードが 2 枚必要です。最適化バージョンは近日中にリリースされます。 Replicate には試用版もあります。簡単に試してみたところ、中国語のレベルもかなり良いと感じました。 実際、Mistral AI は、スタンフォード大学が昨年リリースした軽量 MoE ライブラリ Megablocks を使用して、すべての人向けの公式サポート コードも用意しています。 創設者:小型モデルはより興味深いアプリケーションをサポートしますMistral AI は、元 DeepMind および Meta の科学者によって設立されました。 同社は4億8,700万ドルの新たな資金調達ラウンドを完了したばかりで、最新の評価額は20億ドル近くに達し、ユニコーン企業となった。 3人の共同創業者のうち、CEOのアーサー・メンシュ氏は以前パリのDeepMindで働いていた。 CTO の Timothée Lacroix 氏と主任科学者の Guillaume Lample 氏は、Meta での Llama シリーズの開発に共同で参加しており、Lample 氏は責任著者の 1 人です。 アーサー・メンシュ氏はかつてインタビューで、モデルを小型化することがエージェントの開発をサポートする方法の 1 つであると述べました。
Mistral AIは今年5月に設立され、シードラウンドの資金調達で1億1,300万ドルを調達した。 9月末、Mistral AIはマグネットリンクの形で初のオープンソースモデルであるMistral-7Bをリリースしました。当時、多くの開発者はLlama-2を試してみて、それほど良くないと感じていました。 12月初旬、Mistral AIは再びオープンソースのMoEモデルマグネットリンクをリリースし、再び熱狂の波を引き起こしました。 これらは同社の公式アカウントから出された数少ない声明である。 多くの人がこれを、Google の最近の過剰な宣伝と比較しました。 最新のミーム: マグネット リンクは新しい arXiv です。 参考リンク: |
<<: Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表
>>: OpenAIはGPT-4が怠惰になったことを認める:当面修正することはできない
私は Unix オペレーティング システムに関する知識を頻繁に学んでおり、Unix オペレーティング...
2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...
2019年の人工知能の給与水準、まずは全体の給与水準の2つの分析グラフを見てみましょう! ***は、...
典型的な高同時実行性、大規模ユーザー Web インターネット システムのアーキテクチャ設計では、HT...
[[387421]]接頭辞表現(ポーランド語表記)プレフィックス式はポーランド式とも呼ばれます。プ...
人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...
データによると、わが国のスマート物流市場規模は2019年に5074億元で、前年比23.10%増加しま...
ChatGPT や Llama 2 などの大規模言語モデル (LLM) は、さまざまなタスクでの汎用...
[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...
さまざまな業界の労働者は、当初は AI に取って代わられるのではないかと心配していましたが、今では ...
[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な...