8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コミュニティ全体で人気を博しました。そのアーキテクチャは GPT-4 と非常によく似ており、多くの人がこれを GPT-4 の「小型バージョン」と表現しています。

OpenAI チームが GPT-4 のパラメータ数とトレーニングの詳細については口を閉ざしていることは周知の事実です。 Mistral 8x7B のリリースにより、開発者は間違いなく「GPT-4 に非常に近い」オープンソース オプションを利用できるようになります。

ベンチマークでは、Mistral 8x7B は Llama 2 70B よりも優れており、ほとんどの標準ベンチマークで GPT-3.5 と同等かわずかに優れています。

画像出典: https://mistral.ai/news/mixtral-of-experts/

この研究が発表されると、多くの人が「クローズドソースのビッグモデルは終焉を迎えた」と言った。

わずか数週間で、機械学習愛好家の Vaibhav (VB) Srivastav 氏は次のように述べました。「AutoAWQ の最新バージョン (Mixtral、LLaVa などのモデルの量子化をサポート) のリリースにより、ユーザーは Mixtral 8x7B Instruct と Flash Attention 2 を組み合わせて高速推論を実現できるようになりました。この機能には、約 24GB の GPU VRAM と 10 行未満のコードしか必要ありません。」

画像出典: https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ アドレス: https://github.com/casper-hansen/AutoAWQ

操作手順は以下のとおりです。

まず、AutoAWQ とトランスフォーマーをインストールします。

 pip install autoawq git+https://github. com/huggingface/transformers.git

2 番目のステップは、トークナイザーとモデルを初期化することです。

3 番目のステップは TextStreamer を初期化することです。

4 番目のステップは、入力をトークン化することです。

5 番目のステップでは、以下を生成します。

プロジェクトの設定が完了したら、Mixtral との会話を開始できます。たとえば、ユーザーが「最高のアメリカーノを作るにはどうすればいいですか? 簡単な手順でできますか?」と質問すると、Mixtral は手順 1、2、3 などで回答します。

プロジェクトで使用されるコード:

Srivastav 氏は、上記の実装により、ユーザーは Mixtral のすべての微調整を AWQ で実行し、Flash Attention 2 を使用して改善できるとも述べています。

この研究を見たネットユーザーは思わずこう言った。「本当にすごい」

その他の関連リンクについては、以下を参照してください。

モデルアドレス: https://huggingface.co/models?search=mixtral%20awq

Transformer の量子化テクノロジー: https://huggingface.co/docs/transformers/main/en/quantization

<<:  AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

>>: 

ブログ    
ブログ    

推薦する

Google Chinaのエンジニアは破壊的なアルゴリズムモデルを提案し、Waymoはそれをテストして予測精度を向上させた。

「周囲の車両や歩行者は、次の数秒で何をするだろうか?」これは、安全な自動運転を実現するために答えな...

人工知能の時代に優れた教師とはどのような人物であるべきでしょうか?

つい先日の教師の日、ジャック・マー氏は引退を発表し、正式にアリババの会長を辞任した。引退後、ジャック...

ナノロボットは本当に伝説通り魔法の力を持つのでしょうか?

「ナノロボット」は映画やSF小説に頻繁に登場するキャラクターで、何度も登場して驚くべきスキルを発揮...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...

人工知能、ブロックチェーン技術などが医療分野を改善している

ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...

サイバーセキュリティにおける機械学習:課題と比較

デジタルでつながった時代において、サイバーセキュリティ防御における機械学習 (ML) の役割は不可欠...

...

Alibaba Cloud がバッチおよびストリーム機械学習プラットフォーム Alink をオープンソース化し、アルゴリズム開発のハードルを下げる

11月28日、アリババクラウドは、世界初の統合バッチ・ストリームアルゴリズムプラットフォームでもある...

...

...

平昌オリンピックに向けたパイロットプロジェクトとして5Gバスとドローンがデビュー

[51CTO.com オリジナル記事] 韓国 IT ブリーフィング (3 月第 3 週)今回のKor...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

...

ソフトウェア業界における破壊的革命: AIはすべてのものを食べるだけでなく、すべてそのものになる

昔々、ソフトウェアが世界を席巻しました。今、AI が残りを消化するためにここにいます。アプリケーショ...