8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コミュニティ全体で人気を博しました。そのアーキテクチャは GPT-4 と非常によく似ており、多くの人がこれを GPT-4 の「小型バージョン」と表現しています。

OpenAI チームが GPT-4 のパラメータ数とトレーニングの詳細については口を閉ざしていることは周知の事実です。 Mistral 8x7B のリリースにより、開発者は間違いなく「GPT-4 に非常に近い」オープンソース オプションを利用できるようになります。

ベンチマークでは、Mistral 8x7B は Llama 2 70B よりも優れており、ほとんどの標準ベンチマークで GPT-3.5 と同等かわずかに優れています。

画像出典: https://mistral.ai/news/mixtral-of-experts/

この研究が発表されると、多くの人が「クローズドソースのビッグモデルは終焉を迎えた」と言った。

わずか数週間で、機械学習愛好家の Vaibhav (VB) Srivastav 氏は次のように述べました。「AutoAWQ の最新バージョン (Mixtral、LLaVa などのモデルの量子化をサポート) のリリースにより、ユーザーは Mixtral 8x7B Instruct と Flash Attention 2 を組み合わせて高速推論を実現できるようになりました。この機能には、約 24GB の GPU VRAM と 10 行未満のコードしか必要ありません。」

画像出典: https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ アドレス: https://github.com/casper-hansen/AutoAWQ

操作手順は以下のとおりです。

まず、AutoAWQ とトランスフォーマーをインストールします。

 pip install autoawq git+https://github. com/huggingface/transformers.git

2 番目のステップは、トークナイザーとモデルを初期化することです。

3 番目のステップは TextStreamer を初期化することです。

4 番目のステップは、入力をトークン化することです。

5 番目のステップでは、以下を生成します。

プロジェクトの設定が完了したら、Mixtral との会話を開始できます。たとえば、ユーザーが「最高のアメリカーノを作るにはどうすればいいですか? 簡単な手順でできますか?」と質問すると、Mixtral は手順 1、2、3 などで回答します。

プロジェクトで使用されるコード:

Srivastav 氏は、上記の実装により、ユーザーは Mixtral のすべての微調整を AWQ で実行し、Flash Attention 2 を使用して改善できるとも述べています。

この研究を見たネットユーザーは思わずこう言った。「本当にすごい」

その他の関連リンクについては、以下を参照してください。

モデルアドレス: https://huggingface.co/models?search=mixtral%20awq

Transformer の量子化テクノロジー: https://huggingface.co/docs/transformers/main/en/quantization

<<:  AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

>>: 

ブログ    
ブログ    

推薦する

...

機械学習とディープラーニングの違いは何ですか?

機械学習とディープラーニングのアルゴリズムフローついに人工知能研究僧に入学しました。機械学習とディー...

AIはサプライチェーンの脆弱性をある程度軽減できる

今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...

Bzip2アルゴリズムハードウェアアクセラレーション方式

本発明は、Bzip2 アルゴリズムのハードウェア アクセラレーション実装方法を開示する。この方法は、...

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ベクターデータベースの強力なライバルが登場するか?トラック関連のスタートアップ企業がまたもや倒産しそ...

人工知能とデータ分析の新たなトレンド

明らかに、AI とデータ分析の世界はダイナミックな変化の真っ只中にあります。将来は、イノベーションと...

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られています...

二重の流行が迫る中、機械学習アルゴリズムは新型コロナウイルスの迅速な検出にどのように役立つのでしょうか?

[51CTO.comよりオリジナル記事]秋から冬にかけての季節が近づき、インフルエンザやCOVID...

音声認識技術は急速に発展しており、その規模は今後5年間で300億近くに達するだろう。

現在、科学技術の発展に伴い、人工知能産業は急速に成長し、あらゆる分野の変革における重要な要素となって...

...

自動運転のテストが加速:北京と上海が重要なニュースを発表

2018 年後半には、自動運転とインテリジェント コネクテッド ビークルの市場が活況を呈しました。昨...

ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

最近、業界の多くの大規模なモデルベンチマークが、「強度値」のアップデートの新たなラウンドを導入しまし...

年末大特集!2020年に最も注目されたAI論文をまとめて紹介

2020年、新型コロナウイルスのせいで世界中の人々が恐怖におののいていることでしょう…しかし、これは...

シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける

背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...

ゼロコード機械学習の秘密

この段階では、人工知能の応用シナリオが増加し、市場規模が拡大しており、機械学習の価値がますます顕著に...