「最強の7Bモデル」論文が発表され、ラマ2の13Bバージョンを超える方法が明らかになった

「欧州OpenAI」の「最強の7Bオープンソースモデル」であるMistralは、最近、数え切れないほどのファンを魅了しています。

そのテスト指標はあらゆる面で13B Llama2を上回り、多くのネットユーザーにアルパカはそれほど人気がないと感じさせました。

最新のニュースとしては、Mistral AI チームが関連論文を発表し、その背後にある技術的な詳細を明らかにしたことです。

写真

ミストラルはあらゆる面で 13B Llama2 に勝っただけでなく、数学、コード、推論の面でも 34B Llama1 はミストラルに敵いませんでした。

推論タスクでは、Mistral のパフォーマンスは、パラメータ数が 10 倍の Llama2-70B に近いです。

しかし、Mistral はリソースをほとんど消費せず、MacBook をスムーズに動作させるために必要なビデオメモリは 6 GB だけです。

より少ない消費でより良い結果を達成するために、ミストラルは最善を尽くしました。

それで、ミストラルに関するこの論文はどのような技術情報を明らかにするのでしょうか?

計算能力を削減する複数のメカニズム

インフラストラクチャの面では、Mistral は Transformer アーキテクチャに基づいて設計されており、合計 32 個の n_layer と 8192 トークンのコンテキスト長を備えています。

具体的なパラメータは次の表に示されています。

写真

Mistral は、複数の最適化戦略を採用することで、高いパフォーマンスと低い消費量を実現できます。

1 つ目は、計算量を直接削減するコアアテンションメカニズムであり、具体的には 2 つの側面が含まれます。

1 つ目は、スライディングウィンドウアテンションメカニズムです。

推論フェーズでは、ウィンドウの長さが設定され、テキスト全体ではなく、分割注意レイヤーの範囲内で注意操作が実行されます。

スライドにより、アテンションレイヤー間に重複が生じ、長いテキストシーケンスの処理が可能になります。

長さ 4096 では、理論上 131,000 個のトークンを処理できます。

写真

このアテンションメカニズムにより、標準のアテンションに比べて速度を 2 倍に上げることができます。

もう 1 つは、グループ化されたクエリアテンションメカニズムです。

このメカニズムは、クエリを複数のグループに分割し、各グループがキーのサブセットに対してのみアテンション操作を実行し、結果を連結します。

これにより、計算量が削減されるだけでなく、グループ間の通信回数も削減され、クエリのスループットが向上します。

開発者は、アテンションメカニズムの作業に加えて、ローリングバッファーキャッシュも導入しました。

この保存方法ではバッファのサイズが固定され、メモリ消費量の最大量が制限されます。

写真

バッファゾーンを倉庫に例えると、そこに保管されるすべての新しいアイテムは対応する位置を占めることになります。

倉庫の総容量は固定されており、倉庫がいっぱいになると、最初に入れられたアイテムが取り除かれ、新しいアイテムが倉庫に引き続き入れられます。

ただし、より近い時期に保管されるアイテムは倉庫に残るため、リソースが節約され、一定の長さのシーケンスが保持されます。

このキャッシュメカニズムを使用すると、バッファサイズが適切に設定されている限り、予算効率とメモリのバランスを実現できます。

事前充填およびブロッキング機構もあり、繰り返し操作を直接的に削減します。

写真

長い文を処理する必要がある場合は、文を小さなチャンクに分割します。

最初の小さなブロックをトレーニングした後、次のブロックを追加します。

このようにして、ストレージスペースには長いシーケンスを構築するための以前のブロック情報が保存されます。

この方法により、最初から繰り返し計算する必要がなくなり、効率が向上します。

上記は、Mistral の開発者が使用する最適化戦略です。モデルの一般化能力を評価するために、開発者は HF の公開データセットを使用してガイド付きの微調整を行いました。

その結果、ミストラルのパフォーマンスは、13B パラメータを持つラマ 2 をあらゆる面で上回り、推論能力は 70B バージョンのそれに非常に近づきました。

写真

3090ブロック1つで微調整が可能

Mistral の人気は、サードパーティのスタジオが微調整チュートリアルを開始することに直接つながりました。

写真

この方法を使用して微調整すると、ミストラルのパフォーマンスがさらに向上し、消費量が削減されると報告されています。

この微調整プロセスは、3090 1 台だけで完了できます。

最初のステップは、使用目的に応じてデータセットを準備し、それをプロンプト形式に変換して、トレーニングセットと検証セットに分割することです。

次にモデルを初期化し、Mistral をロードして、4 ビット量子化や Lora などのパラメータを設定します。

次のステップは、トレーナーを構築し、データ、モデル、その他の情報を入力して正式にトレーニングを開始し、テストして保存することです。

具体的な詳細は元のチュートリアルに記載されています。

論文アドレス: https://arxiv.org/abs/2310.06825 ファインチューニングチュートリアル: https://wandb.ai/byyoung3/ml-news/reports/Fine-Tuning-Mistral7B-on-Python-Code-With-A-Single-GPU---Vmlldzo1NTg0NzY5

<<: Google版AIペイント検索ボックスで直接プレイ！ Imagen 上に構築されたネットユーザー: DALL-E の代替品がここにあります

>>: さまざまなオフィスAIを集めて活用すれば、最も効率的な人材になれる

Google がディープラーニングライブラリ TensorFlow Fold をリリース、動的計算グラフをサポート

ブログ

NetEase Cloud Music 推奨システムのコールドスタート技術

ブログ

アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

ブログ

Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か？

ブログ

モバイルアプリケーションでディープラーニングを加速するにはどうすればよいでしょうか?この記事を読めば分かるだろう

ブログ

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

ブログ

「現時点で最高のヴィンセント動画AI」が登場！広告や映画に使っても問題ない。ネットユーザー：とてもスムーズ

ブログ

AIを使ってコンテンツを作成し、広告補助金を詐取する「ジャンクサイト」が急増しており、すでに200サイト以上あるという。

ブログ

人間と機械のコラボレーションが顧客に力を与え、インテリジェントな顧客サービスが企業のマーケティング環境を一変させています。

ブログ

Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

ブログ

「最強の7Bモデル」論文が発表され、ラマ2の13Bバージョンを超える方法が明らかになった

計算能力を削減する複数のメカニズム

3090ブロック1つで微調整が可能

Google がディープラーニングライブラリ TensorFlow Fold をリリース、動的計算グラフをサポート

NetEase Cloud Music 推奨システムのコールドスタート技術

アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か？

モバイルアプリケーションでディープラーニングを加速するにはどうすればよいでしょうか?この記事を読めば分かるだろう

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

「現時点で最高のヴィンセント動画AI」が登場！広告や映画に使っても問題ない。ネットユーザー：とてもスムーズ

AIを使ってコンテンツを作成し、広告補助金を詐取する「ジャンクサイト」が急増しており、すでに200サイト以上あるという。

人間と機械のコラボレーションが顧客に力を与え、インテリジェントな顧客サービスが企業のマーケティング環境を一変させています。

Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

推薦する

なぜ人工知能には膨大な電力需要があるのでしょうか?

30秒で署名、上海の核酸採取ロボットが登場！

CNN が RNN に取って代わる？シーケンスモデリングで再帰ネットワークが不要になったとき

GraphAlign: グラフマッチングによるマルチモーダル 3D オブジェクト検出のための正確な特徴アライメント

人工知能がブルーカラーの仕事に取って代わると、どのような影響があるでしょうか?

2024年のビッグデータの不完全な予測

オックスフォード大学の科学人気記事、数分でわかる「機械学習とは何か」

GPT-4 Turbo が Microsoft Copilot に搭載されるようになりました。アクセス可能かどうかを確認する方法は次のとおりです。

人工知能開発の現状と将来動向の分析

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

人工知能の登場で、自動化は恐怖に震えるべきでしょうか?

AIモデルをGTAの5つ星プレイヤーにしよう、視覚ベースのプログラム可能なエージェントOctopusが登場