予測トークンの速度が2倍になりました！ Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

アルパカチームの新たな研究は大ヒットとなっている。

彼らは、モデルが 100 個のトークンを 1.5 ～ 2.3 倍速く予測できるようにする新しいデコードアルゴリズムを開発し、それによって LLM 推論を加速しました。

たとえば、同じモデル(LLaMa-2-Chat 7B) が同じユーザーの質問(ソクラテスは当時の主流の考え方に挑戦するためにどのような方法を使用しましたか?)に対する回答を出力する速度は次のとおりです。

左側は元のアルゴリズムを示しており、所要時間は18.12 秒、トークン数は 1 秒あたり約 35 です。

右側のアルゴリズムは10.4 秒かかり、1 秒あたり約 60 トークンなので、明らかにはるかに高速です。

簡単に言えば、これは「先読みデコード」と呼ばれる並列デコードアルゴリズムです。

これは主にヤコビ反復法を使用して、自己回帰デコードにおける順次依存性を初めて打破します（周知のとおり、現在の大規模モデルは基本的に自己回帰トランスフォーマーに基づいています）。

これにより、ドラフトモデルやデータストレージの必要性がなくなり、デコード手順が削減され、LLM 推論が高速化されます。

現在、作者は huggingface/transformers と互換性のある実装を提供しています。わずか数行のコードで、ユーザーは簡単に HF ネイティブ生成のパフォーマンスを向上させることができます。

一部のネットユーザーはこう言った。

この方法は本当に興味深いです。個別の設定でこれほどうまく機能するとは思っていませんでした。

これにより「インスタントビッグモデル」に一歩近づくことになると言う人もいます。

具体的にどうやって達成するのでしょうか?

自己回帰デコードの高速化の重要性

GPT-4 にしろ LLaMA にしろ、現在の大規模モデルは自己回帰デコードに基づいており、この方法での推論速度は実は非常に遅いです。

これは、各自己回帰デコード手順で一度に 1 つのトークンのみが生成されるためです。

したがって、モデルの出力がどれだけ遅れるかは、回答の長さによって異なります。

さらに悪いことに、このアプローチでは最新の GPU の並列処理機能が無駄になり、GPU の使用率は非常に低くなります。

もちろん、チャットボットの場合、待ち時間が少なく、応答が速いほど良いです（特に長い回答のシーケンスに直面した場合）。

以前、誰かが投機的復号化と呼ばれる高速自己回帰復号化アルゴリズムを提案しました。一般的な考え方は、推測と検証の戦略を採用することです。つまり、最初にドラフトモデルでいくつかの潜在的な将来のトークンを予測し、次に元の LLM を使用して並列検証を行います。

この方法は「まったくの幸運によって」デコード手順の数を減らし、遅延を減らすことができます。

しかし、問題も多くあります。例えば、効果はトークンの受け入れ率によって制限され、正確なドラフトモデルを作成することも難しく、通常は追加のトレーニングと慎重な調整が必要になります。

ここで、Alpaca チームは、これらの課題を克服するために、新しい精密並列デコードアルゴリズム、つまりフォワードデコードを提案しました。

フォワードデコードはシーケンシャルな依存関係を破壊します

著者らが次のことを観察したため、順方向デコードは可能です。

1 つのステップで複数の新しいトークンをデコードすることは現実的ではありませんが、LLM は複数の分離した n-gram を並列に生成できます。これは、シーケンスの将来の部分を生成するのに適している可能性があります。

これは、自己回帰復号を非線形方程式を解くこととして扱い、並列復号に古典的なヤコビ反復法を使用することによって実現できます。

このプロセスでは、生成された n グラムをキャプチャして検証し、必要に応じてシーケンスに統合することで、n ステップ未満で n 個のトークンを生成する操作を実現します。

著者は、フォワードデコードが「際立つ」理由は主に次のとおりだと述べています。

スクラッチモデルなしで実行できるため、展開が簡素化されます。

2 番目に、デコードステップの数はステップあたりの log (FLOP)に対して直線的に削減され、最終的には単一の GPU とさまざまなデータセットで 1.5 倍から 2.3 倍高速なトークン数予測を実現します。

さらに重要なのは、レイテンシに極めて敏感なアプリケーションでレイテンシを大幅に削減するために、より多くの(1 GPU を超える) FLOP を割り当てることができることですが、これには収穫逓減の法則が伴います。

詳しい紹介は以下の通りです。

1. 順方向デコードの動機 Jacobi は、非線形システムを解くときに、固定小数点反復法を使用して将来のすべてのトークンを一度にデコードします。

このプロセス中にクロックの速度が目立った増加はほとんどありません。

2. フォワードデコードは、ヤコビ反復軌跡によって生成された n-gram を収集してキャッシュすることにより、ヤコビデコードのパワーを活用します。

次の図は、Jacobi デコードによって 2 グラムを収集し、デコードを検証して高速化するプロセスを示しています。

3. 各デコード手順には 2 つの分岐があります。

フォワードブランチは、固定サイズの 2D ウィンドウを維持し、Jacobi 軌跡に従って n-gram を生成します。検証ブランチは、有望な n-gram を検証します。

著者らは、GPU の並列計算機能をさらに活用するために、2 イン 1 Atten マスクを実装しました。

4. フォワードデコードでは、外部ソースを必要とせずに、大量の n-gram を瞬時に生成して検証できます。これにより、ステップのコストが増加しますが、より長い n-gram が受け入れられる可能性も高まります。

言い換えれば、フォワードデコードにより、より多くのフリップフロップを使用してレイテンシを削減できます。

5. 著者らは、フロップスとレイテンシ削減の間のスケーリング動作を調査し、次のスケーリング法則を発見しました。
n グラムが十分に大きい場合(例: 11 グラム) 、将来のトークン推測の数(つまり、ウィンドウサイズ)を指数関数的に増やすと、デコード手順の数を線形に減らすことができます。

著者について

このメソッドの作成者は 4 名おり、全員が Alpaca チームのメンバーです。

その中には中国人2名も含まれている。

Fu Yichao 氏と Zhang Hao 氏です。Zhang Hao 氏は CMU で博士号を、上海交通大学で修士号を取得し、現在はカリフォルニア大学サンディエゴ校の助教授を務めています。

<<: OpenAI の謎の Q* は人類を滅ぼすのか?人気の「Q*仮説」は実際には世界モデルにつながり、インターネット上のAI専門家は長い記事で熱く議論してきました。

>>: GPT の成熟への道に関する公式メモ | OpenAI Developer Day

予測トークンの速度が2倍になりました！ Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

自己回帰デコードの高速化の重要性

フォワードデコードはシーケンシャルな依存関係を破壊します

著者について

2021年に人工知能が主流の技術になる

Tech Neo 12月号：人工知能の応用シナリオ

OccNeRF: LIDARデータの監視は不要

CMU 博士トム・マーフィーの AI スーパーマリオ

OpenAIのチップ製造計画が明らかに！独自のAIチップを開発する計画があり、買収対象を検討中

膨大なログから未知の異常な動作をオンラインでリアルタイムに検出するにはどうすればよいでしょうか?ハンシのシーケンス異常アルゴリズムを参照

新しいヘルスケアソリューション: ヘルスケアにおける AI と IoT が認知症患者をどのように支援できるか

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

世界を支配するマスターアルゴリズムは存在するのでしょうか?

推薦する

マイクロソフト：新しいアルゴリズムにより Windows 11 の累積アップデートのサイズが 40% 削減

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

世界初！人間の脳のようなスーパーコンピュータ「シェナン」がまもなく発売され、ムーアの法則を破り、エネルギー消費を数桁削減する

人工知能は労働力不足の重要な解決策とみられる

通信会社は AI と機械学習をどのように活用して利益率を向上させることができるでしょうか?

AI コードアクセラレータが近日登場します!傅盛：プログラマーが特定のコードを書くだけで仕事を見つけることができた時代は永遠に終わった

fBox アルゴリズムを使用して、高度に隠蔽された詐欺ユーザーを検出する方法

2020年に注目すべき7つのAIトレンド

脱ぐ！ドローンは1000億元の農薬市場の発展を加速させている

パンデミック後、アメリカ人の半数がスマートデバイスの音声制御が不可欠だと考えている

画像認識技術を実装し、多様な応用シナリオを探索

自然言語処理技術はビジネス分野でどのようなアプリケーションをサポートできますか?

量子コンピューティング + 人工知能 - これが未来のテクノロジーの最大のホットスポットです!