GPT-4 も使用している可能性がある推測的デコードとは何ですか?の過去、現在、応用をまとめた記事

大規模言語モデル (LLM) の推論には通常、かなり遅い推論プロセスである自己回帰サンプリングの使用が必要であることはよく知られています。この問題を解決するために、投機的デコードが LLM 推論の新しいサンプリング方法になりました。この方法では、各サンプリングステップで複数の可能なトークンを予測し、それらの精度を並行して検証します。自己回帰デコードとは異なり、推測デコードでは 1 つのステップで複数のトークンをデコードできるため、推論が高速化されます。

推測的デコードは非常に有用ですが、さらなる調査を必要とするいくつかの重要な疑問も生じます。まず、推論精度と生成効率のバランスをとるために、近似モデルを選択または設計する方法を検討する必要があります。第二に、評価基準が世代の多様性と出力品質を維持できるかどうかを検討する必要がある。最後に、推論精度を向上させるには、調整された近似モデルと対象の大規模モデル間の推論プロセスを慎重に検討する必要があります。

上記の問題に基づき、香港理工大学、北京大学、MSRA、アリババの研究者らが投機的復号に関する包括的な調査を実施しました。 Machine Heart が情報を要約して整理しました。

論文タイトル: 大規模言語モデル推論の効率性の解放: 投機的デコーディングの包括的調査
論文アドレス: https://arxiv.org/pdf/2401.07851.pdf

推測的デコードの進化

この記事では、まず、投機的デコードに関する初期の研究を詳細に紹介し、その進化のタイムラインを通じてそれを説明します (下の図 2 を参照)。

ブロックワイズデコードは、Transformer デコーダーに追加のフィードフォワードニューラル (FFN) ヘッドを統合して、1 つのステップで複数のトークンを生成する方法です。

ブロックサンプリングアルゴリズムの潜在能力をさらに引き出すために、投機的デコード方式が提案されました。このアルゴリズムは、通常は特殊な非自己回帰トランスフォーマーである個別の近似モデルで構成されており、生成タスクを正確かつ効率的に実行できます。

投機的デコードの出現後、一部の学者は投機的デコードにロスレス加速カーネルサンプリングを追加した「投機的サンプリングアルゴリズム」(Speculative Sampling) を提案しました。

つまり、推測的デコードにおけるこれらの先駆的な取り組みにより、Draftthen-Verify パラダイムが徐々に強化され、LLM アクセラレーションの大きな可能性が実証されました。

公式と定義

このセクションでは、まず標準的な自己回帰復号法の概要を簡単に説明し、次に、正式な定義、方法論、アルゴリズムの詳細な説明など、推測復号アルゴリズムについて詳しく説明します。

本稿では、図 3 に示すように、関連する研究を分類するための組織フレームワークを提案します。

前回の研究に基づいて、この論文では「投機的デコードアルゴリズム」を再度正式に定義します。

推測的デコードアルゴリズムは、最初に生成し、後で検証するデコードモードです。各デコードステップでは、まず複数の可能なトークンを生成し、次に対象の大規模言語モデルを使用してこれらすべてのトークンを並列に評価し、推論を高速化する必要があります。アルゴリズム表 2 は、詳細な推測的デコード処理です。

次に、この論文では、このパラダイムに不可欠な 2 つの基本的なサブステップ、つまり生成と評価について詳しく説明します。

生成する

各デコード手順では、まず、投機的デコードアルゴリズムが、対象の大規模言語モデルの出力コンテンツに関する推測として、複数の可能なトークンを生成します。

本稿では、生成されたコンテンツを独立起草と自己起草の2つのカテゴリに分類し、その公式を以下の表1にまとめています。

確認する

各デコードステップでは、近似モデルによって生成されたトークンが並列で検証され、出力品質が対象の大規模言語モデルと高い一貫性を持つことが保証されます。このプロセスでは、各ステップで許可されるトークンの数も決定されます。これは、高速化に影響を与える重要な要素です。

大規模言語モデル推論における貪欲デコードとカーネルサンプリングをサポートするものを含む、さまざまな検証基準の概要を表 2 に示します。

生成と検証のサブステップは、終了条件が満たされるまで、つまり [EOS] トークンがデコードされるか、文が最大長に達するまで繰り返し実行されます。

さらに、本論文では、トークンの受け入れを徐々に改善するための効果的な戦略である、トークンのツリー検証アルゴリズムを紹介します。

モデルの調整

推論精度の向上は推論デコードを高速化するための鍵です。近似モデルの予測動作が対象の大規模言語モデルに近いほど、生成されたトークンの受け入れ率が高くなります。この目的のために、既存の研究では、近似モデルの出力内容を対象の大規模言語モデルの出力内容と一致させるためのさまざまな知識蒸留 (KD) 戦略が検討されてきました。

ブロックデコードでは、まずシーケンスレベルの知識抽出 (Seq-KD) を使用してモデルのアライメントを実行し、対象の大規模言語モデルによって生成された文を使用して近似モデルをトレーニングします。

さらに、Seq-KD は並列デコードの生成品質を向上させる効果的な戦略でもあり、並列デコードの生成パフォーマンスが向上します。

以下の表3は、近似モデルのタイプまたは生成戦略、モデルの調整方法、サポートされている評価戦略、および加速の程度など、既存の投機的デコード方法の主な特徴をまとめたものです。

応用

一般的なパラダイムであることに加えて、最近の研究では、投機的デコードのいくつかのバリエーションが特定のタスクにおいて驚くほど効果的であることが示されています。さらに、他の研究では、このパラダイムを適用して、特定のアプリケーションシナリオに固有のレイテンシの問題を解決し、推論の高速化を実現しました。

たとえば、一部の学者は、推測的デコードは、文法エラーの修正や検索強化型生成など、モデルの入力と出力が非常に類似しているタスクに特に適していると考えています。

これらの研究に加えて、RaLMSpec (Zhang et al., 2023b) は、推測的デコードを使用して、検索拡張言語モデル (RaLM) を高速化します。

機会と課題

質問 1: 予測の精度と発電効率のバランスをどのように取るか?この問題に関してはある程度の進歩は見られましたが、対象となる大規模言語モデルの生成内容と一致する近似モデルを作成するには、まだかなりの改善の余地があります。モデルの調整に加えて、生成品質や予測長の決定などの他の要因も推論の精度に影響を与えるため、さらに調査する価値があります。

質問 2: 投機的デコードを他の主要テクノロジーとどのように組み合わせるか?一般的なデコードモードとして、投機的デコードは他の高度な技術と組み合わせられ、その可能性を実証してきました。プレーンテキスト上の大規模言語モデルの高速化に加えて、画像合成、テキスト音声合成、ビデオ生成などのマルチモーダル推論への投機的デコードの適用も、将来の研究にとって興味深く価値のある方向性です。

詳細については原文論文を参照してください。

<<:

>>: ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。