DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

DeepMind と Mamba の中国人著者が、Transformer という革新的な作品を発表!パフォーマンスはLlama 2に匹敵するほど劇的に向上し、推論のエネルギー効率も大幅に改善されました。

トランスフォーマーが再び挑戦!

今回の挑戦者は有名な Google DeepMind 社で、同社は Hawk と Griffin という 2 つの新しいアーキテクチャを同時にリリースしました。

論文アドレス: https://arxiv.org/abs/2402.19427

ゲート付き線形 RNN とローカル アテンションを組み合わせたこの新しいモデル アーキテクチャは、非常に優れたパフォーマンスを発揮します。

まず、線形 RNN アーキテクチャも使用する Griffin は、トレーニング データの半分を使用したすべての評価において、以前に人気があった Mamba よりも優れたパフォーマンスを発揮します。

さらに重要なことは、グリフィンがモデルを 14B に拡張し、マンバがやりたかったができなかったことを実現したことです。

第二に、Transformer アーキテクチャに基づくモデルに関しては、Griffin は 1/6 のトレーニング データで、同じ数のパラメーターを持つ Llama 2 と同等か、さらにはそれを上回ることができます。

同時に、このモデルは非常に長いコンテキストを活用して予測を向上させることができ、線形 RNN がトレーニングに使用されたシーケンスの長さをはるかに超えて一般化できることを実証しています。

さらに、チームは、この組み合わせたアーキテクチャが、長いコンテキストからのトークンのコピーや取得など、合成タスクにおける Transformer の多くの機能を保持していることを実証しました。

記事の共同筆頭著者は、Griffin の新しいモデル アーキテクチャは非常に効率的であり、線形 RNN の効率性の利点と Transformer の表現力とスケーラビリティをすべて組み合わせていると興奮気味にツイートしました。

Twitter の写真も非常に興味深いです。マンバが自分のパイソンでトランスフォーマーに挑んでいる写真を覚えていますか?今回、グリフィンはCポジションを獲得し、トラックでトップに立った。

グリフィンの方がマンバにダメージを与えている気がします。結局、鷲が蛇を捕まえるのですから...

しかし、これは単なる冗談です。Mamba の作者である Albert Gu もこの記事の著者の一人であることがわかるので、世界中のすべての線形 RNN が同じファミリーに属している可能性があります。

話を元に戻すと、Transformer は現在市場を独占していますが、その二次計算とストレージのオーバーヘッドは科学研究と産業に大きなプレッシャーを与えています (Huang の資金源にはなっていますが...)。

誰もが最適化に懸命に取り組んでいた一方で(Mamba のもう一人の作者である Tri Dao が開発した FlashAttention シリーズなど)、別の方法も模索していたため、Transformer に挑戦するこれらのアーキテクチャが誕生しました。

——本当に効果があるなら、「Attention Is All You Need」のように歴史に残るでしょう。

最近人気を集めているいくつかの有名な研究は、RWKV、Mamba、そして今日のHawkとGriffinなど、線形RNNに関連しています。

リカレント ニューラル ネットワーク (RNN) は、推論オーバーヘッドが線形であり、トランスフォーマーに比べて計算とストレージの面で自然な利点があるため、長いシーケンス データの処理で優れたパフォーマンスを発揮します。

しかし、RNN シリーズは、メモリと選択的な情報抽出の点で Transformer と比較して根本的な欠点があるため、現在のタスクではあまり表現力がありません。

さらに、構造上の問題により、大規模な RNN のトレーニングは非常に困難です。

この目的のために、研究者らは、ゲート付き線形サイクルを使用する RNN である Hawk と、ゲート付き線形フィードバックとローカル アテンション メカニズムを組み合わせたハイブリッド モデルである Griffin を提案しました。

まず、研究者らは、新しいゲート線形再帰層である RG-LRU 層を提案し、その周りに MQA に代わる新しい再帰ブロックを設計しました。

その後、研究者たちはこの再帰ブロックに基づいて、Hawk(MLP と再帰ブロックを組み合わせたもの)と Griffin(MLP と再帰ブロックおよびローカルアテンションを組み合わせたもの)という 2 つの新しいモデルを構築しました。

具体的には:

1. Hawk モデルと Griffin モデルは、パラメータ数が 70 億を超えた場合でも、トレーニング FLOP と保持損失に関して Transformer モデルと同様のべき乗則スケーリング関係を示します (図 1(a))。

2. すべてのモデル サイズにおいて、Griffin の保持損失は、強力な Transformer ベースラインよりもわずかに低くなります。

3. Hawk モデルと Griffin モデルは、さまざまなスケールで 300B トークンを使用してトレーニングされました。一連のダウンストリーム タスクでは、Hawk は 2 倍のトークンでトレーニングされた Mamba モデルよりも優れたパフォーマンスを発揮し、Griffin は 6 倍のトークンでトレーニングされた Llama-2 に匹敵します。

4. TPU-v3 では、Hawk と Griffin は Transformers に匹敵するトレーニング効率を実現します。研究者たちは、Pallas の RG-LRU レイヤー カーネルを設計することで、メモリ転送を最小限に抑えながら、対角 RNN レイヤーのメモリ制限によって生じる課題を克服しました。

5. 推論フェーズでは、Hawk と Griffin は MQA Transformers よりもスループットが大幅に高く (図 1(b))、長いシーケンスを処理する際のレイテンシが低くなります。

6. Griffin は、トレーニング中には見ら​​れなかった長いシーケンスを処理する際に Transformer よりも優れたパフォーマンスを発揮し、トレーニング データからコピーおよび取得タスクを効率的に学習することもできます。ただし、事前トレーニング済みモデルを微調整せずにコピーおよび正確な検索タスクの評価に直接使用すると、Hawk と Griffin のパフォーマンスは Transformer よりも悪くなります。

モデルアーキテクチャ

すべてのモデルには、(1)残差ブロック、(2)MLPブロック、(3)時間混合ブロックという3つのコア部分が含まれています。

残差ブロックと MLP ブロックはすべてのモデルで同じですが、時間混合ブロックには 3 つの異なる実装があります。

1. グローバルマルチクエリアテンション(MQA)

2. ローカル(スライディングウィンドウ)MQA

3. 研究者が提案したループブロック。

リカレント ブロックでは、研究者らは線形リカレント ユニットにヒントを得た新しいタイプのリカレント レイヤー、Real Gated Linear Recurrent Unit (RG-LRU) を提案しました。

図 2(a) に示すように、モデルのグローバル構造は残差ブロックによって定義され、その設計は事前正規化トランスフォーマー アーキテクチャにヒントを得ています。

まず、入力シーケンスが埋め込まれ、次に 𝑁 個の残差ブロックを通過します (ここで 𝑁 はモデルの深さを表します)。その後、RMSNorm が適用され、最終的なアクティベーションが生成されます。

トークンの確率を計算するために、研究者は最後に線形層とソフトマックス関数を追加しました。この線形層の重みは入力埋め込み層と共有されることに留意してください。

Transformerのように拡張可能

スケーリング研究では、3 つの異なるモデルを評価し、70 億のパラメータまでのパフォーマンスとそれを超えるパフォーマンスを示します。

1. MQAトランスフォーマーベースラインモデル

残差モードとゲート MLP ブロックが使用され、MQA と RoPE 技術が組み合わされます。

2. ホークモデル

Hawk は MQA Transformer と同じ残差パターンと MLP ブロック設計に従いますが、時間混合部分に MQA の代わりに新しい再帰ブロック (RG-LRU レイヤーを含む) を採用しています。リカレントブロックの幅を約3/4に拡張することで、パラメータ数はマルチヘッドアテンションブロックとほぼ同等のレベルに達し、モデル次元𝐷の設定と一致します。

3. グリフィンモデル

Griffin の大きな利点は、グローバル アテンション メカニズムと比較して、MQA のように KV キャッシュをシーケンスの長さに応じて線形に増加させるのではなく、固定状態サイズでシーケンスを要約することです。ローカルアテンションにも同じ特性があるため、再帰ブロックとローカルアテンションを組み合わせることで、この利点を維持できます。ローカルアテンションは最新の情報を正確にモデル化でき、リカレントレイヤーは長いシーケンスにわたって情報を転送できるため、この組み合わせは非常に効果的であることがわかりました。

Griffin は、Transformer ベースラインと同じ残差モデルと MLP ブロックを使用しますが、再帰ブロックと MQA ブロックの混合を採用している点で上記の 2 つのモデルとは異なります。具体的には、研究者らは、2 つの残差ブロックと 1 つの再帰ブロックを交互に使用し、次にローカル アテンション メカニズムに基づいて残差ブロックを使用する階層構造を設計しました。通常、ローカル アテンションのウィンドウ サイズは 1024 トークンです。

大規模並列トレーニング

モデルのサイズが大きくなると、デバイスごとにバッチ サイズが 1 であっても、トレーニング中にモデルを 1 台のデバイスに収めることができなくなります。

そのため、トレーニング中、著者はモデルの並列処理を使用して、大規模なモデルをデバイス間で分割します。異なるトレーニング デバイス間の通信にはコストがかかるため、大規模な高速トレーニングにはモデルを効果的にシャーディングすることが重要です。

ゲート付き MLP の場合、ここではメガトロン スタイルのシャーディング (つまり、テンソル並列処理) が使用され、前方パスと後方パスの両方で all-reduce 操作を実行する必要があります。同じ戦略をアテンション ブロックの線形レイヤーに適用して、複数のヘッドを異なるデバイスに割り当てることもできます。

再帰ブロックには、ブランチごとに 2 つの線形レイヤーが含まれます。したがって、メガトロンのシャーディング方式も効率的に適用できます。 Conv1D レイヤーはチャネル間で独立して動作し、そのパラメーターは通信オーバーヘッドを発生させることなくデバイス間で分割できます。

追加のデバイス間通信を回避するために、研究者は密な行列の代わりに RG-LRU のゲートにブロック対角重み (以下の式 1 と 2) を使用します。

本論文のすべての実験において、著者らは再帰ゲートおよび入力ゲートとして 16 個のブロックを使用しました。再帰の対角構造には Conv1D と同じ利点があり、通信なしでパラメータの分割と計算が可能になります。この戦略を使用すると、ループ ブロックの通信要件は MLP ブロックの通信要件と同じになります。

さらに、オプティマイザー (Adam など) の状態パラメーターは、モデル パラメーター自体のサイズを超えて、大量のメモリを消費する可能性があります。

この問題に対処するために、研究者らは ZeRO を採用し、さらに bfloat16 を使用してモデル パラメーターとアクティベーションを表現し、データ転送のオーバーヘッドを最小限に抑えました。

上の図は、シーケンス長が 2K の MQA をベースラインとして使用し、Griffin と MQA のトレーニング時間を示しています。ここでは、さまざまなモデル サイズとシーケンス長がテストされています。

シーケンスの長さが長くなると、実験ではバッチ サイズが比例して縮小され、各バッチ内のトークンの合計数は一定に保たれます。

畳み込みスキャンや相関スキャンを使用しないのはなぜですか?

線形 RNN モデルの利点の 1 つは、計算の連想的な性質から生まれる高い並列性であり、畳み込みまたはプレフィックス合計アルゴリズム (関連スキャン) を通じてデバイス上で効率的に実行できます。

ただし、RG-LRU のゲーティング メカニズムは畳み込みビューと互換性がありません。原理的には連想スキャンを使用して必要な FLOP 数を削減することは可能ですが、実際には主なボトルネックとなるメモリ オーバーヘッドは削減されません。

経験的に、TPU-v3 では、関連付けスキャンはネイティブ Jax 線形スキャンよりも大幅に遅くなります。著者らは、並列プレフィックスサムアルゴリズムのツリー再構成のランダムアクセスの性質が TPU アーキテクチャに適しておらず、その結果メモリ転送が遅くなるのではないかと推測しています。

推論速度

推論速度を評価する際に考慮すべき主な指標が 2 つあります。

1 つ目はレイテンシです。これは、特定のバッチ サイズで指定された数のトークンを生成するのにかかる時間を測定します。 2 つ目はスループットです。これは、指定された数のトークンをサンプリングするときに、単一のデバイスで 1 秒あたりに生成できるトークンの最大数を測定します。

スループットはトークンのサンプリング、バッチ サイズ、レイテンシに関連しているため、レイテンシを削減するかメモリ使用量を削減することでスループットを向上させ、デバイスでより大きなバッチ サイズを使用できるようになります。

高速な応答時間を必要とするリアルタイム アプリケーションの場合、レイテンシを考慮する必要があります。人間のフィードバックによる強化学習 (RLHF) や言語モデル出力のスコアリングなど、他の言語アプリケーションを検討する場合、スループットは重要です。

ここでは、MQA (Transformer) をベースラインとして、サイズ 1B のパラメータを持つモデルの推論結果をテストします。 MQA は、文献でよく使用される標準の MHA よりも推論プロセスがはるかに高速です。

比較対象となるモデルは、MQA Transformer、Hawk、Griffin です。

図 4 は、バッチ サイズが 16、事前入力されてから空、または 4096 トークンの場合のモデルのレイテンシを比較しています。長いシーケンスの場合、Hawk と Griffin は MQA Transformer よりもサンプル遅延が速くなります。

これは、シーケンス長とプリフィル長 (KV キャッシュのサイズに影響します) が増加する場合に特に顕著になります。 Griffin は Hawk と同様のレイテンシを実現し、線形 RNN とローカル アテンションの優れた互換性を実証しています。

次に研究者らは、空のプロンプトで 512、1024、2048、4196 トークンをサンプリングしたときの同じモデルの最大スループット (トークン/秒) を比較しました。

上の図に示すように、Griffin と Hawk の両方のスループットが MQA Transformer のベースラインよりも大幅に高いことがわかります。

これは、反復モデルのレイテンシが低いことが一因ですが、Griffin と Hawk はキャッシュが小さいため、MQA Transformer よりも単一のデバイスで大きなバッチ サイズに対応できることも大きな理由です。

バッチ サイズが大きい場合、ローカル アテンション バッファのサイズが最終的にパラメータのサイズと同程度になるため、Hawk は Griffin よりも高いスループットを実現します。

ユーザーコメント

この論文の結果は重要であるが、一部のネットユーザーは納得しておらず、この論文のモデルとMambaの比較が「公平」であるかどうか疑問視している。

「この論文は、LLM 研究における大きな問題を示しています。彼らは、より少ないトークンで Mamba よりも優れたパフォーマンスを発揮すると主張しています。しかし、セクション 3.2 になって初めて、彼らはトレーニングに Mamba とはまったく異なるデータセットを使用していることを認めています。」

「実はデータこそが最も大切なので、パフォーマンスの比較は無意味です。まったく無意味です。科学的な結論や洞察は得られません…」

陰謀論から導き出されたモデルが受け入れられないケースもあります。

「ディープマインドがこのような研究を発表する動機は何でしょうか? 彼らがOpenAIとの競争で優位に立ちたいのであれば、何かクールな新しいアーキテクチャを発見したとしても、それを秘密にしておくでしょう。」

「これは、これらの結果が現時点では良好であるが、競争上の優位性を提供するという点で革命的となるほど十分ではないことを意味するのでしょうか?」

嵐の後の結末はどうなるでしょうか? 時の経過を待ちましょう。

著者について

アルバート・グ

アルバート・グーは、以前人気があったマンバアーキテクチャの作者でもある。

2015 年、アルバート・グーはカーネギーメロン大学 (CMU) でコンピューターサイエンスと数学の二重学士号を取得しました。

その後、スタンフォード大学でコンピューターサイエンスを専攻し、現在はCMUで助教授を務めています。

アルバート・グーは2011年にFacebookでソフトウェアエンジニアリングのインターンとして働き、2015年には英国ロンドンのJump Tradingでアルゴリズム取引のインターンとして働きました。

2019 年、Albert Gu 氏は DeepMind で研究科学者インターンとしてインターンをしました。

彼の研究対象は次のとおりです。

構造化線形表現を含む機械学習のための構造化表現。

代数と埋め込み、シーケンス モデルの分析と設計。

長期コンテキストの非ユークリッド表現学習について。

近年、Albert Gu は ICML、ICLR、NeurlPS などのトップ AI カンファレンスで、引用数の多い論文を多数発表しています。

ソハム・デ

論文の共著者であるソーハム・デ氏は、Google DeepMindの研究科学者であり、大規模なディープラーニングのより深い理解とパフォーマンスの向上に注力しています。

以前は、2018年にメリーランド大学でDana Nau教授とTom Goldstein教授の指導の下、主に機械学習の問題に対する高速確率的最適化アルゴリズムを研究して博士号を取得しました。

サミュエル・L・スミス

サミュエルはケンブリッジ大学で学士、修士、博士の学位を取得しました。2016 年に理論物理学の博士号を取得し、その後 Google Brain と DeepMind で働きました。

ジョージ・クリスティアン・ムラール

論文の共著者であるジョージ・クリスチャン・ムラール氏も、Google DeepMindのソフトウェアエンジニアです。Googleで働く前は、ブルームバーグでプログラマーとして働いていました。

アレクサンダル・ボテフ

論文の共著者であるアレクサンダル・ボテフ氏は、ユニバーシティ・カレッジ・ロンドンを卒業し、機械学習の修士号とディープラーニングの博士号を取得しています。彼は OpenAI と Google DeepMind でインターンをし、2019 年に研究科学者として DeepMind に入社しました。

<<: 

>>:  Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

ブログ    

推薦する

ついに誰かがROSロボットオペレーティングシステムをわかりやすく説明しました

01 ROS入門多くの初心者は、ロボットのオペレーティングシステムと聞いて、「オペレーティングシス...

国家基準の策定が加速しており、科学的な顔認識は100億元のブルーオーシャンをもたらすだろう

4月22日、「情報セキュリティ技術の顔認識データのセキュリティ要件」国家標準の草案が正式に公開され、...

素晴らしいツールです!機械学習のためのテキスト注釈ツールとサービス 10 選

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

...

マイクロソフトは2022年にリモートワーカー向けに3Dワークスペースを提供する予定

Microsoft は、仮想会議用に Mesh for Teams と呼ばれる没入型 3D プラット...

3Wイノベーションフェスティバル:先進的な起業家のアイデアが古都西安に流入

最近、西安で3Wイノベーションフェスティバルが開催されました。西安起業・イノベーション週間の代表的な...

...

...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

人工知能とは何かについて10分ほどお話ししましょう。

1999年、ハリウッドSF映画史上最も重要なSF映画『マトリックス』が公開されました。この映画は、...

自動運転車の「おとぎ話」にはどんな本当のチャンスが隠されているのでしょうか?

[[186930]]次に最も重要なテクノロジーは何でしょうか? 多くの人が「人工知能、VR、自動運...

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ツイッターがマスク氏の買収を阻止:15%以上の株式を保有する者は割引価格で発行される

イーロン・マスクによるツイッター買収のドラマもついにこの回まで来た。ツイッターは現地時間4月15日、...