ReLU がビジュアル Transformer のソフトマックスに取って代わり、DeepMind の新しい手法でコストが急速に削減される

ReLU がビジュアル Transformer のソフトマックスに取って代わり、DeepMind の新しい手法でコストが急速に削減される

Transformer アーキテクチャは、現代の機械学習で広く使用されています。 Attention はトランスフォーマーのコア コンポーネントであり、トークンの確率分布を生成するソフトマックス関数が含まれています。 Softmax は、指数計算とシーケンスの長さにわたる合計を実行するためコストが高く、並列化が困難になります。

Google DeepMind は、ソフトマックス演算を、必ずしも確率分布を出力しない新しい方法に置き換えるという新しいアイデアを思いつきました。また、シーケンスの長さで割った ReLU を使用した注意は、ビジュアル Transformer で使用すると従来のソフトマックス注意に近づくか、それに匹敵する可能性があることも確認しました。

論文: https://arxiv.org/abs/2309.08586

この結果により、ReLU アテンションはシーケンス長次元で並列化できるため、従来のアテンションよりも少ない収集操作で済むため、並列化のための新しいソリューションがもたらされます。

方法

注意

アテンションは、d 次元のクエリ、キー、値 {q_i、k_i、vi_i} を 2 段階のプロセスで変換することによって機能します。

最初のステップでは、注目度の重みは次の式で得られます

ここでϕは通常ソフトマックスです。

次に、このアテンション重みを使用して出力を計算します。この論文では、ϕ を置き換えるためにポイントごとの計算ソリューションを使用する方法を検討します。

ReLUアテンション

DeepMind は、式 1 の ϕ = softmaxが適切な代替手段であることを観察しました。彼らが使用するアテンションは、ReLU アテンションと呼ばれます。

詳細なポイントごとの注意

また、 α∈[0, 1]かつh∈{relu,relu², gelu,softplus, identity,relu6,sigmoid}となるより広い範囲の選択肢を実験的に探索します

シーケンス長の拡張

また、シーケンスの長さ L を含む項でスケーリングすると、高い精度が達成されることも観察されました。ソフトマックスを削除しようとした以前の研究では、この拡張機能は使用されていませんでした。

ソフトマックスアテンションを使用した現在のTransformer設計では、これは必要条件ではないものの、初期化時の複雑さ この条件を維持することで、ソフトマックスを置き換えるときに他のハイパーパラメータを変更する必要性が軽減される可能性があります。

初期化時にqとkの要素はO(1)なので、それらもO(1)になります。 ReLUのような活性化関数はO(1)を維持するので、nをnの複雑度にするにはnの係数が必要です

実験と結果

主な結果

図 1 は、ImageNet-21k トレーニングで ReLU アテンションとソフトマックス アテンションが同様にスケーリングされることを示しています。 x 軸は、実験に必要なカーネル計算時間の合計 (時間) を示します。 ReLU アテンションの主な利点は、シーケンス長次元で並列化できるため、ソフトマックス アテンションよりも必要な収集操作が少なくて済むことです。

配列長の延長の効果

図 2 は、シーケンス長拡張法の結果と、ソフトマックスの他のさまざまなポイントごとの代替方法の結果を比較しています。具体的には、softmax を relu、relu²、gelu、softplus、identity などの方法で置き換えることです。 x軸はαです。 Y 軸は、S/32、S/16、および S/8 ビジュアル Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性は存在しないため、主な実験ではより高速な ReLU を使用しました。

qk-layernormの効果

主な実験では qk-layernorm を使用します。この実験では、クエリとキーがアテンションの重みを計算する前に LayerNorm に渡されます。 DeepMindは、デフォルトでqk-layernormを使用する理由として、モデルサイズを拡大縮小する際に不安定性を防ぐ必要があるためだと述べています。図 3 は、qk-layernorm を削除した場合の影響を示しています。この結果は、qk-layernorm がこれらのモデルにほとんど影響を与えないことを示唆していますが、モデルのサイズが大きくなった場合にはそうなる可能性もあります。

ドア効果の追加

ソフトマックスの除去に関するこれまでの研究では、ゲーティング ユニットを追加するアプローチが採用されていましたが、このアプローチはシーケンスの長さに応じて拡張されません。具体的には、ゲート アテンション ユニットには、出力を生成するための追加の投影があり、出力投影の前に要素ごとの乗算によって結合されます。図 4 は、ゲートの存在によってシーケンス長の拡張の必要性がなくなるかどうかを示しています。全体的に、DeepMind は、ゲートの有無にかかわらず、シーケンス長の拡張によって最高の精度が達成されたことを確認しました。また、ReLU を使用する S/8 モデルの場合、このゲーティング メカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。

<<:  メールを受け取りましたか? GPT-3.5-Turbo-Instructがリリースされ、マルチモーダル大型モデルGobiも公開されました

>>:  NetEase Fuxi Game AI Botの擬人化と様式化:AIGAはゲーム探索を強化

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

5G の出現は AI 連合学習にどのような影響を与えるでしょうか?

開発チームが AI ツールの作成に奔走する中、エッジ デバイスでのアルゴリズムのトレーニングが一般的...

10億のデータから数字を素早く見つける方法 | 定番アルゴリズムBitMapの詳しい説明

序文多くの人は、BitMap は文字通りビットマップを意味すると考えています。実際、より正確には、ビ...

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか?

運転するには運転免許証を持っていることが前提条件であり、運転免許証を取得するには運転免許試験を受ける...

古典的なソートアルゴリズムヒープソートの簡単な分析

ヒープは通常、(完全な) ツリーとして表示できるオブジェクトの配列です。そして、以下のルールは常に満...

仕事とAIの未来

[[340645]] [51CTO.com クイック翻訳] 人工知能が雇用に与える影響は、現在、さま...

...

MSNを覚えていますか?マイクロソフトはAIを使って人間を排除している

海外メディアの報道によると、マイクロソフトは、自動化や人工知能によるコンテンツ決定に向けた同社の取り...

フードデリバリーロボット市場は11.6億規模に到達。美団は「台頭」するか?

近年、ロボット産業は急速に発展しており、工業、農業、サービスなど多くの分野でロボットが見られるように...

IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

市場調査会社IDCは7月25日、近年の人工知能の急速な進化と発展により、ビッグデータモデルはますます...

テレンス・タオが新プロジェクトを立ち上げ:リーンで素数定理を証明、研究計画は完成

「アレックス・コントロヴィッチと私が率いる新しいリーン形式化プロジェクトが正式に発表されました。この...

...

オペレーティング システムのプロセス スケジューリング アルゴリズム (CPU 仮想化)

前回の記事では、オペレーティング システムが CPU を仮想化する方法についてすでに説明しました。今...

AIが自動運転データセンターを構築する方法

人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタルツイン、ロボット工...

ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

ガートナー社によると、現在データサイエンスに使用されているツールは急速に変化しているという。同社は新...

中国と米国の人工知能の格差はどれほど大きいか:米国の人材総数は中国の約20倍

昨年上半期、メディアはかつてアンドリュー・ン氏が妻のために百度を去ったという話題を熱く議論していた。...