Transformer アーキテクチャは、現代の機械学習で広く使用されています。 Attention はトランスフォーマーのコア コンポーネントであり、トークンの確率分布を生成するソフトマックス関数が含まれています。 Softmax は、指数計算とシーケンスの長さにわたる合計を実行するためコストが高く、並列化が困難になります。 Google DeepMind は、ソフトマックス演算を、必ずしも確率分布を出力しない新しい方法に置き換えるという新しいアイデアを思いつきました。また、シーケンスの長さで割った ReLU を使用した注意は、ビジュアル Transformer で使用すると従来のソフトマックス注意に近づくか、それに匹敵する可能性があることも確認しました。 論文: https://arxiv.org/abs/2309.08586 この結果により、ReLU アテンションはシーケンス長次元で並列化できるため、従来のアテンションよりも少ない収集操作で済むため、並列化のための新しいソリューションがもたらされます。 方法注意 アテンションは、d 次元のクエリ、キー、値 {q_i、k_i、vi_i} を 2 段階のプロセスで変換することによって機能します。 最初のステップでは、注目度の重みは次の式で得られます。 ここでϕは通常ソフトマックスです。 次に、このアテンション重みを使用して出力を計算します。この論文では、ϕ を置き換えるためにポイントごとの計算ソリューションを使用する方法を検討します。 ReLUアテンション DeepMind は、式 1 の ϕ = softmaxが適切な代替手段であることを観察しました。彼らが使用するアテンションは、ReLU アテンションと呼ばれます。 詳細なポイントごとの注意 また、 α∈[0, 1]かつh∈{relu,relu², gelu,softplus, identity,relu6,sigmoid}となるより広い範囲の選択肢を実験的に探索します。 シーケンス長の拡張 また、シーケンスの長さ L を含む項でスケーリングすると、高い精度が達成されることも観察されました。ソフトマックスを削除しようとした以前の研究では、この拡張機能は使用されていませんでした。 ソフトマックスアテンションを使用した現在のTransformer設計では、これは必要条件ではないものの、初期化時の複雑さが この条件を維持することで、ソフトマックスを置き換えるときに他のハイパーパラメータを変更する必要性が軽減される可能性があります。 初期化時にqとkの要素はO(1)なので、それらもO(1)になります。 ReLUのような活性化関数はO(1)を維持するので、nをnの複雑度にするにはnの係数が必要です。 実験と結果主な結果 図 1 は、ImageNet-21k トレーニングで ReLU アテンションとソフトマックス アテンションが同様にスケーリングされることを示しています。 x 軸は、実験に必要なカーネル計算時間の合計 (時間) を示します。 ReLU アテンションの主な利点は、シーケンス長次元で並列化できるため、ソフトマックス アテンションよりも必要な収集操作が少なくて済むことです。 配列長の延長の効果 図 2 は、シーケンス長拡張法の結果と、ソフトマックスの他のさまざまなポイントごとの代替方法の結果を比較しています。具体的には、softmax を relu、relu²、gelu、softplus、identity などの方法で置き換えることです。 x軸はαです。 Y 軸は、S/32、S/16、および S/8 ビジュアル Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性は存在しないため、主な実験ではより高速な ReLU を使用しました。 qk-layernormの効果 主な実験では qk-layernorm を使用します。この実験では、クエリとキーがアテンションの重みを計算する前に LayerNorm に渡されます。 DeepMindは、デフォルトでqk-layernormを使用する理由として、モデルサイズを拡大縮小する際に不安定性を防ぐ必要があるためだと述べています。図 3 は、qk-layernorm を削除した場合の影響を示しています。この結果は、qk-layernorm がこれらのモデルにほとんど影響を与えないことを示唆していますが、モデルのサイズが大きくなった場合にはそうなる可能性もあります。 ドア効果の追加 ソフトマックスの除去に関するこれまでの研究では、ゲーティング ユニットを追加するアプローチが採用されていましたが、このアプローチはシーケンスの長さに応じて拡張されません。具体的には、ゲート アテンション ユニットには、出力を生成するための追加の投影があり、出力投影の前に要素ごとの乗算によって結合されます。図 4 は、ゲートの存在によってシーケンス長の拡張の必要性がなくなるかどうかを示しています。全体的に、DeepMind は、ゲートの有無にかかわらず、シーケンス長の拡張によって最高の精度が達成されたことを確認しました。また、ReLU を使用する S/8 モデルの場合、このゲーティング メカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。
|
<<: メールを受け取りましたか? GPT-3.5-Turbo-Instructがリリースされ、マルチモーダル大型モデルGobiも公開されました
>>: NetEase Fuxi Game AI Botの擬人化と様式化:AIGAはゲーム探索を強化
既存のビジネスやソリューションをベースに、企業は AI 機能を導入することで、どのようにすれば効率性...
最近、2020年世界人工知能会議が中国上海で開催されました。各国の専門家らがオンラインで議論し、人工...
ディープな旅行がますます高品質の観光オプションに浸透するにつれて、観光型の観光はもはや現代人の旅行ニ...
本日、IEEE 2020フェローのリストが発表されました。統計によると、280人以上が選出され、その...
ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...
[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...
効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...
2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...
[[397046]]画像ソース: https://pixabay.com/images/id-450...
[[235958]] 「医師はAIに取って代わられるか?」という質問に対し、鼎祥源の創業者李天天氏は...
人工知能は画期的であり、時には衝撃的です。私たちは、効率性、自動化、スマートな予測に関する素晴らしい...
[[199775]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマ...