Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

トランスフォーマー モデルは現在、言語、視覚、強化学習などの分野での有効性から注目を集めています。たとえば、自然言語処理の分野では、Transformer は現代のディープラーニング スタックに欠かせない要素となっています。

最近、Linformer、Performer、Longformer など、さまざまな X-former モデルが提案されています。これらは、元の Transformer アーキテクチャの X-former モデルを改良したもので、その多くは計算効率とメモリ効率を向上させています。

この混乱を乗り越えるために熱心な研究者を支援するために、この論文では、最近の効果的な X-former モデルの大規模かつよく考えられた選択について説明し、複数の領域にわたる既存の研究とモデルの体系的かつ包括的な概要を提供します。

論文リンク: https://arxiv.org/abs/2009.06732

導入

トランスフォーマーは、現代のディープラーニングの分野で強力な力を発揮します。トランスフォーマーはあらゆるところに存在し、言語理解や画像処理など多くの分野に大きな影響を与えてきました。したがって、このモデルを根本的に改善するために、過去数年間にわたって多大な研究が行われてきたのは当然のことです。この大きな関心は、モデルのより効率的なバリエーションの研究も刺激しました。

最近、Transformer モデルのさまざまなバリエーションが多数登場しており、研究者や実務家にとっては、イノベーションのペースに追いつくのが困難になっているかもしれません。本稿執筆時点では、過去 6 か月だけでも、効率性を重視した新しいモデルが 12 個近く提案されています。したがって、既存の文献をレビューすることは、コミュニティにとって有益であり、タイムリーなものとなるでしょう。

自己注意メカニズムは、Transformer モデルを定義する重要な機能です。このメカニズムは、関連付けベースのプーリング操作を介してシーケンス内のすべてのトークンを接続するグラフのような誘導バイアスとして考えることができます。自己注意に関するよく知られた問題は、二次時間とメモリの複雑さであり、多くの設定でモデルのスケーラビリティを妨げる可能性があります。最近、この問題に対処するために多数のモデルのバリエーションが登場しました。今後、このタイプのモデルを「効率的なトランスフォーマー」と呼ぶことにします。

モデルの効率性は、状況に応じて異なる解釈が可能です。これはモデルのメモリ フットプリントを指している可能性があり、メモリが制限されたアクセラレータ上でモデルが実行されている場合に重要です。効率は、トレーニングや推論中の失敗の数など、計算コストを指す場合もあります。特にデバイス上のアプリケーションの場合、モデルは限られた計算予算内で実行できる必要があります。このレビューでは、大規模な入力をモデル化するためにトランスフォーマーを使用する場合の、メモリと計算の観点からのトランスフォーマーの効率について説明しました。

効果的な自己注意モデルは、長いシーケンスをモデリングするアプリケーションにおいて非常に重要です。たとえば、ドキュメント、画像、ビデオは通常、比較的多数のピクセルまたはタグで構成されています。したがって、Transformer が広く採用されるためには、長いシーケンスを処理する効率が重要です。

このレビューは、このタイプのモデルにおける最近の進歩について包括的な概要を提供することを目的としています。ここでは主に、自己注意メカニズムの二次複雑性の問題に対処することで Transformer の効率を向上させるモデリングの進歩とアーキテクチャの革新に焦点を当てます。また、後のセクションでは、一般的な改善点やその他の効率改善点についても簡単に説明します。

この論文では、効率的な Transformer モデルの分類法を提案し、技術革新と主要な使用例によってそれらを特徴付けます。特に、言語と視覚の両方に応用される Transformer モデルをレビューし、各分野の文献の分析を提供します。また、これらのモデルの多くについて詳細な説明を提供し、それらの間の関連性を示します。

このセクションでは、効率的な Transformer モデルの一般的な分類を概説し、その中核となる技術と主な使用例を特徴付けます。これらのモデルの主な目的は、自己注意メカニズムのメモリ複雑性を改善することですが、Transformer アーキテクチャの全体的な効率を改善する方法も含まれています。

固定パターン (FP) — 自己注意の最も初期の変更は、視野をローカル ウィンドウや固定ストライドのブロック パターンなどの固定された定義済みパターンに制限することにより、注意マトリックスを簡素化することです。

複合パターン (CP) - 複合アプローチの主な考え方は、2 つ以上の異なるアクセス パターンを組み合わせることでカバレッジを向上させることです。例えば、スパーストランスフォーマー[21]は、各パターンにヘッドの半分を割り当てることで、ストライドアテンションとローカルアテンションを組み合わせます。同様に、Axial Transformer は、入力として高次元テンソルに一連の自己注意計算を適用し、各計算は入力テンソルの単一の軸に沿って行われます。本質的には、パターンの組み合わせにより、固定パターンと同じようにメモリの複雑さが軽減されます。ただし、違いは、複数のモードを集約して組み合わせると、自己注意メカニズムの全体的なカバレッジが向上することです。

学習可能なパターン (LP) - 固定された事前に決定されたパターンの拡張が学習可能なパターンです。予想どおり、学習可能なパターンを使用するモデルは、データ駆動型の方法でアクセス パターンを学習することを目的としています。学習モデルの重要な特徴は、トークンの相関関係を決定し、トークンをバケットまたはクラスターに割り当てるという概念です。特に、Reformer はハッシュベースの類似度測定を導入して、トークンを効率的にブロックにクラスタ化します。同様に、ルーティング トランスフォーマーはトークンに対してオンライン k-means クラスタリングを使用します。一方、Sinkhorn ランキング ネットワークは、入力シーケンスのチャンクをソートすることを学習することで、注目度の重みのスパース性を明らかにします。これらすべてのモデルでは、類似性関数はネットワークの残りの部分とエンドツーエンドでトレーニングされます。学習可能なパターンの重要な考え方は、依然として固定パターン (ブロック パターン) を活用することです。ただし、このような方法は、入力トークンをランク付け/クラスタリングすることを学習し、固定パターン方法の効率の利点を維持しながら、シーケンスのより優れたグローバルビューを実現します。

ニューラル メモリ — もう一つの注目すべきアプローチは、一度に複数のトークンにアクセスできる学習可能なサイド メモリ モジュールを利用することです。一般的な形式は、シーケンス全体にアクセスできるグローバル ニューラル メモリです。グローバル タグ付けはモデル メモリの一種として機能し、入力シーケンス タグからデータを収集することを学習します。これは、Set 変圧器で初めて導入された誘導点方式です。これらのパラメータは、将来の処理のための一時的なコンテキストの形式として使用される「メモリ」として解釈されることがよくあります。これはパラメータアテンションの一種と考えることができます。 ETC と Longformer もグローバル メモリ トークンを使用します。限られたニューラルメモリ(または誘導ポイント)内で、入力シーケンスに対して予備的なプーリングのような操作を実行して、入力シーケンスを圧縮することができます。これは、効率的な自己注意モジュールを設計するときに利用できる便利なトリックです。

低ランク法 - もう一つの新しい手法は、自己注意行列の低ランク近似を活用して効率を向上させることです。

カーネル — トランスフォーマーの効率を向上させるための最近人気のもう 1 つのアプローチは、カーネル化を通じてアテンション メカニズムを調べることです。

再帰 - ブロック アプローチの自然な拡張は、これらのブロックを再帰を介して接続することです。

ダウンサンプリング — 計算コストを削減するもう 1 つの一般的な方法は、シーケンスの解像度を下げて、対応する係数で計算コストを削減することです。

スパース モデルと条件付き計算 — アテンション モジュール専用ではありませんが、スパース モデルはパラメーターのサブセットをスパースにアクティブ化するため、一般的にパラメーターと FLOP の比率が向上します。

<<:  Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

>>:  この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ブログ    
ブログ    
ブログ    

推薦する

OpenAIを批判した後、ルカン氏はこう答えた。「意識は単なる幻想だと思う」

ヤン・ルカンは演説中に、フランス革命の有名な絵画「民衆を導く自由の女神」を再生し、「革命は監視されな...

...

Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...

近年、黄氏はグラフィックカードに加え、AIやロボットにもますます注目している。来月開催されるGTC ...

...

GPT ストアは来週開始され、OpenAI アプリケーションの爆発的な増加が目前に迫っています。最も完全なGPTビルダーユーザーガイドはここにあります

これから起こることは、やがて起こるでしょう! OpenAIが開発者会議で正式発表した「GPTストア」...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコ...

AIが「ツール人」を救う: RPA+AIがすべてを自動化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

IoTとAIがスマートホームにもたらす効果

スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシティはバージョン1....

顔認識技術のまとめ:従来の方法からディープラーニングまで

1970 年代以来、顔認識はコンピューター ビジョンと生体認証の分野で最も研究されているトピックの ...

スマートホームデバイスにおける自然言語生成の応用

スマートホームデバイスへの自然言語生成 (NLG) の統合により、テクノロジーとのやり取りの方法に革...

清華大学唐傑チーム: NLP事前トレーニングモデルの歴史の簡単な紹介

[[422829]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...

2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

人工知能革命の到来は、IBMの先駆的な研究者アーサー・サミュエルが世界初のコンピューターにチェッカー...

TensorFlow と PyTorch: ディープラーニングに最適なフレームワークはどれですか?

この記事を読んでいるということは、おそらくすでにディープラーニングの旅を始めているということでしょう...