GoogleとDeepMindは、6つのタスクと複数のデータタイプに対する効率的なTransformer評価ベンチマークを提案

GoogleとDeepMindは、6つのタスクと複数のデータタイプに対する効率的なTransformer評価ベンチマークを提案

  • ベンチマーク プロジェクト アドレス: https://github.com/google-research/long-range-arena

  • 論文アドレス: https://arxiv.org/pdf/2011.04006.pdf

Transformer は複数のモダリティ (言語、画像、タンパク質配列) で SOTA 結果を達成していますが、欠点もあります。自己注意メカニズムの二次複雑性により、長い配列の分野での応用が制限されるのです。現在、研究者たちはこの問題を解決するために、多数の効率的な Transformer モデル (「xformer」) を提案しています。それらの多くは、セルフアテンションメカニズムのメモリの複雑さを効果的に削減しながら、オリジナルの Transformer に匹敵するパフォーマンスを示します。

Google と DeepMind の研究者は、これらの論文の評価と実験設定を比較し、次のことを発見しました。

  • まず、効率的なトランスフォーマーの統一されたベンチマークが不足しており、使用されるタスクの種類も多様です。各モデルは異なるタスクとデータセットで評価されます。

  • 第二に、評価に使用されるベンチマークは、タスクが長期モデリング評価に適しているかどうかを十分に考慮せずに恣意的に選択されることがよくあります。

  • 第三に、多くの論文では、帰納的バイアスの影響と事前トレーニングの利点が混同されており、モデルの真の価値が不明瞭になっています。事前トレーニング自体は計算集約的であり、帰納的バイアスを事前トレーニングから分離すると、xformer 研究の閾値を下げることができます。

そこで、Google と DeepMind の研究者は、長いコンテキストのシナリオにおけるシーケンス モデルのベンチマークを行うための新しいベンチマーク、Long-Range Arena (LRA) を提案しました。このベンチマークには合成タスクと現実世界のタスクの両方が含まれており、研究者らはこのベンチマークで、Sparse Transformers、Reformer、Linformer、Longformer、Sinkhorn Transformer、Performer、Synthesizer、Linear Transformer、BigBird モデルなど、最近提案された 10 個の効率的な Transformer モデルを比較しました。

このベンチマークは、長いコンテキストのシナリオにおけるモデルの機能に重点を置いていますが、研究者はさまざまなデータ タイプや条件にわたる xformer アーキテクチャの機能にも関心を持っています。したがって、ベンチマークでは、特定の事前構造を持つデータセットとタスクを選択します。たとえば、これらのアーキテクチャは、階層的に構造化された長いシーケンスや、何らかの形式の空間構造を含む長いシーケンスをモデル化できますか?これらのタスクは、シーケンスの長さが 1K から 16K トークンの範囲で、テキスト、自然画像、合成画像、類似性、構造​​、視覚空間推論を必要とする数式など、幅広いデータ タイプとモダリティをカバーします。このベンチマークは主に効率的なトランスフォーマーを対象としていますが、長いプログラムシーケンスをモデリングするためのベンチマークとしても使用できます。

モデル品質の比較に加えて、この研究では、効率性とメモリ使用量の広範な分析も実施しました。研究者たちは、並列パフォーマンス ベンチマークはコミュニティにとって有益かつ価値があり、誰もがこれらの方法の実際の効率性について理解を深めるのに役立つと考えています。要約すると、この研究では、効率的な Transformer モデルの単純な並列比較分析と、長時間実行されるシーケンス モデルのベンチマークの両方を実行できる統合フレームワークを提案しています。フレームワークは JAX/FLAX1 を使用して記述されています。

効率的な変圧器評価のための新しいベンチマーク: ロングレンジアリーナ (LRA)

ベースライン要件

LRA ベンチマークを作成する前に、研究者はいくつかの要件をリストしました。

  • 1. 普遍性: すべての効率的なトランスフォーマー モデルに適用可能。たとえば、すべての xformer モデルが自己回帰デコードを実行できるわけではないため、このベンチマークのタスクではエンコードのみが必要です。

  • 2. シンプルさ: タスク設定はシンプルにし、モデルの比較を複雑にする要素を排除する必要があります。これにより、大規模なパイプライン方式ではなく、シンプルなモデルが推奨されます。

  • 3. 挑戦的: タスクは、現在のモデルにとって十分に困難であり、この方向での将来の研究に十分な余地があることが保証される必要があります。

  • 4. 長い入力: さまざまなモデルが長距離の依存関係をどのように捉えるかを評価することが LRA ベンチマークの中心的な焦点であるため、入力シーケンスの長さは十分に長くする必要があります。

  • 5. 機能のさまざまな側面を調査する: タスク セットでは、モデリング関係や階層/空間構造、一般化機能など、モデルのさまざまな機能を評価する必要があります。

  • 6. リソースをあまり消費せず、使いやすい: ベンチマークは軽量で、産業グレードのコンピューティング リソースを持たない研究者でも簡単に使用できる必要があります。

タスク

LRA ベンチマークは、効率的な Transformer モデルのさまざまな機能を評価するように設計された複数のタスクで構成されています。具体的には、これらのタスクには、Long ListOps、ビットレベルのテキスト分類、ビットレベルのドキュメント検索、ピクセルシーケンスベースの画像分類、Pathfinder (長距離空間依存性)、Pathfinder-X (極端な長さでの長距離空間依存性) が含まれます。

LRAタスクに必要な注意

LRA ベンチマークの主な目標の 1 つは、効率的な Transformer モデルが長距離依存関係をキャプチャする能力を評価することです。入力をエンコードする際に注意機構が考慮する必要がある空間範囲を定量的に推定するために、本研究では「必要な注意持続時間」を提案した。注意モデルと入力トークン シーケンスが与えられた場合、注意モジュールに必要な注意範囲は、クエリ トークンと注目トークン間の平均距離になります。

図 2 は、LRA ベンチマークの各タスクに必要な注意持続時間をまとめたものです。各タスクに必要な注意持続時間が非常に長いことがわかります。これは、Transformer モデルにはローカル情報以上のものが含まれていることを示しています。多くのタスクとデータセットでは、アテンション メカニズムは隣接する位置からの情報を組み合わせる必要があることがよくあります。

実験

定量的な結果

実験結果によると、LRA のすべてのタスクは困難であり、異なる xformer モデルのパフォーマンスはある程度異なることがわかりました。具体的な結果は、以下の表 1 に示されています。

効率ベンチマーク

表 2 は、xformer モデルの効率ベンチマーク結果を示しています。

一般的に、低ランクモデルとカーネルベースのモデルが最も高速であることがわかります。全体的に最も速いモデルは Performer で、4k シーケンス長では Transformer の 5.7 倍高速であり、次に Linformer と Linear Transformer が続きます。最も遅いモデルは Reformer で、4k シーケンス長では Transformer の 80% の速度、1k シーケンス長では Transformer の半分の速度です。

さらに、研究者らはこれらのモデルのメモリ消費量も評価しました。結果によると、メモリ使用量が最も少ないモデルは Linformer で、4k シーケンス長で TPU あたり 0.99 GB しか使用しません。一方、元の Transformer は TPU あたり 9.48 GB を使用し、メモリ使用量が約 90% 削減されます。

全体的な結果: 万能のモデルは存在しない

研究者の分析によると、すべての LRA タスクにおいて総合的なパフォーマンスが最も優れている (LRA スコアが最も高い) モデルは BigBird です。ただし、BigBird はすべてのタスクで最高のパフォーマンスを発揮するわけではなく、すべてのタスクで優れたパフォーマンスを実現するだけです。 Performer と Linear Transformer はいくつかのタスクでは優れたパフォーマンスを発揮しましたが、平均スコアは ListOps タスクによって低下しました。

下の図 3 は、モデルのパフォーマンス、速度、およびメモリ使用量のトレードオフを示しています。 BigBird は最高のパフォーマンスを発揮しますが、その速度はオリジナルの Transformer とほぼ同じです。 Local Attention モデルは高速ですが、パフォーマンスは低くなります。これらのモデルの中で、カーネルベースのモデル (Performer、Linformer、Linear Transformer など) は、速度とパフォーマンスのバランスをより適切にとりながら、メモリ フットプリントも適切に抑えることができます。

<<:  アルゴリズムの時間計算量分析: Big O 表記

>>:  第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

ブログ    
ブログ    
ブログ    

推薦する

顔認識の時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

...

AIoTは自律時代を推進します。人工知能はIoTインフラに新たな競争上の優位性をもたらします。

人工知能とモノのインターネット (AIoT) は、テクノロジー分野における新しいプレーヤーの 1 つ...

人工知能の主な研究段階と将来の発展方向は何ですか?

人工知能は常にコンピュータ技術の最前線にあり、人工知能研究の理論と発見はコンピュータ技術の発展の方向...

...

医療業界における人工知能の応用が直面する5つの課題

ヘルスケアにおける人工知能 (AI) の実装に関する課題を特定することで、ヘルスケア提供者は適切な戦...

調査レポート:2021年の人工知能開発動向予測

人工知能技術の広範な応用は、私たちの生活と仕事のあらゆる側面に大きな影響を与えています。他のテクノロ...

AIがFBIに加わったとき、KGBはそれを専門家と呼んだ

「市の東にある家で爆弾が爆発しようとしています!」 「爆弾はネズミ捕り、ACデルコ社の単三電池、亜鉛...

詳細 | 顔認識が蔓延していますが、あなたの顔データを奪う権利は誰にあるのでしょうか?

記者 | 周一雪8月中旬のある日、北京市昌平区回龍観のコミュニティに住む王毅さんは、所有者グループの...

ChatGPTネットワーキング機能が正式に開始され、Plusメンバーが利用可能になりました

10月19日、チャットボットChatGPTはリリース以来、インターネットにアクセスできず、2021年...

...

伝説のゲーム開発者カーマック氏:汎用人工知能は2030年に誕生する

伝説のゲーム開発者ジョン・カーマック氏は、2030年頃に汎用人工知能(AGI)が登場する可能性がある...

人工知能業界における「人材獲得競争」をどう打破するか?

人材不足により人工知能業界全体の給与水準が上昇しており、有名企業の多くが「年俸13倍」「年俸15倍」...

台北の5G自動運転バスが試乗開始

「台北市信義路バスレーン自動運転バスイノベーション実験プロジェクト」は台北市で長らくテストされており...