トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

[[388464]]

Facebook AI は、新しいビデオ理解アーキテクチャ TimeSformer を発表しました。これは、Transformer を完全にベースとした初のビデオアーキテクチャでもあります。ビデオ編集の上限は数分に達し、現在の最高の 3D CNN をはるかに超え、コストも低くなります。

TimeSformer (Time-Space Transformer) は、Transformer のみをベースにした初のビデオアーキテクチャであり、近年、機械翻訳や一般的な言語理解など、多くの自然言語処理 (NLP) アプリケーションで定番のアプローチとなっています。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端の結果を達成しています。さらに、最新の 3D 畳み込みニューラルネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。これは、ビデオのリアルタイムまたはオンデマンド処理を必要とするアプリケーションをサポートするための重要なステップです。

さらに、TimeSformer はスケーラブルであり、より長いビデオクリップでより大きなモデルをトレーニングするために使用できます。これにより、AI システムは、複数の原子ステップを含むアクティビティ (車の修理、食事の準備など) など、ビデオ内のより複雑な人間の行動を理解できるようになります。複雑な人間の行動を理解する必要がある多くの AI アプリケーションが、この恩恵を受けることができます。

Kinetics-400 (左) および Kinetics-600 (右) アクション認識ベンチマークにおける TimeSformer と最先端の 3D 畳み込みニューラルネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を達成します。

時空間的注意

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。これらのフィルターは、局所的な時空間領域内の短期的なパターンを捕捉するのに効果的ですが、受容野を超えた時空間の依存関係をモデル化することはできません。

ただし、TimeSformer は Transformer で使用される自己注意メカニズムに基づいて完全に構築されているため、ビデオ全体の時空間依存関係をキャプチャできます。

Transformer をビデオに適用するために、TimeSformer は入力ビデオを、単一フレームから抽出された画像パッチの時空間シーケンスとして解釈します。この形式は NLP で使用される形式に似ており、Transformer は文を個々の単語から計算された特徴ベクトルのシーケンスとして扱います。

NLP トランスフォーマーが各単語を文中の他のすべての単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較してその意味を捉えます。これにより、隣接するパッチ間の短期的な依存関係だけでなく、離れたパッチ間の長期的な相関関係も把握できるようになります。

従来の 3D 畳み込みニューラルネットワークでは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストも高くなります。

TimeSformer は、1) ビデオを重複しないパッチの小さなセットに分解し、2) すべてのパッチの徹底的な比較を避けるために自己注意の形式を適用することで、計算コストを低く抑えます。私たちはこの方式を「時空間的注意」と呼びます。時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を適用すると、各パッチ (たとえば、下の図の青い四角) は、他のフレーム内の同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに t フレームが含まれている場合、各パッチで t 回の比較のみが実行されます。

空間注意を適用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。したがって、各フレームのパッチ数が n の場合、分割時空間注意ではパッチごとに (t + n) 回の比較しか実行できませんが、結合時空間注意網羅的ルールでは (t * n) 回の比較が必要です。さらに、この研究では、分割された時空間的注意は、共同の時空間的注意よりも効率的であるだけでなく、より正確であることも判明しました。

TimeSformer はスケーラブルであり、非常に長いクリップ (たとえば、102 秒の時間枠にわたる 96 フレームのシーケンス) で実行して、非常に長い時間枠にわたってモデリングを実行できます。これは、最大で数秒のクリップの処理に制限されている現在の 3D CNN とは大きく異なり、長時間のアクティビティを認識するための重要な要件です。

たとえば、フレンチトーストの作り方を紹介するビデオを見てください。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (たとえば、卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、個々の動作を分類するだけでは、複雑な活動を分類するには不十分です (多くのレシピでは卵を泡立てる作業が含まれます)。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳を混ぜることと卵を割ることなど) 間の明確な依存関係を明らかにすることができます。

TimeSformer の効率性により、高い空間解像度 (例: 最大 560 x 560 ピクセルのフレーム) と非常に長いビデオ (最大 96 フレーム) を持つモデルをトレーニングできます。これらのグラフは、空間解像度 (左) とビデオの長さ (右) の関数としてビデオ分類コスト (TFLOP) を示しています。これらの図から、特に大きなフレームや長いビデオに適用した場合、枯渇した時空間注意は枯渇した時空間共同注意よりも計算能力を大幅に節約できることがわかります。実際のアプリケーションでは、空間フレーム解像度が 448 ピクセルに達するか、フレーム数が 32 フレームに増加すると、共同時空間アテンションによって GPU メモリオーバーフローが発生し、大きなフレームや長いビデオには実質的に適さなくなります。

この図は、TimeSformer によって学習された自己注意ヒートマップを視覚化したものです。最初の行には元のフレームが表示され、2 行目ではビデオ分類の重要度に応じて各ピクセルの色に重みが付けられます (重要でないと判断されたピクセルは暗く表示されます)。図に示すように、TimeSformer はビデオ内の関連領域に焦点を当てて、複雑な時空間推論を実行することを学習します。

TimeSformerのビデオ編集は最大数分かかる

ビデオ理解モデルをトレーニングするために、現在の最先端の 3D CNN では、数秒の長さのビデオクリップしか使用できません。 TimeSformer を使用すると、最長数分の長いビデオクリップでトレーニングできます。これにより、ビデオ内の複雑で長い動作を機械が理解する研究が大きく前進する可能性があります。これは、人間の行動を理解して研究する多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブルカメラで撮影したビデオに基づくスマートアシスタントなどの将来のリアルタイムビデオ処理アプリケーションをサポートするための重要なステップです。 TimeSformer はコストを削減し、より多くの研究者がビデオ分析の問題に取り組むことができるようになり、この分野の進歩を加速させます。

<<: 2021年に注目すべき5つのロボットトレンド

>>: 人間と自律的に討論できる最強のAI討論機が登場。その脳内には4億件のニュース記事が保存されている。