Facebook AI は、新しいビデオ理解アーキテクチャ TimeSformer を発表しました。これは、Transformer を完全にベースとした初のビデオ アーキテクチャでもあります。ビデオ編集の上限は数分に達し、現在の最高の 3D CNN をはるかに超え、コストも低くなります。 TimeSformer (Time-Space Transformer) は、Transformer のみをベースにした初のビデオ アーキテクチャであり、近年、機械翻訳や一般的な言語理解など、多くの自然言語処理 (NLP) アプリケーションで定番のアプローチとなっています。 論文リンク: TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端の結果を達成しています。さらに、最新の 3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。これは、ビデオのリアルタイムまたはオンデマンド処理を必要とするアプリケーションをサポートするための重要なステップです。 さらに、TimeSformer はスケーラブルであり、より長いビデオ クリップでより大きなモデルをトレーニングするために使用できます。これにより、AI システムは、複数の原子ステップを含むアクティビティ (車の修理、食事の準備など) など、ビデオ内のより複雑な人間の行動を理解できるようになります。複雑な人間の行動を理解する必要がある多くの AI アプリケーションが、この恩恵を受けることができます。 Kinetics-400 (左) および Kinetics-600 (右) アクション認識ベンチマークにおける TimeSformer と最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を達成します。 時空間的注意従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。これらのフィルターは、局所的な時空間領域内の短期的なパターンを捕捉するのに効果的ですが、受容野を超えた時空間の依存関係をモデル化することはできません。 ただし、TimeSformer は Transformer で使用される自己注意メカニズムに基づいて完全に構築されているため、ビデオ全体の時空間依存関係をキャプチャできます。 Transformer をビデオに適用するために、TimeSformer は入力ビデオを、単一フレームから抽出された画像パッチの時空間シーケンスとして解釈します。この形式は NLP で使用される形式に似ており、Transformer は文を個々の単語から計算された特徴ベクトルのシーケンスとして扱います。 NLP トランスフォーマーが各単語を文中の他のすべての単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較してその意味を捉えます。これにより、隣接するパッチ間の短期的な依存関係だけでなく、離れたパッチ間の長期的な相関関係も把握できるようになります。 従来の 3D 畳み込みニューラル ネットワークでは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストも高くなります。 TimeSformer は、1) ビデオを重複しないパッチの小さなセットに分解し、2) すべてのパッチの徹底的な比較を避けるために自己注意の形式を適用することで、計算コストを低く抑えます。私たちはこの方式を「時空間的注意」と呼びます。時間的注意と空間的注意を順番に適用するという考え方です。 時間的注意を適用すると、各パッチ (たとえば、下の図の青い四角) は、他のフレーム内の同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに t フレームが含まれている場合、各パッチで t 回の比較のみが実行されます。 空間注意を適用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。したがって、各フレームのパッチ数が n の場合、分割時空間注意ではパッチごとに (t + n) 回の比較しか実行できませんが、結合時空間注意網羅的ルールでは (t * n) 回の比較が必要です。さらに、この研究では、分割された時空間的注意は、共同の時空間的注意よりも効率的であるだけでなく、より正確であることも判明しました。 TimeSformer はスケーラブルであり、非常に長いクリップ (たとえば、102 秒の時間枠にわたる 96 フレームのシーケンス) で実行して、非常に長い時間枠にわたってモデリングを実行できます。これは、最大で数秒のクリップの処理に制限されている現在の 3D CNN とは大きく異なり、長時間のアクティビティを認識するための重要な要件です。
TimeSformer の効率性により、高い空間解像度 (例: 最大 560 x 560 ピクセルのフレーム) と非常に長いビデオ (最大 96 フレーム) を持つモデルをトレーニングできます。これらのグラフは、空間解像度 (左) とビデオの長さ (右) の関数としてビデオ分類コスト (TFLOP) を示しています。これらの図から、特に大きなフレームや長いビデオに適用した場合、枯渇した時空間注意は枯渇した時空間共同注意よりも計算能力を大幅に節約できることがわかります。実際のアプリケーションでは、空間フレーム解像度が 448 ピクセルに達するか、フレーム数が 32 フレームに増加すると、共同時空間アテンションによって GPU メモリ オーバーフローが発生し、大きなフレームや長いビデオには実質的に適さなくなります。 この図は、TimeSformer によって学習された自己注意ヒートマップを視覚化したものです。最初の行には元のフレームが表示され、2 行目ではビデオ分類の重要度に応じて各ピクセルの色に重みが付けられます (重要でないと判断されたピクセルは暗く表示されます)。図に示すように、TimeSformer はビデオ内の関連領域に焦点を当てて、複雑な時空間推論を実行することを学習します。 TimeSformerのビデオ編集は最大数分かかるビデオ理解モデルをトレーニングするために、現在の最先端の 3D CNN では、数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、最長数分の長いビデオ クリップでトレーニングできます。これにより、ビデオ内の複雑で長い動作を機械が理解する研究が大きく前進する可能性があります。これは、人間の行動を理解して研究する多くの AI アプリケーションにとって重要なステップです。 さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラで撮影したビデオに基づくスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションをサポートするための重要なステップです。 TimeSformer はコストを削減し、より多くの研究者がビデオ分析の問題に取り組むことができるようになり、この分野の進歩を加速させます。 |
>>: 人間と自律的に討論できる最強のAI討論機が登場。その脳内には4億件のニュース記事が保存されている。
Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...
[[350210]]今日、私たちが建物について語るとき、それは単なる外殻を意味するのではなく、さま...
大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的です...
今年の大学入試には最初から最後までAIが登場した。 2020年の大学入試は史上最難関と言っても過言で...
揚子晩報は4月12日(蒋桂東特派員、範牧暁子記者)に、揚州市在住の張さんがオランダ花海風景区を訪れた...
JD.comでは以前から物流ロボットを活用しているといわれています。東莞市麻容のJD仕分けセンター...
人工知能(AI)は急速に進歩していますが、人間にとってその強力なモデルは「ブラックボックス」です。モ...
英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...
[元記事は51CTO.comより]最近、エンターテインメントビッグデータアプリケーションサービスプロ...
インテリジェントなモノのインターネット(AIoT)は、2018年に登場した概念です。さまざまな情報セ...
OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...