Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニング速度が速く、計算コストが低い新しいビデオ理解アーキテクチャを提案しました。 TimeSformer は、Transformer を完全にベースとした最初のビデオ フレームワークです。近年、トランスフォーマーは、機械翻訳、一般的な言語理解など、自然言語処理 (NLP) の分野における多くのアプリケーションの主要なアプローチとなっています。 TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端のパフォーマンスを実現します。さらに、3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。 論文リンク: さらに、TimeSformer のスケーラビリティにより、より長いビデオ クリップでより大きなモデルをトレーニングすることが可能になります。これにより、AI システムがビデオ内のより複雑な人間の行動を理解できるようになるため、複雑な人間の行動を理解する必要がある AI アプリケーションにとって非常に有益です。 2 つのアクション認識ベンチマーク、Kinetics-400 (左) と Kinetics-600 (右) における、TimeSformer と現在の最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を実現します。 TimeSformer: 新しいビデオ理解アーキテクチャ 従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。このようなフィルタは、局所的な時空間領域内の短距離パターンを捕捉するのに効果的ですが、受容野を超えた時空間依存性をモデル化することはできません。 TimeSformer は、Transformer モデルで使用される自己注意メカニズムに基づいて構築されており、ビデオ全体の時空間依存性をキャプチャすることを可能にします。 Transformer をビデオに適用するために、モデルは入力ビデオを各フレームから抽出された画像パッチの時空間シーケンスとして解釈します。 この形式は NLP で使用される形式に似ており、Transformer は文を各単語から計算された特徴ベクトルのシーケンスとして見なします。 NLP Transformer が各単語を文中の他の単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較して意味を捉えます。これはいわゆる自己注意メカニズムでもあり、隣接するパッチ間の短距離の依存関係だけでなく、離れたパッチ間の長距離の相関関係も捉えることが可能になります。 従来の 3D 畳み込みニューラル ネットワークは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストが高くなります。 TimeSformer は、(1) ビデオを重複しないパッチのセットに分解し、(2) 自己注意を使用してすべてのパッチ ペアの徹底的な比較を回避するため、計算コストが低くなります。研究者たちはこの方式を「分割空間時間的注意」と呼んでおり、時間的注意と空間的注意を順番に適用するという考え方です。 時間的注意を使用する場合、各パッチ (下の図の青い四角など) は、他のフレームの同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに T フレームが含まれている場合、各パッチは時間的に T 回だけ比較されます。空間注意を使用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。 したがって、各フレームのパッチの数を N とすると、分割された時空間的注意では、結合時空間的注意アプローチで必要な (T×N) 回の比較ではなく、パッチごとに合計 (T+N) 回の比較のみが実行されます。さらに、この研究では、分割された空間的・時間的注意は、共同空間的・時間的注意と比較して、より効果的であるだけでなく、より正確であることも判明しました。 TimeSformer のスケーラビリティにより、非常に長いクリップ (例: 102 秒の 96 フレーム シーケンス) で実行して、現在の 3D CNN とは大きく異なる超長距離の時間モデリングを実行できます。後者は、最大で数秒のフラグメントの処理に制限されています。長期にわたる活動を特定することは重要な要件です。 例えば、フレンチトーストを作る動画があるとします。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、複雑な活動を分類するには、個々のアクションを分類するだけでは十分ではありません。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳と溶き卵を混ぜるなど) 間の明示的な依存関係を明らかにします。 TimeSformer の効率性により、高い空間解像度 (最大 560 x 560 ピクセルのフレームなど) や長いビデオ (最大 96 フレームを含む) でモデルをトレーニングすることが可能になります。 上の図は、TimeSformer によって学習された自己注意ヒートマップの視覚化を示しています。最初の行は元のフレームで、2 行目は自己注意によって与えられたビデオ分類に対する重要度によって各ピクセルの色に重み付けします (重要でないと見なされたピクセルは暗く表示されます)。 TimeSformer は、ビデオ内の関連領域に注目して複雑な時空間推論を実行することを学習します。 より多くの分野で開発を促進する ビデオ理解モデルをトレーニングするには、現在の最高の 3D CNN では数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、より長いビデオ クリップ (最大数分) でトレーニングすることが可能です。これにより、ビデオ内の複雑で長いアクションを機械に理解させる研究が大きく前進する可能性があります。これは、AI アシスタントなど、人間の行動を理解することを目的とする多くの AI アプリケーションにとって重要なステップです。 さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラからのビデオを提供するスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションに向けた重要なステップです。研究者たちは、この方法のコスト削減により、より多くの研究者がビデオ分析の問題に取り組むことができ、その結果、この分野の研究の進歩が加速すると考えています。 |
<<: 世界最大の公開顔データセット | 清華大学と信義科技が共同リリース
>>: 顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?
ロボットの知能化に向けた開発において、マルチロボット協働システムは包括的な技術統合プラットフォームで...
北京時間の今朝早く、SpaceXは再び人類を宇宙に送り出すことに成功した。これは、米国の民間航空宇宙...
18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...
本日、北京大学国家ソフトウェア工学研究センター知識コンピューティング実験室と四川天府銀行AI実験室は...
顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...
Tinygrad は、ニューラル ネットワークを理解して実装するためのシンプルで直感的なアプローチ...
この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...
石油は産業の血液であるだけでなく、私たちの日常生活にも深く関わっていることは周知の事実です。統計によ...
あらゆる分野のビジネスリーダーは人工知能の価値を認識していますが、それを適切に使用することによっての...
生成モデルとシーケンス モデルは、常に私を魅了してきました。これらのモデルは、機械学習を初めて学ぶと...
[[424943]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
Microsoft は、仮想会議用に Mesh for Teams と呼ばれる没入型 3D プラット...
人工知能は、既存の技術と組織活動の効率を向上させることを目的としています。しかし、気候変動や、グリー...
北京時間7月23日、テスラのCEOイーロン・マスク氏は水曜日、人工知能(AI)の将来についての懸念を...