トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

[[388464]]

Facebook AI は、新しいビデオ理解アーキテクチャ TimeSformer を発表しました。これは、Transformer を完全にベースとした初のビデオ アーキテクチャでもあります。ビデオ編集の上限は数分に達し、現在の最高の 3D CNN をはるかに超え、コストも低くなります。

TimeSformer (Time-Space Transformer) は、Transformer のみをベースにした初のビデオ アーキテクチャであり、近年、機械翻訳や一般的な言語理解など、多くの自然言語処理 (NLP) アプリケーションで定番のアプローチとなっています。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端の結果を達成しています。さらに、最新の 3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。これは、ビデオのリアルタイムまたはオンデマンド処理を必要とするアプリケーションをサポートするための重要なステップです。

さらに、TimeSformer はスケーラブルであり、より長いビデオ クリップでより大きなモデルをトレーニングするために使用できます。これにより、AI システムは、複数の原子ステップを含むアクティビティ (車の修理、食事の準備など) など、ビデオ内のより複雑な人間の行動を理解できるようになります。複雑な人間の行動を理解する必要がある多くの AI アプリケーションが、この恩恵を受けることができます。

Kinetics-400 (左) および Kinetics-600 (右) アクション認識ベンチマークにおける TimeSformer と最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を達成します。

時空間的注意

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。これらのフィルターは、局所的な時空間領域内の短期的なパターンを捕捉するのに効果的ですが、受容野を超えた時空間の依存関係をモデル化することはできません。

ただし、TimeSformer は Transformer で使用される自己注意メカニズムに基づいて完全に構築されているため、ビデオ全体の時空間依存関係をキャプチャできます。

Transformer をビデオに適用するために、TimeSformer は入力ビデオを、単一フレームから抽出された画像パッチの時空間シーケンスとして解釈します。この形式は NLP で使用される形式に似ており、Transformer は文を個々の単語から計算された特徴ベクトルのシーケンスとして扱います。

NLP トランスフォーマーが各単語を文中の他のすべての単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較してその意味を捉えます。これにより、隣接するパッチ間の短期的な依存関係だけでなく、離れたパッチ間の長期的な相関関係も把握できるようになります。

従来の 3D 畳み込みニューラル ネットワークでは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストも高くなります。

TimeSformer は、1) ビデオを重複しないパッチの小さなセットに分解し、2) すべてのパッチの徹底的な比較を避けるために自己注意の形式を適用することで、計算コストを低く抑えます。私たちはこの方式を「時空間的注意」と呼びます。時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を適用すると、各パッチ (たとえば、下の図の青い四角) は、他のフレーム内の同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに t フレームが含まれている場合、各パッチで t 回の比較のみが実行されます。

空間注意を適用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。したがって、各フレームのパッチ数が n の場合、分割時空間注意ではパッチごとに (t + n) 回の比較しか実行できませんが、結合時空間注意網羅的ルールでは (t * n) 回の比較が必要です。さらに、この研究では、分割された時空間的注意は、共同の時空間的注意よりも効率的であるだけでなく、より正確であることも判明しました。

TimeSformer はスケーラブルであり、非常に長いクリップ (たとえば、102 秒の時間枠にわたる 96 フレームのシーケンス) で実行して、非常に長い時間枠にわたってモデリングを実行できます。これは、最大で数秒のクリップの処理に制限されている現在の 3D CNN とは大きく異なり、長時間のアクティビティを認識するための重要な要件です。


たとえば、フレンチトーストの作り方を紹介するビデオを見てください。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (たとえば、卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、個々の動作を分類するだけでは、複雑な活動を分類するには不十分です (多くのレシピでは卵を泡立てる作業が含まれます)。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳を混ぜることと卵を割ることなど) 間の明確な依存関係を明らかにすることができます。

TimeSformer の効率性により、高い空間解像度 (例: 最大 560 x 560 ピクセルのフレーム) と非常に長いビデオ (最大 96 フレーム) を持つモデルをトレーニングできます。これらのグラフは、空間解像度 (左) とビデオの長さ (右) の関数としてビデオ分類コスト (TFLOP) を示しています。これらの図から、特に大きなフレームや長いビデオに適用した場合、枯渇した時空間注意は枯渇した時空間共同注意よりも計算能力を大幅に節約できることがわかります。実際のアプリケーションでは、空間フレーム解像度が 448 ピクセルに達するか、フレーム数が 32 フレームに増加すると、共同時空間アテンションによって GPU メモリ オーバーフローが発生し、大きなフレームや長いビデオには実質的に適さなくなります。

この図は、TimeSformer によって学習された自己注意ヒートマップを視覚化したものです。最初の行には元のフレームが表示され、2 行目ではビデオ分類の重要度に応じて各ピクセルの色に重みが付けられます (重要でないと判断されたピクセルは暗く表示されます)。図に示すように、TimeSformer はビデオ内の関連領域に焦点を当てて、複雑な時空間推論を実行することを学習します。

TimeSformerのビデオ編集は最大数分かかる

ビデオ理解モデルをトレーニングするために、現在の最先端の 3D CNN では、数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、最長数分の長いビデオ クリップでトレーニングできます。これにより、ビデオ内の複雑で長い動作を機械が理解する研究が大きく前進する可能性があります。これは、人間の行動を理解して研究する多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラで撮影したビデオに基づくスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションをサポートするための重要なステップです。 TimeSformer はコストを削減し、より多くの研究者がビデオ分析の問題に取り組むことができるようになり、この分野の進歩を加速させます。

<<:  2021年に注目すべき5つのロボットトレンド

>>:  人間と自律的に討論できる最強のAI討論機が登場。その脳内には4億件のニュース記事が保存されている。

ブログ    

推薦する

10年後に人工知能のリーダーとなる国はどこでしょうか?アメリカ国民:中国であるべきだ

ロシアメディアは、中国の人工知能(AI)産業の急速な発展を背景に、米シンクタンクのブルッキングス研究...

比較分析に基づく人工知能技術の革新の道筋に関する研究

1. はじめに人工知能(AI)技術は1950年代に誕生し、現在では最も最先端かつ最も普及しているハイ...

...

クンペンが離陸、ソフトコムが道路を建設、ソフトコム・ウィズダムがファーウェイと手を組み、済南を科学技術革新の高原に築く

10月21日、「泉城の知能、万里の昇り」をテーマにした2020年中国人工知能産業サミットと昇りコンピ...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

高精度なCVモデルを取得するには? Baidu EasyDLの超大規模ビジュアル事前トレーニングモデルをぜひお試しください

ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優...

人工知能がメモリ相互接続の進化を推進

人工知能(AI)や自動車用チップの複雑さが徐々に増し、エッジ処理の割合も増加するにつれて、ストレージ...

清華大学は顔認識技術に脆弱性を発見、セキュリティ問題を真剣に受け止める必要がある

このテストでは合計20台の携帯電話が選ばれ、そのうち1台は海外製、残りの19台は国内トップ5の携帯電...

「三銃士」グループは、鉱業の諜報活動への発展を促進するためにデビューしました

我が国は鉱物資源が豊富な国であり、石炭、金属、その他の鉱物の生産地が非常に多く、我が国の鉱業開発は常...

「チューリップ」は、感染症予防・抑制期間中に政府情報へのアクセスを容易にするためのインテリジェントな質疑応答アシスタントを作成します。

突然の感染拡大に直面し、国民は情報の適時性、透明性、伝達効率にさらに注目するようになった。このような...

53ページのPDFがOpenAIの「AGIタイムライン」を公開、内部告発者:マスクの訴訟が状況を混乱させた

OpenAI の謎の Q* プロジェクトに関する新たな情報があります。今朝早く、54ページに及ぶGo...

...

ChatGPT-4、Bard、Claude-2、Copilot空間タスクの正確性の比較

大規模言語モデル (LLM) を含む生成 AI は、エンコード、空間計算、サンプル データ生成、時系...

...

WeChat AIがGoogleを超え、NLP分野で新たな世界初を獲得

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...