畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

Facebook AI は、Transformer を完全にベースとし、畳み込みが不要で、トレーニング速度が速く、計算コストが低い新しいビデオ理解アーキテクチャを提案しました。

TimeSformer は、Transformer を完全にベースとした最初のビデオ フレームワークです。近年、トランスフォーマーは、機械翻訳、一般的な言語理解など、自然言語処理 (NLP) の分野における多くのアプリケーションの主要なアプローチとなっています。

TimeSformer は、Kinetics-400 アクション認識データセットを含むいくつかの難しいアクション認識ベンチマークで最先端のパフォーマンスを実現します。さらに、3D 畳み込みニューラル ネットワーク (CNN) と比較すると、TimeSformer はトレーニングが約 3 倍高速で、推論に必要な計算量は 10 分の 1 以下です。

論文リンク:
出典: http://arxiv.org/pdf/2102.05095.pdf

さらに、TimeSformer のスケーラビリティにより、より長いビデオ クリップでより大きなモデルをトレーニングすることが可能になります。これにより、AI システムがビデオ内のより複雑な人間の行動を理解できるようになるため、複雑な人間の行動を理解する必要がある AI アプリケーションにとって非常に有益です。

2 つのアクション認識ベンチマーク、Kinetics-400 (左) と Kinetics-600 (右) における、TimeSformer と現在の最先端の 3D 畳み込みニューラル ネットワークのビデオ分類精度の比較。 TimeSformer は両方のデータセットで最高の精度を実現します。

TimeSformer: 新しいビデオ理解アーキテクチャ

従来のビデオ分類モデルでは、3D 畳み込みフィルターが使用されます。このようなフィルタは、局所的な時空間領域内の短距離パターンを捕捉するのに効果的ですが、受容野を超えた時空間依存性をモデル化することはできません。

TimeSformer は、Transformer モデルで使用される自己注意メカニズムに基づいて構築されており、ビデオ全体の時空間依存性をキャプチャすることを可能にします。 Transformer をビデオに適用するために、モデルは入力ビデオを各フレームから抽出された画像パッチの時空間シーケンスとして解釈します。

この形式は NLP で使用される形式に似ており、Transformer は文を各単語から計算された特徴ベクトルのシーケンスとして見なします。 NLP Transformer が各単語を文中の他の単語と比較して意味を推測するのと同様に、このモデルは各パッチをビデオ内の他のパッチと明示的に比較して意味を捉えます。これはいわゆる自己注意メカニズムでもあり、隣接するパッチ間の短距離の依存関係だけでなく、離れたパッチ間の長距離の相関関係も捉えることが可能になります。

従来の 3D 畳み込みニューラル ネットワークは、ビデオ内のすべての時空間位置で多数のフィルターを使用する必要があるため、計算コストが高くなります。 TimeSformer は、(1) ビデオを重複しないパッチのセットに分解し、(2) 自己注意を使用してすべてのパッチ ペアの徹底的な比較を回避するため、計算コストが低くなります。研究者たちはこの方式を「分割空間時間的注意」と呼んでおり、時間的注意と空間的注意を順番に適用するという考え方です。

時間的注意を使用する場合、各パッチ (下の図の青い四角など) は、他のフレームの同じ空間位置にあるパッチ (緑の四角) とのみ比較されます。ビデオに T フレームが含まれている場合、各パッチは時間的に T 回だけ比較されます。空間注意を使用する場合、各パッチは同じフレーム内のパッチ (赤いパッチ) とのみ比較されます。

したがって、各フレームのパッチの数を N とすると、分割された時空間的注意では、結合時空間的注意アプローチで必要な (T×N) 回の比較ではなく、パッチごとに合計 (T+N) 回の比較のみが実行されます。さらに、この研究では、分割された空間的・時間的注意は、共同空間的・時間的注意と比較して、より効果的であるだけでなく、より正確であることも判明しました。

TimeSformer のスケーラビリティにより、非常に長いクリップ (例: 102 秒の 96 フレーム シーケンス) で実行して、現在の 3D CNN とは大きく異なる超長距離の時間モデリングを実行できます。後者は、最大で数秒のフラグメントの処理に制限されています。長期にわたる活動を特定することは重要な要件です。

例えば、フレンチトーストを作る動画があるとします。一度に数秒ずつ分析する AI モデルは、いくつかの原子動作 (卵を割る、ボウルに牛乳を注ぐなど) を識別できる可能性があります。しかし、複雑な活動を分類するには、個々のアクションを分類するだけでは十分ではありません。 TimeSformer は、より長い時間枠にわたってビデオを分析し、原子動作 (牛乳と溶き卵を混ぜるなど) 間の明示的な依存関係を明らかにします。

TimeSformer の効率性により、高い空間解像度 (最大 560 x 560 ピクセルのフレームなど) や長いビデオ (最大 96 フレームを含む) でモデルをトレーニングすることが可能になります。

上の図は、TimeSformer によって学習された自己注意ヒートマップの視覚化を示しています。最初の行は元のフレームで、2 行目は自己注意によって与えられたビデオ分類に対する重要度によって各ピクセルの色に重み付けします (重要でないと見なされたピクセルは暗く表示されます)。 TimeSformer は、ビデオ内の関連領域に注目して複雑な時空間推論を実行することを学習します。

より多くの分野で開発を促進する

ビデオ理解モデルをトレーニングするには、現在の最高の 3D CNN では数秒の長さのビデオ クリップしか使用できません。 TimeSformer を使用すると、より長いビデオ クリップ (最大数分) でトレーニングすることが可能です。これにより、ビデオ内の複雑で長いアクションを機械に理解させる研究が大きく前進する可能性があります。これは、AI アシスタントなど、人間の行動を理解することを目的とする多くの AI アプリケーションにとって重要なステップです。

さらに、TimeSformer の推論コストが低いことは、AR/VR やウェアラブル カメラからのビデオを提供するスマート アシスタントなどの将来のリアルタイム ビデオ処理アプリケーションに向けた重要なステップです。研究者たちは、この方法のコスト削減により、より多くの研究者がビデオ分析の問題に取り組むことができ、その結果、この分野の研究の進歩が加速すると考えています。

<<:  世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

>>:  顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

ブログ    
ブログ    

推薦する

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

7月5日のニュース、6月28日、OpenAIのチャットボットChatGPTは、MicrosoftのB...

オープンソース!香港中文大学、MIT、復旦大学が初のRNA基礎モデルを提案

タンパク質分野とは異なり、RNA 分野の研究では十分な注釈付きデータが不足していることがよくあります...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

これは本当に天才的ですね!パーセプトロンを組み合わせると、ニューラル ネットワークになるのではないでしょうか。

[[354709]]みなさんこんにちは。今日もディープラーニングについてお話していきましょう。クラ...

シテチがスマートシティ建設に新たな活力を注入

[51CTO.comからのオリジナル記事] モノのインターネットの台頭により、スマートハードウェアと...

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

「アバター」の脳-脳インターフェースの性能は2~3桁向上した

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

プログラマー育成ウェブサイトProgramizは10月18日、ChatGPTがプログラミング教育分野...

...

業界大混乱! 2020年に人工知能がIT業界にもたらす4つの変化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

テクノロジー大手は疑似環境の仮面を脱ぎ捨て、AIの積極的な開発によりエネルギー消費が増加している

9月4日のニュースによると、マイクロソフト、アマゾン、グーグル、フェイスブックの親会社であるMeta...

人工知能時代のセキュリティ専門職とは?

人工知能の時代におけるセキュリティ専門職は何かという問題は、徐々に人々が直面しなければならない問題に...

銀行における会話型 AI – 企業が犯しがちな 3 つの間違い

金融サービス業界は、特定の金融プロセスに不可欠なレガシー機器やシステムを使用しているため、他の業界に...

...