注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミック カットアウト」モデルをリリース

注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミック カットアウト」モデルをリリース

[[437774]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像の最初のフレームと境界のヒントだけで、ビデオ内のオブジェクトを「切り取り」その軌跡を追跡できます。

上記はGoogleの最新の研究結果です。

この方法は、ビデオに注目メカニズムを導入することで、教師なし学習を使用した従来のマルチターゲットセグメンテーションおよび追跡方法の欠点の一部をうまく解決します。

今では、より多様で視覚的に複雑なビデオに一般化できるだけでなく、より長いビデオシーケンスも処理できるようになりました。

実験では、以前のモデルと比較して、Google の新しい方法により、MOVi データセットの mIoU が約 30%直接改善されることも判明しました。

「ダイナミックカットアウト」の注目メカニズムの紹介

この方法はSAVi (Slot Attention for Video) と呼ばれます。

これまでの教師なしオブジェクトセグメンテーションおよび追跡方法の最大の問題は、非常に単純なビデオにしか適用できないことです。

より複雑な視覚効果を持つビデオを処理するために、SAVi は弱教師あり学習を使用します。

(1)オプティカルフロー予測を訓練目標とし、注意メカニズムを導入する。

(2)セグメンテーションのガイダンスを提供するために、最初のフレーム(通常はセグメンテーションされるフレーム、またはオブジェクト上の単一点の座標)に初期ヒントを与えます。

具体的には、常微分方程式に対する「予測子-修正子」アプローチにヒントを得て、SAVi は可視ビデオ フレームごとに予測と修正の手順を実行します。

他のオブジェクトとの相互作用を含む、時間の経過に伴うビデオ オブジェクトの状態を記述するために、SAVi はオプティカル フロー予測を行うときにスロット間の自己注意を使用します。

スロットとは、ビデオ内の異なる色で区別されるオブジェクトのことです。

修正フェーズでは、入力とのスロット正規化クロスアテンションを使用して、スロット表現セットを修正 (更新) します。

次に、予測子の出力を使用して時間の経過とともに補正子を初期化し、モデルが最終的に時間の経過とともに一貫した方法でオブジェクトを追跡できるようにします。

△ SAViモデルアーキテクチャ図

トレーニング中、各ビデオは 6 つの 6 フレームのサブシーケンスに分割され、最初のフレームはキュー信号を受信し、フレームごとに 2 ラウンドのスロット アテンションを受け取ります。

完全に教師なしのビデオセグメンテーションでは、研究者らはバッチサイズ 64 で 100,000 ステップのトレーニングを行いました。

プロンプトがなくても、簡単なビデオセグメンテーションとトラッキングを実行できます。

CATER データセットでは、テストにより、SAVi アーキテクチャが教師なしオブジェクト表現学習に完全に適用可能であることが示されています。

オプティカルフロー条件の監視下で、SAVi は MOVi データセットで 72.1% mIoU を達成しました。これは、ベースライン モデル CRW および T-VOS よりもそれぞれ約 30% と 20% 高い値です

SAVi は MOVi++ データセットで 45.9% の mIoU スコアを達成しました。これは T-VOS よりわずかに高く、CRW より 5% 低い値です。

さらに、最初のフレームに重心の形でヒントを与えることは、境界ボックスよりもわずかに優れていることがわかりますが、その差は大きくありません。

ヒントがなくても、この方法では Sketchy データセットなどの単純なテクスチャを使用していくつかの動的なシーンをセグメント化できることは注目に値します。

ただし、SAVi を複雑な現実世界のビデオに完全に適用するには、克服すべき課題がまだいくつかあります。

1. 使用されるトレーニング方法では、トレーニング中に時間フロー情報が利用可能であると想定していますが、実際のビデオではそうではありません。

2. この研究はいくつかの単純な物体の基本的な動きを扱っていますが、現実はこれよりもはるかに複雑です

最後に、著者らは、SAVi はセグメンテーションと追跡において依然として優れたパフォーマンスを発揮し、最初のフレームでヒントを提供するという実践は、関連するさまざまな半教師あり手法にもつながる可能性があると述べました

論文の宛先:
https://arxiv.org/abs.2111.12594

<<:  AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

>>:  将来、人工知能によって一般の人々は職を失うことになるのでしょうか?マスク氏の答えを見てください。

ブログ    

推薦する

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...

IDC:中国のAIパブリッククラウド市場は2022年にトレンドに逆らって成長し、成長率は80.6%になる

最近、IDCは「IDC中国AIパブリッククラウドサービス市場シェア、2022」レポートを発表しました...

すごい...正義のために親族を殺す? Google AI、米国の月面着陸写真は偽物だと判定

1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...

ロボティック プロセス オートメーションとスマート データ センターの未来

多くの人がロボットについて考えるとき、金属製のヒューマノイド、あるいはテレビ番組で互いに競い合うイン...

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...

...

エッジAIはテクノロジー業界に大きな変化をもたらしている

近年、人工知能 (AI) の出現により、私たちの産業や個人の生活は真に革命的な変化を遂げ、これまでに...

スマートカーシステムへの生体認証技術の統合

近年、自動車業界はインテリジェント車両システムの出現により大きな変化を遂げています。これらのシステム...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

孔俊:中国は人工知能の軍事応用を規制する措置を講じている

2021年8月29日、カブールの空に大きな爆発音が響き、米軍の無人機が7人の子供を含む10人の罪のな...

PaddlePaddle を使い始める: 対話システムにおける感情分析から始める

1. 背景人工知能の時代では、さまざまなディープラーニングフレームワークが普及しており、フレームワー...

デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

12月19日、デンマーク工科大学のスニ・レーマン・ヨルゲンセン氏と彼のチームは、保険業界で使用されて...

TextRankアルゴリズムを使用した自動テキスト要約

【51CTO.com クイック翻訳】1. はじめにテキスト要約は、自然言語処理 (NLP) の分野に...

強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります...

キッシンジャー:今やAIは人間が世界を理解するための第3の方法となっている

2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...