1.4GB 未満のビデオメモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープンソースです。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

なあ、藤原千花はなんで急に「高温レッドバージョン」になったんだ？

この大きな紫色の手はサノスの生まれ変わりなのでしょうか？ ?

上記の効果が単にオブジェクトの後処理による色付けだと考えているなら、あなたは AI に騙されています。

これらの奇妙な色は、実際にはビデオオブジェクトのセグメンテーションを表しています。

しかし、u1s1、この効果は一見すると本当にわかりにくいです。

可愛い女の子の髪が舞い散ったり、

または、タオルの形状が変わり、物体が互いに遮られることがあります。

AI によるターゲットのセグメンテーションは、まるで色が「溶接」されているかのようにシームレスであると言えます。

この方法は、オブジェクトを高精度にセグメント化できるだけでなく、 10,000 フレームを超えるビデオを処理することもできます。

さらに、セグメンテーション効果は常に同じレベルに保たれ、ビデオの後半部分は依然としてスムーズで繊細です。

さらに驚くべきことは、この方法では高い GPU 要件が必要ないことです。

研究者らは、実験中、この方法では1.4GBを超える GPU メモリが消費されることはなかったと述べています。

現在のアテンションメカニズムに基づく同様の方法では、一般的な消費者向けグラフィックカードでは 1 分を超えるビデオを処理することすらできないことに注意してください。

これは、イリノイ大学アーバナ・シャンペーン校の学者によって最近提案された、長時間ビデオオブジェクト分割方法XMemです。

ECCV 2022に承認され、コードはオープンソース化されました。

このような滑らかな効果は、Reddit で多くのネットユーザーを魅了し、人気は 800 を超えました。

ネットユーザーは冗談を言っている。

なぜ手を紫色に塗るのですか?

サノスがコンピュータービジョンを趣味としているかどうか知っている人はいますか?

人間の記憶を模倣する

既存のビデオオブジェクトセグメンテーション方法は多数ありますが、処理速度が遅かったり、GPU に対する要件が高かったり、精度が十分でなかったりします。

本論文で提案する方法は、上記3つの側面を考慮していると言えます。

長い動画内のオブジェクトを素早くセグメント化できるだけでなく、フレームレートは 20FPS に達し、通常の GPU でも完了できます。

特別なのは、人間の記憶パターンにインスピレーションを得ていることです。

1968年、心理学者のアトキンソンとシフリンはアトキンソン-シフリン記憶モデルを提唱しました。

このモデルでは、人間の記憶は瞬間記憶、短期記憶、長期記憶の 3 つのモードに分けられると考えられています。

研究者らは上記のモデルを参考に、AIフレームワークを3つのメモリモードに分割しました。彼らです：

リアルタイムで更新される瞬時メモリ
高解像度のワーキングメモリ
高密度の長期記憶。

このうち一時メモリは、画像内の画像情報を記録するためにフレームごとに 1 回更新されます。

作業メモリは一時メモリから画像情報を収集し、r フレームごとに更新されます。

作業記憶が飽和すると、圧縮されて長期記憶に移されます。

長期記憶が飽和状態になると、古くなった特徴は時間の経過とともに忘れ去られます。通常、これは数千のフレームを処理した後に発生します。

こうすることで、時間の経過とともに GPU メモリが不足することがなくなります。

通常、ビデオ内のオブジェクトのセグメンテーションは、最初のフレームに画像とオブジェクトマスクを指定して実行され、その後、モデルが関連するオブジェクトを追跡し、後続のフレームに対応するマスクを生成します。

具体的には、XMem が 1 つのフレームを処理するプロセスは次のとおりです。

AI フレームワーク全体は、3 つのエンドツーエンドの畳み込みネットワークで構成されています。

クエリエンコーダーは、クエリ固有の画像機能を追跡および抽出するために使用されます。

デコーダーは、メモリ読み取りステップの出力を取得してオブジェクトマスクを生成する役割を担います。

値エンコーダーは、画像とターゲットマスクを組み合わせて、新しいメモリ機能を抽出します。

最終値エンコーダーによって抽出された特徴値は作業メモリに追加されます。

実験結果から判断すると、この方法は短いビデオと長いビデオの両方で SOTA を達成しました。

長いビデオを処理する場合、フレーム数が増えても XMem のパフォーマンスは低下しません。

研究チーム

著者の一人は中国人のHo Kei (Rex) Chengです。

彼は香港科技大学で修士号を取得し、現在はイリノイ大学アーバナ・シャンペーン校で博士課程に在籍しています。

彼の研究分野はコンピュータービジョンです。

彼の論文のいくつかは、CVPR、NeurIPS、ECCV などのトップカンファレンスで採択されています。

もう一人の著者は Alexander G. Schwing です。

彼は現在、イリノイ大学アーバナ・シャンペーン校の助教授であり、ETHチューリッヒで博士号を取得しています。

彼の研究対象には機械学習とコンピュータービジョンが含まれます。

論文の宛先:
https://arxiv.org/abs/2207.07115

GitHub:
https://github.com/hkchengrex/XMem

<<: 気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは？

>>: 農業ロボットは好機を迎え、10億ドル規模のビジネスになりつつある

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

ブログ

任澤平：「新インフラ」は時代の痕跡を刻む

ブログ

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

ブログ

クアルコム副社長ライナー・クレメント氏：「5G+AI+クラウド」は将来の産業をどのように変えるのでしょうか？

ブログ

既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法

ブログ

3つのステップで声紋システムを構築する方法

ブログ

AIの海のサイレンソング：テンセントAIラボの大規模モデルの幻覚問題の概要

ブログ

どのような状況で Redis のメモリオーバーフローが発生しますか?解決策は何ですか?

ブログ

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

ブログ

1.4GB 未満のビデオメモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープンソースです。

人間の記憶を模倣する

研究チーム

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

任澤平：「新インフラ」は時代の痕跡を刻む

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

クアルコム副社長ライナー・クレメント氏：「5G+AI+クラウド」は将来の産業をどのように変えるのでしょうか？

既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法

3つのステップで声紋システムを構築する方法

AIの海のサイレンソング：テンセントAIラボの大規模モデルの幻覚問題の概要

どのような状況で Redis のメモリオーバーフローが発生しますか?解決策は何ですか?

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

推薦する

予測：2022年のモノのインターネットの発展における3つの主要な技術トレンド

AI検出器は復活するのか？成功率は98％と高く、OpenAIを上回っている。

モバイルアプリ開発における人工知能の実装

人工知能とビッグデータを開発する際に注意すべき12のポイント

心理意味論の観点から見た顔認識

新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

科学的人工知能と疑似科学的人工知能を区別する方法

医療における AI 導入の 5 つの障壁

Apple、たった1文で写真をレタッチできる新AIモデルMGIEを披露

機械が壁の建設を手伝うことがなぜそんなに難しいのでしょうか?これは人類の100年にわたる闘争の歴史である

人工知能対神: インダストリー4.0におけるグローバル社会の微妙なつながり

1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化