厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョンにおける基本的なタスクです。画像マッチングは、3D 再構成、視覚的位置決め、ニューラル レンダリングなどの多くの視覚アプリケーションの基礎であり、前提条件となるステップです。その精度と効率は、その後の処理にとって非常に重要です。

従来のアルゴリズム (SIFT) では、長いベースラインや異常気象などの複雑なシナリオに直面した場合、マッチングの精度と密度が制限されることがよくあります。これらの問題を解決するために、近年、ディープラーニングをベースにしたマッチングモデルが普及しつつあります。しかし、真の値ラベルを持つ大規模で多様なトレーニング データが不足しているため、現在のマッチング モデルでは通常、ScanNet と MegaDepth でそれぞれ屋内と屋外の 2 つのモデルをトレーニングします。このシナリオ固有のトレーニングでは、モデルの一般化がゼロショット シナリオに制限され、未知のシナリオに拡張することはできません。さらに、既存のデータ構築方法では、再構築にRGBDスキャンやSfM + MVSに依存することが多く、効率と適用性が限られており、データを効果的に拡張してモデルのトレーニングに使用することができません。

ディープラーニング手法の一般化問題を解決するために、厦門大学、Intel、DJI の研究者らは、インターネット ビデオから一般化可能な画像マッチングを学習する GIM (Learning Generalizable Image Matcher from Internet Videos) を提案しました。 GIM は、マッチング モデルがインターネット ビデオから強力な一般化機能を学習できるようにする最初のトレーニング フレームワークです。

論文ホームページ: https://xuelunshen.com/gim

論文アドレス: https://arxiv.org/abs/2402.11095

論文ビデオ: https://www.youtube.com/watch?v=FU_MJLD8LeY

コードアドレス: https://github.com/xuelunshen/gim

オンラインモデル: https://huggingface.co/spaces/xuelunshen/gim-online

GIM は、簡単にアクセスでき、多様で、ほぼ無限のインターネット ビデオ (図 1 を参照) から効果的な監視信号を抽出し、マッチング モデルをトレーニングします。

図1. インターネット動画の多様なシーン

GIM フレームワークは、すべてのマッチング モデルのトレーニングに適用できます。図 2 に示すように、3 つのマッチング モデル DKM、LoFTR、SuperGlue は、密なマッチング、半密なマッチング、スパースなマッチングという 3 つの主流のマッチング パラダイムに対応しています。 GIM フレームワークでは、トレーニングに使用されるビデオが長いほど、マッチング モデルのパフォーマンスが高くなります。現在の曲線から判断すると、50 時間のビデオを使用した後でもパフォーマンスはまだ飽和していないため、より多くのビデオを使用するとパフォーマンスはさらに向上します。

図2. トレーニングに使用したビデオの長さとモデルの一般化性能の関係

マッチング モデルの一般化パフォーマンスを完全に測定するために、著者らは最初のゼロショット評価ベンチマーク (ZEB) を提案しました。図 3 に示すように、ZEB はさまざまなシーン、天気、カメラ モデルをカバーする 12 の公開データセットで構成されており、約 46,000 組のテスト画像が含まれています。 ZEB には、3000 個の画像ペアのテスト セットのみを含む MegaDepth や ScanNet などの既存の方法で一般的に使用されるデータよりもはるかに多くのデータが含まれています。

図3. ZEBの構成

図2のモデル一般化性能はZEBの評価結果から導き出されたものであり、具体的な評価結果は図4に示されています。平均ランク指標は、12 個のテスト シーケンスにおける一致するモデルの平均ランクを表します。ランクが 1 に近いほど、優れています。平均 AUC@5° は、ポーズ推定におけるマッチング モデルの精度を表し、値が高いほど優れています。

図4. マッチングモデルの一般化性能評価の結果

図 4 からわかるように、GIM はマッチング モデルの一般化パフォーマンスを大幅に向上させることができます。 GIM によるトレーニングを受ける前は、SuperGlue と LoFTR は、GL3、BLE、および GTA シーケンスにおいて従来のアルゴリズム RootSIFT よりもさらに劣っています。 GIM によるトレーニング後、両方のモデルの一般化パフォーマンスが大幅に向上しました。

先ほど述べたように、50 時間のビデオ データは、モデルのパフォーマンス限界にはほど遠いものです。 100時間のビデオデータを使用した著者の最新のトレーニング結果によると、パフォーマンスは51.2に達し、既存のモデルをはるかに上回っています。

図 5 に示すように、マッチング モデルの一般化パフォーマンスの向上は、下流のタスクにもメリットをもたらします。図 5 の再ローカリゼーション タスクでは、GIM は 1 つのモデルを他の特定のシナリオのモデルと比較するだけですが、それでもより良い結果が得られていることに注目に値します。

図5. 下流タスクにおけるマッチングモデルのパフォーマンス:ホモグラフィ行列推定、屋内および屋外の再位置特定タスク

デュアルビュー画像マッチングの結果を下図に示します。

図6. デュアルビューマッチングによるマッチングモデルの可視化結果

さらに、図 7 に示すように、GIM モデルの強力な一般化パフォーマンスにより、トレーニング中に見たことのないポイント クラウド鳥瞰図マッチング タスクも処理できます。

図7. 点群鳥瞰図マッチングにおけるマッチングモデルの可視化結果

COLMAP は、マルチビュー再構成の一般的な方法として、視覚的位置特定やニューラルレンダリングなどの下流タスクで広く使用されています。 COLMAP のマッチング方法を GIM に置き換えると、より優れたマルチビュー再構成を実現でき、COLMAP の堅牢性が大幅に向上します。

図8. 異なるマッチングモデルがマルチビュー再構成に与える影響。最初の行は部分的に再構成された画像を示しています。 2行目には再構築結果が表示されます。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的かつインタラクティブな結果を視聴できます。

GIM は COLMAP マルチビュー再構成の品質を効果的に向上させることができるため、対応する下流のタスクに「輝き」を加えることもできます。次の図は、GIM の COLMAP 結果を使用してガウス スプラッティングを初期化する効果を示しています。いくつかの難しいシーンでは、SIFT と DKM に基づく COLMAP では効果的な初期化を提供できず、レンダリング効果が低下することがわかります。

図9. マルチビュー再構成後のガウススプラッティングに対する異なるマッチングモデルの影響。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的な結果を見ることができます。

フレームワーク方式

図10. GIMフレームワーク

GIM フレームワークの方法は非常にシンプルです。この方法の核心は、ビデオ内のフレーム間の連続性を利用して、近距離フレームから遠距離フレームにマッチングを転送し、広いベースラインのトレーニング画像を取得することです。

最初のステップは、トレーニング用の一致するモデルとインターネット ビデオを準備することです。

2 番目のステップでは、標準のトレーニング データ (MegaDepth などのインターネット以外のビデオ) を使用してマッチング モデルをトレーニングし、他の補完的なマッチング方法を収集します。これらすべての方法を使用して、インターネット ビデオのフレームを短い間隔でマッチングし、より密度の高いマッチング結果を取得します。外れ値フィルタリングを使用して、一致を再度フィルタリングします。

3 番目のステップでは、ビデオの時間的関係を使用して、より遠いフレームにマッチングを伝播し、オーバーラップが少なくベースラインが広いトレーニング画像ペアを取得します。

最後に、渡された画像ペアとそれに一致するラベルはデータ拡張され、トレーニングされます。

下の図は、インターネット ビデオ上で GIM によって生成された一致するタグを視覚化したものです。これはほんの一部であり、トレーニングに使用されるデータの多様性は、著者が示すことができる画像よりもはるかに大きいです。

図11. インターネットビデオタグの視覚化

要約する

GIM の提案は GPT などの大規模モデルに触発されたもので、著者らは大量のビデオ データを使用してマッチング モデルをトレーニングし、より高い一般化パフォーマンスを実現するようになりました。 GIM のホームページのアドレスは xuelunshen.com/gim です。 GIM のホームページにアクセスして、より詳細で鮮明な紹介ビデオやオープンソース コードを閲覧し、GIM マッチング効果の HuggingFace デモをオンラインで体験してください。

<<:  陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に

>>:  SQL は ChatGPT を実行できますか?答えはYESです!

ブログ    
ブログ    
ブログ    

推薦する

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか?考えるための材料

中国の現在の経済社会発展の最大の原動力は科学技術の進歩である。特に米国によるファーウェイとZTEの規...

テクノロジー大手が自動運転市場への参入を急いでいる背景に、あなたが知らないことは何でしょうか?

ファーウェイは最近、「自動運転ネットワークソリューション白書」を発表しました。これは、将来のネットワ...

...

AIダイナミックセキュリティガードデータセンター

最近の世界的な調査によると、企業の事業がハッキングされると莫大な損失が発生し、サイバー攻撃1回あたり...

OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す!ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

汎用 AGI はもうすぐ実現するかもしれません。 OpenAIの次なる「月面着陸計画」は、待望のスー...

TransformerはCNNを超え、計算複雑性の問題を解決します

[[390500]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

優秀なプログラマーが開発効率を上げるために知っておくべき32のアルゴリズム

検索アルゴリズム - 指定された開始点から指定された終了点までのパスを計算するグラフ検索アルゴリズム...

...

...

Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回...

爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

この小さなロボットはエネルギーに溢れています。体は昆虫ほどの大きさですが、自分の体重の22倍の重さの...

売上高2,684億元の背後にあるアリババのAI技術の全貌

先日終了した双十一では、天猫の取引額は2,684億元に達し、前年比25.7%増加した。この成果の裏に...

...

人工知能、遺伝子編集、ノーベル賞の画期的な進歩により、80歳でも40歳に見えるようになる

年齢を重ねるにつれ、老化を遅らせて若さを取り戻すことが多くの人の夢となります。 クレオパトラにしろ、...

...