厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョンにおける基本的なタスクです。画像マッチングは、3D 再構成、視覚的位置決め、ニューラル レンダリングなどの多くの視覚アプリケーションの基礎であり、前提条件となるステップです。その精度と効率は、その後の処理にとって非常に重要です。

従来のアルゴリズム (SIFT) では、長いベースラインや異常気象などの複雑なシナリオに直面した場合、マッチングの精度と密度が制限されることがよくあります。これらの問題を解決するために、近年、ディープラーニングをベースにしたマッチングモデルが普及しつつあります。しかし、真の値ラベルを持つ大規模で多様なトレーニング データが不足しているため、現在のマッチング モデルでは通常、ScanNet と MegaDepth でそれぞれ屋内と屋外の 2 つのモデルをトレーニングします。このシナリオ固有のトレーニングでは、モデルの一般化がゼロショット シナリオに制限され、未知のシナリオに拡張することはできません。さらに、既存のデータ構築方法では、再構築にRGBDスキャンやSfM + MVSに依存することが多く、効率と適用性が限られており、データを効果的に拡張してモデルのトレーニングに使用することができません。

ディープラーニング手法の一般化問題を解決するために、厦門大学、Intel、DJI の研究者らは、インターネット ビデオから一般化可能な画像マッチングを学習する GIM (Learning Generalizable Image Matcher from Internet Videos) を提案しました。 GIM は、マッチング モデルがインターネット ビデオから強力な一般化機能を学習できるようにする最初のトレーニング フレームワークです。

論文ホームページ: https://xuelunshen.com/gim

論文アドレス: https://arxiv.org/abs/2402.11095

論文ビデオ: https://www.youtube.com/watch?v=FU_MJLD8LeY

コードアドレス: https://github.com/xuelunshen/gim

オンラインモデル: https://huggingface.co/spaces/xuelunshen/gim-online

GIM は、簡単にアクセスでき、多様で、ほぼ無限のインターネット ビデオ (図 1 を参照) から効果的な監視信号を抽出し、マッチング モデルをトレーニングします。

図1. インターネット動画の多様なシーン

GIM フレームワークは、すべてのマッチング モデルのトレーニングに適用できます。図 2 に示すように、3 つのマッチング モデル DKM、LoFTR、SuperGlue は、密なマッチング、半密なマッチング、スパースなマッチングという 3 つの主流のマッチング パラダイムに対応しています。 GIM フレームワークでは、トレーニングに使用されるビデオが長いほど、マッチング モデルのパフォーマンスが高くなります。現在の曲線から判断すると、50 時間のビデオを使用した後でもパフォーマンスはまだ飽和していないため、より多くのビデオを使用するとパフォーマンスはさらに向上します。

図2. トレーニングに使用したビデオの長さとモデルの一般化性能の関係

マッチング モデルの一般化パフォーマンスを完全に測定するために、著者らは最初のゼロショット評価ベンチマーク (ZEB) を提案しました。図 3 に示すように、ZEB はさまざまなシーン、天気、カメラ モデルをカバーする 12 の公開データセットで構成されており、約 46,000 組のテスト画像が含まれています。 ZEB には、3000 個の画像ペアのテスト セットのみを含む MegaDepth や ScanNet などの既存の方法で一般的に使用されるデータよりもはるかに多くのデータが含まれています。

図3. ZEBの構成

図2のモデル一般化性能はZEBの評価結果から導き出されたものであり、具体的な評価結果は図4に示されています。平均ランク指標は、12 個のテスト シーケンスにおける一致するモデルの平均ランクを表します。ランクが 1 に近いほど、優れています。平均 AUC@5° は、ポーズ推定におけるマッチング モデルの精度を表し、値が高いほど優れています。

図4. マッチングモデルの一般化性能評価の結果

図 4 からわかるように、GIM はマッチング モデルの一般化パフォーマンスを大幅に向上させることができます。 GIM によるトレーニングを受ける前は、SuperGlue と LoFTR は、GL3、BLE、および GTA シーケンスにおいて従来のアルゴリズム RootSIFT よりもさらに劣っています。 GIM によるトレーニング後、両方のモデルの一般化パフォーマンスが大幅に向上しました。

先ほど述べたように、50 時間のビデオ データは、モデルのパフォーマンス限界にはほど遠いものです。 100時間のビデオデータを使用した著者の最新のトレーニング結果によると、パフォーマンスは51.2に達し、既存のモデルをはるかに上回っています。

図 5 に示すように、マッチング モデルの一般化パフォーマンスの向上は、下流のタスクにもメリットをもたらします。図 5 の再ローカリゼーション タスクでは、GIM は 1 つのモデルを他の特定のシナリオのモデルと比較するだけですが、それでもより良い結果が得られていることに注目に値します。

図5. 下流タスクにおけるマッチングモデルのパフォーマンス:ホモグラフィ行列推定、屋内および屋外の再位置特定タスク

デュアルビュー画像マッチングの結果を下図に示します。

図6. デュアルビューマッチングによるマッチングモデルの可視化結果

さらに、図 7 に示すように、GIM モデルの強力な一般化パフォーマンスにより、トレーニング中に見たことのないポイント クラウド鳥瞰図マッチング タスクも処理できます。

図7. 点群鳥瞰図マッチングにおけるマッチングモデルの可視化結果

COLMAP は、マルチビュー再構成の一般的な方法として、視覚的位置特定やニューラルレンダリングなどの下流タスクで広く使用されています。 COLMAP のマッチング方法を GIM に置き換えると、より優れたマルチビュー再構成を実現でき、COLMAP の堅牢性が大幅に向上します。

図8. 異なるマッチングモデルがマルチビュー再構成に与える影響。最初の行は部分的に再構成された画像を示しています。 2行目には再構築結果が表示されます。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的かつインタラクティブな結果を視聴できます。

GIM は COLMAP マルチビュー再構成の品質を効果的に向上させることができるため、対応する下流のタスクに「輝き」を加えることもできます。次の図は、GIM の COLMAP 結果を使用してガウス スプラッティングを初期化する効果を示しています。いくつかの難しいシーンでは、SIFT と DKM に基づく COLMAP では効果的な初期化を提供できず、レンダリング効果が低下することがわかります。

図9. マルチビュー再構成後のガウススプラッティングに対する異なるマッチングモデルの影響。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的な結果を見ることができます。

フレームワーク方式

図10. GIMフレームワーク

GIM フレームワークの方法は非常にシンプルです。この方法の核心は、ビデオ内のフレーム間の連続性を利用して、近距離フレームから遠距離フレームにマッチングを転送し、広いベースラインのトレーニング画像を取得することです。

最初のステップは、トレーニング用の一致するモデルとインターネット ビデオを準備することです。

2 番目のステップでは、標準のトレーニング データ (MegaDepth などのインターネット以外のビデオ) を使用してマッチング モデルをトレーニングし、他の補完的なマッチング方法を収集します。これらすべての方法を使用して、インターネット ビデオのフレームを短い間隔でマッチングし、より密度の高いマッチング結果を取得します。外れ値フィルタリングを使用して、一致を再度フィルタリングします。

3 番目のステップでは、ビデオの時間的関係を使用して、より遠いフレームにマッチングを伝播し、オーバーラップが少なくベースラインが広いトレーニング画像ペアを取得します。

最後に、渡された画像ペアとそれに一致するラベルはデータ拡張され、トレーニングされます。

下の図は、インターネット ビデオ上で GIM によって生成された一致するタグを視覚化したものです。これはほんの一部であり、トレーニングに使用されるデータの多様性は、著者が示すことができる画像よりもはるかに大きいです。

図11. インターネットビデオタグの視覚化

要約する

GIM の提案は GPT などの大規模モデルに触発されたもので、著者らは大量のビデオ データを使用してマッチング モデルをトレーニングし、より高い一般化パフォーマンスを実現するようになりました。 GIM のホームページのアドレスは xuelunshen.com/gim です。 GIM のホームページにアクセスして、より詳細で鮮明な紹介ビデオやオープンソース コードを閲覧し、GIM マッチング効果の HuggingFace デモをオンラインで体験してください。

<<:  陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に

>>:  SQL は ChatGPT を実行できますか?答えはYESです!

ブログ    
ブログ    
ブログ    

推薦する

携帯電話を紛失し、電話をかけても誰も応答しません。顔認識機能は非常に役立ちます。

揚子晩報は4月12日(蒋桂東特派員、範牧暁子記者)に、揚州市在住の張さんがオランダ花海風景区を訪れた...

デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

12月19日、デンマーク工科大学のスニ・レーマン・ヨルゲンセン氏と彼のチームは、保険業界で使用されて...

インターネットの未来のために: AI が生み出すものと破壊するもの

編集者注: この記事はNetEase Intelligenceからのものです。翻訳|: NetEas...

人工知能と機械学習の違いと機能は何ですか?

人工知能と機械学習。これらの言葉だけでも、意思決定を行うコンピューターが部署や課全体に取って代わる世...

人工知能がインダストリー4.0における製造業に革命をもたらす

人工知能 (AI) という用語は、流行語の地位を超え、業界全体にわたる技術革新の基礎となっています。...

10億ドルか、それともカタツムリを追いかけるだけか?上海大学准教授が科学論文を発表:機械に意思決定を手伝わせよう

人にとって選択をすることはどれほど困難で興味深いことでしょうか?知乎の質問を見てみましょう: 10億...

3分レビュー! 2021年12月の自動運転業界の開発動向を簡単に概観

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数ヶ月の回復期...

...

今からAIについて学ぶのは遅すぎますか?

AI飽和私は、Google やハーバード大学のコース、YouTube の完全なチュートリアルなど、...

テンセントクラウドのオーディオとビデオのAI技術は、超高速高解像度ワールドカップライブ放送の「舞台裏のヒーロー」です

[オリジナル記事は51CTO.comより] あっという間にワールドカップが終わりに近づいています。サ...

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinto...

ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間...

Go-OpenAI を使用して ChatGPT を簡単に呼び出し、無限の創造性を解き放ちましょう。

今日は、go-openai を使用して chatGPT を呼び出すという興味深いトピックを皆さんと共...

人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない

Markets and Marketsの人工知能サイバーセキュリティ予測レポートによると、AIサイバ...