2秒で2枚の画像を3D再構築!このAIツールはGitHubで人気です、ネットユーザー:Soraを忘れてください

2秒で2枚の画像を3D再構築!このAIツールはGitHubで人気です、ネットユーザー:Soraを忘れてください

必要なのは2枚の写真だけで、追加のデータを測定する必要はありません——

ディンディン、完全な 3D クマが利用可能になりました。

DUSt3Rと呼ばれるこの新しいツールは非常に人気となり、リリース後すぐにGitHub のホットリストで 2 位にランクされました。

あるネットユーザーが実際に試してみたところ、写真を 2 枚撮るだけで実際にキッチンを再現することができました。このプロセス全体にかかった時間は 2 秒未満でした

(3D画像に加えて、深度マップ、信頼度マップ、ポイントクラウドマップも提供できます)

この友人はあまりにもショックを受けて、こう叫びました。

今はソラのことを忘れましょう。これは私たちが実際に見て触れることができるものです。

実験では、DUSt3R が単眼/多眼深度推定と相対姿勢推定の 3 つのタスクで SOTA を達成したことが示されています。

著者チーム(フィンランドのアアルト大学 + NAVER LABS ヨーロッパ人工知能研究所)も強いメッセージを発しています。

私たちは、3D ビジョンのタスクを誰にとってもより簡単にしたいと考えています。

それで、どうやってやるんですか?

「オールインワン」

マルチビュー ステレオ再構成(MVS)タスクの場合、最初のステップは、内部パラメータと外部パラメータを含むカメラ パラメータを推定することです。

この操作は面倒で面倒ですが、3 次元空間でのピクセルのその後の三角測量には不可欠であり、比較的優れたパフォーマンスを備えたほぼすべての MVS アルゴリズムの不可欠な部分です。

この研究では、著者チームが導入したDUSt3Rはまったく異なるアプローチを採用しました。

カメラのキャリブレーションや視点の姿勢に関する事前情報は必要なく、任意の画像の高密度または制約のない 3D 再構築を完了できます。

ここで、チームは、単眼再構成と両眼再構成を統合したポイントマップ回帰として、ペア再構成問題を定式化します。

2 つ以上の入力画像が提供される場合、すべてのポイント マップのペアは、シンプルでありながら効果的なグローバル アライメント戦略を通じて共通の参照フレームに表現されます。

下の図に示すように、カメラのポーズと固有の特徴が不明な写真のセットが与えられると、DUSt3R は対応するポイント マップのセットを出力します。これにより、カメラ パラメーター、ピクセルの対応、深度マップ、完全に一貫した 3D 再構築効果など、通常は同時に推定するのが難しいさまざまな幾何学的量を直接復元できます。

(著者は、DUSt3R は単一の入力画像でも動作することを思い出させます)

具体的なネットワーク アーキテクチャに関しては、DUSt3R は CroCo (複数のビューにわたる 3D ビジョン タスクの自己教師あり事前トレーニングに関する研究)にヒントを得た標準の Transformer エンコーダーとデコーダーに基づいており、単純な回帰損失を使用してトレーニングされています。

下の図に示すように、シーンの 2 つのビュー(I1、I2)は、まず共有 ViT エンコーダーを使用してシャム方式でエンコードされます。

結果として得られるトークン表現( F1F2 )は 2 つの Transformer デコーダーに渡され、相互注意を介して継続的に情報を交換します。

最後に、2 つの回帰ヘッドは、対応する 2 つのポイント マップと関連する信頼度マップを出力します。

両方のドット マップが最初の画像と同じ座標系で表現されることが重要です。

複数のタスクでSOTAを達成

実験ではまず、7Scenes (屋内シーン7つ)とCambridge Landmarks (屋外シーン8つ)のデータセットにおける絶対姿勢推定タスクにおけるDUSt3Rのパフォーマンスを評価しました。指標は並進誤差と回転誤差(値が小さいほど良い)です

著者らは、他の既存の特徴マッチングやエンドツーエンドの方法と比較して、DUSt3R のパフォーマンスは顕著であると述べています。

これは、視覚的な位置特定トレーニングを一度も受けたことがなく、トレーニング プロセス中にクエリ イメージやデータベース イメージに遭遇していないためです。

次に、ランダムに選ばれた 10 フレームに対してマルチビューポーズ回帰タスクが実行されます。結果 DUSt3R は両方のデータセットで最高の結果を達成しました。

単眼深度推定タスクでは、DUSt3R は屋内と屋外のシーンを良好に保持でき、自己教師ありベースラインを上回り、最も高度な教師ありベースラインに匹敵します。

マルチビュー深度推定の点でも、DUSt3R は優れたパフォーマンスを発揮します。

以下は、公式の 3D 再構築結果 2 つです。参考までに、どちらも入力として 2 つの画像のみを使用しています。

(1つ)

(二)

ネットユーザーの実地テスト:2枚の写真が重ならなければOK

誰かが DUSt3R に重複する内容のない 2 つの画像を渡したところ、数秒以内に正確な 3D ビューが出力されました。

(写真は彼のオフィスでのものなので、トレーニング中は見られなかったはずです)

これに対して、一部のネットユーザーは、この方法は「客観的な測定」を行うためのものではなく、むしろAIのように動作することを意味すると述べた。

さらに、入力画像が 2 台の異なるカメラで撮影された場合でも、この方法が機能するかどうかを知りたいという人もいます。

実際に試してみたネットユーザーもいますが、答えは「イエス」です!

ポータル:
[1] 論文 https://arxiv.org/abs/2312.14132
[2] コード https://github.com/naver/dust3r

<<:  Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

>>:  業界の未来を牽引する8つのデジタル変革トレンド

ブログ    
ブログ    
ブログ    

推薦する

同じプレフィックスとサフィックスを持つファイルを同じディレクトリに移動するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムの複数のディレクトリに、同じプレフィックスとサフィックスを持つフ...

...

自動運転車にLIDARはなぜ必要ないのでしょうか?

[51CTO.com クイック翻訳]自動運転車の開発と生産にはどのような技術が必要か?この質問に対...

ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける

海外メディアInsiderによると、8月1日、世界初となる自動運転車による死亡事故でついに判決が下さ...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...

5分でトップ10の機械学習アルゴリズムを学ぶ

[[317656]]機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴ...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

音楽駆動型デジタルヒューマン技術の詳細な説明

1. ミュージックXRメーカーMusic XR Makerは、テンセントミュージック初のオーディオお...

2020年に中国で期待されるAI企業トップ10

近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...

中国科学院の専門家が人工知能の混乱を批判:AIチップなど存在しない

Titanium Media Note:先週日曜日、IEEE SMC 協会 (IEEE システム、人...

多国籍食品流通会社Sysco CIDO:当社の成長の秘訣はIT中心

トム・ペック氏がCOVID-19パンデミックの真っ只中にシスコに入社したとき、彼の主な目標は世界最大...

過度な「遊び」が子どもたちのプライバシーを侵害し、自尊心を傷つける恐れがあるとして、人工知能がキャンパスに導入される

最近、香港で株式公開を準備しているAI大手のMegvii Technologyが論争を巻き起こしてい...

ネットワーク管理における人工知能の役割

AI の主な利点の 1 つは、従業員を日常的な単純作業から解放することです。 AI は、ネットワーク...

...