必要なのは2枚の写真だけで、追加のデータを測定する必要はありません—— ディンディン、完全な 3D クマが利用可能になりました。 DUSt3Rと呼ばれるこの新しいツールは非常に人気となり、リリース後すぐにGitHub のホットリストで 2 位にランクされました。 あるネットユーザーが実際に試してみたところ、写真を 2 枚撮るだけで実際にキッチンを再現することができました。このプロセス全体にかかった時間は 2 秒未満でした。 (3D画像に加えて、深度マップ、信頼度マップ、ポイントクラウドマップも提供できます) この友人はあまりにもショックを受けて、こう叫びました。
実験では、DUSt3R が単眼/多眼深度推定と相対姿勢推定の 3 つのタスクで SOTA を達成したことが示されています。 著者チーム(フィンランドのアアルト大学 + NAVER LABS ヨーロッパ人工知能研究所)も強いメッセージを発しています。
それで、どうやってやるんですか? 「オールインワン」マルチビュー ステレオ再構成(MVS)タスクの場合、最初のステップは、内部パラメータと外部パラメータを含むカメラ パラメータを推定することです。 この操作は面倒で面倒ですが、3 次元空間でのピクセルのその後の三角測量には不可欠であり、比較的優れたパフォーマンスを備えたほぼすべての MVS アルゴリズムの不可欠な部分です。 この研究では、著者チームが導入したDUSt3Rはまったく異なるアプローチを採用しました。 カメラのキャリブレーションや視点の姿勢に関する事前情報は必要なく、任意の画像の高密度または制約のない 3D 再構築を完了できます。 ここで、チームは、単眼再構成と両眼再構成を統合したポイントマップ回帰として、ペア再構成問題を定式化します。 2 つ以上の入力画像が提供される場合、すべてのポイント マップのペアは、シンプルでありながら効果的なグローバル アライメント戦略を通じて共通の参照フレームに表現されます。 下の図に示すように、カメラのポーズと固有の特徴が不明な写真のセットが与えられると、DUSt3R は対応するポイント マップのセットを出力します。これにより、カメラ パラメーター、ピクセルの対応、深度マップ、完全に一貫した 3D 再構築効果など、通常は同時に推定するのが難しいさまざまな幾何学的量を直接復元できます。 (著者は、DUSt3R は単一の入力画像でも動作することを思い出させます) 具体的なネットワーク アーキテクチャに関しては、DUSt3R は CroCo (複数のビューにわたる 3D ビジョン タスクの自己教師あり事前トレーニングに関する研究)にヒントを得た標準の Transformer エンコーダーとデコーダーに基づいており、単純な回帰損失を使用してトレーニングされています。 下の図に示すように、シーンの 2 つのビュー(I1、I2)は、まず共有 ViT エンコーダーを使用してシャム方式でエンコードされます。 結果として得られるトークン表現( F1とF2 )は 2 つの Transformer デコーダーに渡され、相互注意を介して継続的に情報を交換します。 最後に、2 つの回帰ヘッドは、対応する 2 つのポイント マップと関連する信頼度マップを出力します。 両方のドット マップが最初の画像と同じ座標系で表現されることが重要です。 複数のタスクでSOTAを達成実験ではまず、7Scenes (屋内シーン7つ)とCambridge Landmarks (屋外シーン8つ)のデータセットにおける絶対姿勢推定タスクにおけるDUSt3Rのパフォーマンスを評価しました。指標は並進誤差と回転誤差(値が小さいほど良い)です。 著者らは、他の既存の特徴マッチングやエンドツーエンドの方法と比較して、DUSt3R のパフォーマンスは顕著であると述べています。 これは、視覚的な位置特定トレーニングを一度も受けたことがなく、トレーニング プロセス中にクエリ イメージやデータベース イメージに遭遇していないためです。 次に、ランダムに選ばれた 10 フレームに対してマルチビューポーズ回帰タスクが実行されます。結果 DUSt3R は両方のデータセットで最高の結果を達成しました。 単眼深度推定タスクでは、DUSt3R は屋内と屋外のシーンを良好に保持でき、自己教師ありベースラインを上回り、最も高度な教師ありベースラインに匹敵します。 マルチビュー深度推定の点でも、DUSt3R は優れたパフォーマンスを発揮します。 以下は、公式の 3D 再構築結果 2 つです。参考までに、どちらも入力として 2 つの画像のみを使用しています。 (1つ) (二) ネットユーザーの実地テスト:2枚の写真が重ならなければOK誰かが DUSt3R に重複する内容のない 2 つの画像を渡したところ、数秒以内に正確な 3D ビューが出力されました。 (写真は彼のオフィスでのものなので、トレーニング中は見られなかったはずです) これに対して、一部のネットユーザーは、この方法は「客観的な測定」を行うためのものではなく、むしろAIのように動作することを意味すると述べた。 さらに、入力画像が 2 台の異なるカメラで撮影された場合でも、この方法が機能するかどうかを知りたいという人もいます。 実際に試してみたネットユーザーもいますが、答えは「イエス」です! ポータル: |
<<: Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています
今後 5 年間で、AI は企業とそのビジネス モデルに大きな影響を与えるでしょう。調査会社プライスウ...
[[385470]]ビッグデータダイジェスト制作出典: Wired編纂者:周熙Uber EatsやU...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
AIがますます普及するにつれて、倫理的な問題をどのように解決できるでしょうか? AIという言葉は近...
[51CTO.com からのオリジナル記事]活動の説明: Aiti Tribe は、コア開発者に詳...
初めて受賞した AI 絵画「スペースオペラ」を覚えていますか?最近また注目を浴びているのが――著者の...
かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...
「すべての人にAI」の時代を迎え、多くの人が機械学習(ML)に何らかの形で触れるようになりました。...
Twitter を使用すると、ユーザーはブログの投稿や記事を世界と共有できます。 Python と ...
胸部X線(CXR)検査は、さまざまな病気のスクリーニングや診断に広く使用されている臨床画像診断法です...