この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 写真 論文リンク: https://arxiv.org/pdf/2310.19629 コードリンク: https://github.com/vLAR-group/RayDF ホームページ: https://vlar-group.github.io/RayDF.html 方法フロー: 図1 RayDFの全体的なプロセスとコンポーネント 1. はじめに正確で効率的な 3D 形状表現を学習することは、マシン ビジョンやロボット工学の多くの最先端アプリケーションで重要です。しかし、3D 座標に基づく既存の暗黙的な表現では、3D 形状を表現したり 2D 画像をレンダリングしたりするときに、計算コストが高くなります。対照的に、レイベースの方法では、3D 形状を効率的に推測できます。しかし、既存のレイベースの方法では、複数の視点における幾何学的一貫性が考慮されていないため、未知の視点における正確な幾何学的形状を復元することが困難です。 これらの問題に対処するために、本論文では、マルチビューの幾何学的一貫性を維持する新しいレイベースの暗黙的表現方法 RayDF を提案します。この方法は、単純な光線表面距離場に基づいています。新しいデュアル光線可視性分類器とマルチビュー一貫性最適化モジュールを導入することで、マルチビューの幾何学的一貫性を満たす光線表面距離を学習します。実験結果によると、当社の方法は 3 つのデータセットで優れた 3D サーフェス再構築パフォーマンスを実現し、座標ベースの方法よりも 1000 倍高速なレンダリング速度に達します (表 1 を参照)。 主な貢献は次のとおりです。
方法2.1 概要図 1 に示すように、RayDF は 2 つのネットワークと最適化モジュールで構成されています。メイン ネットワークのレイ サーフェス距離ネットワークでは、レイを入力するだけで、レイの開始点とレイが当たるジオメトリ サーフェス ポイント間の距離値を取得できます。図2に示すように、RayDFは3次元シーンを囲む球体を使用して入力光線をパラメータ化し、パラメータ化された4次元球面座標(入射点と出口点)をネットワーク入力として使用します。補助ネットワークのデュアル レイ可視性分類器では、一対のレイと幾何学的表面ポイントが入力され、2 つのレイ間の相互可視性が予測されます。トレーニング後、この補助ネットワークは、後続のマルチビュー一貫性最適化モジュールで重要な役割を果たします。 図2 光線パラメータ化と光線表面距離場のネットワーク構造 2.2 デュアルレイ可視性分類器この方法の補助ネットワークは、2 つの入力光線が同時に表面点を見ることができるかどうかを予測するバイナリ分類器です。図3に示すように、2つの入力レイから得られた特徴は平均化され、予測結果が2つのレイの順序に影響されないことが保証されます。同時に、表面点を個別にエンコードして得られた特徴を光線特徴の後に連結して光線特徴を強化し、それによって分類器の精度を向上させます。 図3 2光線可視性分類器のフレームワーク 2.3 マルチビュー一貫性最適化設計されたメインネットワークの光線表面距離ネットワークと補助ネットワークのデュアル光線可視性分類器に基づいて、マルチビュー一貫性最適化の主要モジュールが導入され、2 つのネットワークが 2 段階でトレーニングされます。 (1)まず、補助ネットワークのデュアルレイ可視性分類器のトレーニング用のレイペアを構築する。画像内の光線 (画像内のピクセルに対応) の場合、対応する空間表面点は、光線表面距離を通じて知ることができます。これをトレーニング セット内の残りの視野角に投影すると、別の光線が生成されます。この光線には、対応する光線表面距離があります。この記事では、2 つの光線が互いに見えるかどうかを判断するために、10 mm のしきい値を設定しています。 (2)第2段階では、予測距離場がマルチビュー一貫性を満たすようにメインネットワークのレイサーフェス距離ネットワークをトレーニングする。図4に示すように、主光線とその表面点に対して、表面点を球の中心として均一なサンプリングを実行し、複数のマルチビュー光線を取得します。メインレイとこれらのマルチビューレイを 1 つずつペアリングすると、トレーニング済みのデュアルレイ可視性分類器を通じて相互の可視性を取得できます。次に、これらの光線の光線表面距離を、光線表面距離ネットワークを通じて予測します。メイン光線とサンプリング光線が互いに見える場合、2 つの光線の光線表面距離によって計算される表面ポイントは同じポイントになるはずです。これに基づいて、対応する損失関数が設計され、メインネットワークがトレーニングされ、最終的に光線表面距離フィールドがマルチビューの一貫性を満たすことができます。 2.4 表面法線の導出と外れ値ポイントの除去シーン表面のエッジの深度値は突然(不連続に)変化することが多く、ニューラル ネットワークは連続関数であるため、上記のレイ サーフェス距離フィールドは表面のエッジで不正確な距離値を予測する傾向があり、エッジの幾何学的表面にノイズが発生します。幸いなことに、設計された光線表面距離フィールドには、図 5 に示すように、ネットワークの自動微分化を通じて、推定された各 3D 表面ポイントの法線ベクトルが閉じた形式で簡単に見つかるという優れた特性があります。したがって、ネットワーク推論段階で表面点の法線ベクトルのユークリッド距離を計算することができます。距離値がしきい値より大きい場合、表面点は外れ値とみなされて削除され、きれいな 3D 再構築表面が得られます。 図5 表面法線の計算 実験本稿では、提案手法の有効性を検証するために、オブジェクトレベルの合成データセットBlender [1]、シーンレベルの合成データセットDM-SR [2]、シーンレベルの実データセットScanNet [3]の3つのデータセットで実験を行った。この論文では、性能比較のために7つのベースラインを選択しました。そのうち、OF [4]/DeepSDF [5]/NDF [6]/NeuS [7]は座標ベースのレベルセット法、DS-NeRF [8]は深度教師ありNeRFベースの方法、LFN [9]とPRIF [10]は2つのレイベースのベースラインです。 RayDF メソッドは、テクスチャを学習するために輝度ブランチを簡単に追加できるため、輝度フィールドの予測をサポートする上記のベースラインと比較できます。したがって、この論文の比較実験は 2 つのグループに分けられ、グループ 1 は距離 (ジオメトリ) のみを予測し、グループ 2 は距離と放射輝度 (ジオメトリとテクスチャ) の両方を予測します。 3.1 Blenderデータセットの評価表 2 と図 6 からわかるように、グループ 1 と 2 では、RayDF は表面再構築において優れた結果を達成しており、特に最も重要な ADE 指標では、座標と光線に基づくベースラインよりも大幅に優れています。同時に、放射フィールドレンダリングでは、RayDF は DS-NeRF と同等のパフォーマンスを実現し、LFN や PRIF よりも優れています。 図6 Blenderデータセットの視覚的な比較 3.2 DM-SRデータセットの評価表 3 からわかるように、RayDF は最も重要な ADE 指標においてすべてのベースラインを上回っています。同時に、グループ 2 の実験では、RayDF は正確な表面形状の回復を保証しながら、高品質の新しいビュー合成を取得することができました (図 7 を参照)。 図7 DM-SRデータセットの視覚的比較 3.3 ScanNetデータセットの評価表 4 は、困難な現実世界のシナリオにおける RayDF とベースラインのパフォーマンスを比較しています。グループ 1 と 2 では、RayDF はほぼすべての評価メトリックにおいてベースラインを大幅に上回り、複雑な現実世界の 3D シーンを復元する上で明らかな利点があることが実証されています。 図8 ScanNetデータセットの視覚的な比較 3.4 アブレーション研究この論文では、Blender データセットでアブレーション実験を実施しており、表 5 に、クリティカル デュアル レイ可視性分類器でのアブレーション実験の結果を示します。
その他のアブレーションについては、論文とその付録をご覧ください。 図9 分類器を使用した場合と使用しない場合の視覚的な比較 結論要約すると、この論文は、レイベースのマルチビュー一貫性フレームワークを使用することで、3D 形状表現を効率的かつ正確に学習できることを実証しています。単純な光線表面距離フィールドを使用して 3D 形状ジオメトリを表現し、さらに新しい 2 光線可視性分類器を通じてマルチビュー ジオメトリの一貫性を実現します。 RayDF メソッドは、複数のデータセットで非常に高いレンダリング効率と優れたパフォーマンスを発揮することが実証されています。 RayDF フレームワークのさらなる拡張を歓迎します。さらなる視覚化結果はホームページでご覧いただけます: https://vlar-group.github.io/RayDF.html オリジナルリンク: https://mp.weixin.qq.com/s/dsrSHKT4NfgdDPYcKOhcOA |
<<: マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮
>>: 初めてmAP70%を突破! GeMap: ローカル高精度マップ SOTA が再び更新されました
ドキュメント画像を Markdown 形式に変換したいですか?以前は、このタスクには、テキスト認識、...
時代の発展とともに、掃除ロボットは多くの家庭にとって必需品となりました。掃除ロボットは、ベッドの下を...
これは、カーネギーメロン大学とカリフォルニア大学バークレー校の Eric Xing 氏と Trevo...
[[277051]]これまでの共有を通じて、顔認識の一般的なプロセスを理解しました。主に次のプロセス...
[[236435]]誰でも使用できる無料のオープンソース AI ツールをいくつか見てみましょう。オー...
ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Hackbright でメンターをしているときに、技術的な背景が限られている学生に MapReduc...
この記事では、自然言語処理タスクに最適な 6 つの Python ライブラリを紹介します。初心者でも...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
顔認識の応用範囲は、アクセス制御やデバイスログインから空港や公共エリアの監視まで、非常に広範囲にわた...
[[409182]] 1. K番目に大きいものを見つけるタイトル順序付けられていない整数配列がありま...
ロボットファンの多くにとって、四足歩行ロボットといえば、まずボストン・ダイナミクス社のロボット犬を思...
こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...