RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

写真

論文リンク: https://arxiv.org/pdf/2310.19629

コードリンク: https://github.com/vLAR-group/RayDF

ホームページ: https://vlar-group.github.io/RayDF.html

方法フロー:

図1 RayDFの全体的なプロセスとコンポーネント

1. はじめに

正確で効率的な 3D 形状表現を学習することは、マシンビジョンやロボット工学の多くの最先端アプリケーションで重要です。しかし、3D 座標に基づく既存の暗黙的な表現では、3D 形状を表現したり 2D 画像をレンダリングしたりするときに、計算コストが高くなります。対照的に、レイベースの方法では、3D 形状を効率的に推測できます。しかし、既存のレイベースの方法では、複数の視点における幾何学的一貫性が考慮されていないため、未知の視点における正確な幾何学的形状を復元することが困難です。

これらの問題に対処するために、本論文では、マルチビューの幾何学的一貫性を維持する新しいレイベースの暗黙的表現方法 RayDF を提案します。この方法は、単純な光線表面距離場に基づいています。新しいデュアル光線可視性分類器とマルチビュー一貫性最適化モジュールを導入することで、マルチビューの幾何学的一貫性を満たす光線表面距離を学習します。実験結果によると、当社の方法は 3 つのデータセットで優れた 3D サーフェス再構築パフォーマンスを実現し、座標ベースの方法よりも 1000 倍高速なレンダリング速度に達します (表 1 を参照)。

主な貢献は次のとおりです。

レイサーフェス距離フィールドは、3 次元形状を表すために使用され、既存の座標ベースの表現よりも効率的です。
新しい 2 光線可視性分類器が設計されました。任意の 2 つの光線間の空間関係を学習することにより、学習された光線表面距離フィールドは、複数の視点で幾何学的一貫性を維持できます。
3D 形状再構築におけるこの方法の精度と効率は、複数のデータセットで実証されています。

方法

2.1 概要

図 1 に示すように、RayDF は 2 つのネットワークと最適化モジュールで構成されています。メインネットワークのレイサーフェス距離ネットワークでは、レイを入力するだけで、レイの開始点とレイが当たるジオメトリサーフェスポイント間の距離値を取得できます。図2に示すように、RayDFは3次元シーンを囲む球体を使用して入力光線をパラメータ化し、パラメータ化された4次元球面座標（入射点と出口点）をネットワーク入力として使用します。補助ネットワークのデュアルレイ可視性分類器では、一対のレイと幾何学的表面ポイントが入力され、2 つのレイ間の相互可視性が予測されます。トレーニング後、この補助ネットワークは、後続のマルチビュー一貫性最適化モジュールで重要な役割を果たします。

図2 光線パラメータ化と光線表面距離場のネットワーク構造

2.2 デュアルレイ可視性分類器

この方法の補助ネットワークは、2 つの入力光線が同時に表面点を見ることができるかどうかを予測するバイナリ分類器です。図3に示すように、2つの入力レイから得られた特徴は平均化され、予測結果が2つのレイの順序に影響されないことが保証されます。同時に、表面点を個別にエンコードして得られた特徴を光線特徴の後に連結して光線特徴を強化し、それによって分類器の精度を向上させます。

図3 2光線可視性分類器のフレームワーク

2.3 マルチビュー一貫性最適化

設計されたメインネットワークの光線表面距離ネットワークと補助ネットワークのデュアル光線可視性分類器に基づいて、マルチビュー一貫性最適化の主要モジュールが導入され、2 つのネットワークが 2 段階でトレーニングされます。

（１）まず、補助ネットワークのデュアルレイ可視性分類器のトレーニング用のレイペアを構築する。画像内の光線 (画像内のピクセルに対応) の場合、対応する空間表面点は、光線表面距離を通じて知ることができます。これをトレーニングセット内の残りの視野角に投影すると、別の光線が生成されます。この光線には、対応する光線表面距離があります。この記事では、2 つの光線が互いに見えるかどうかを判断するために、10 mm のしきい値を設定しています。

（２）第２段階では、予測距離場がマルチビュー一貫性を満たすようにメインネットワークのレイサーフェス距離ネットワークをトレーニングする。図4に示すように、主光線とその表面点に対して、表面点を球の中心として均一なサンプリングを実行し、複数のマルチビュー光線を取得します。メインレイとこれらのマルチビューレイを 1 つずつペアリングすると、トレーニング済みのデュアルレイ可視性分類器を通じて相互の可視性を取得できます。次に、これらの光線の光線表面距離を、光線表面距離ネットワークを通じて予測します。メイン光線とサンプリング光線が互いに見える場合、2 つの光線の光線表面距離によって計算される表面ポイントは同じポイントになるはずです。これに基づいて、対応する損失関数が設計され、メインネットワークがトレーニングされ、最終的に光線表面距離フィールドがマルチビューの一貫性を満たすことができます。

2.4 表面法線の導出と外れ値ポイントの除去

シーン表面のエッジの深度値は突然（不連続に）変化することが多く、ニューラルネットワークは連続関数であるため、上記のレイサーフェス距離フィールドは表面のエッジで不正確な距離値を予測する傾向があり、エッジの幾何学的表面にノイズが発生します。幸いなことに、設計された光線表面距離フィールドには、図 5 に示すように、ネットワークの自動微分化を通じて、推定された各 3D 表面ポイントの法線ベクトルが閉じた形式で簡単に見つかるという優れた特性があります。したがって、ネットワーク推論段階で表面点の法線ベクトルのユークリッド距離を計算することができます。距離値がしきい値より大きい場合、表面点は外れ値とみなされて削除され、きれいな 3D 再構築表面が得られます。

図5 表面法線の計算

実験

本稿では、提案手法の有効性を検証するために、オブジェクトレベルの合成データセットBlender [1]、シーンレベルの合成データセットDM-SR [2]、シーンレベルの実データセットScanNet [3]の3つのデータセットで実験を行った。この論文では、性能比較のために7つのベースラインを選択しました。そのうち、OF [4]/DeepSDF [5]/NDF [6]/NeuS [7]は座標ベースのレベルセット法、DS-NeRF [8]は深度教師ありNeRFベースの方法、LFN [9]とPRIF [10]は2つのレイベースのベースラインです。

RayDF メソッドは、テクスチャを学習するために輝度ブランチを簡単に追加できるため、輝度フィールドの予測をサポートする上記のベースラインと比較できます。したがって、この論文の比較実験は 2 つのグループに分けられ、グループ 1 は距離 (ジオメトリ) のみを予測し、グループ 2 は距離と放射輝度 (ジオメトリとテクスチャ) の両方を予測します。

3.1 Blenderデータセットの評価

表 2 と図 6 からわかるように、グループ 1 と 2 では、RayDF は表面再構築において優れた結果を達成しており、特に最も重要な ADE 指標では、座標と光線に基づくベースラインよりも大幅に優れています。同時に、放射フィールドレンダリングでは、RayDF は DS-NeRF と同等のパフォーマンスを実現し、LFN や PRIF よりも優れています。

図6 Blenderデータセットの視覚的な比較

3.2 DM-SRデータセットの評価

表 3 からわかるように、RayDF は最も重要な ADE 指標においてすべてのベースラインを上回っています。同時に、グループ 2 の実験では、RayDF は正確な表面形状の回復を保証しながら、高品質の新しいビュー合成を取得することができました (図 7 を参照)。

図7 DM-SRデータセットの視覚的比較

3.3 ScanNetデータセットの評価

表 4 は、困難な現実世界のシナリオにおける RayDF とベースラインのパフォーマンスを比較しています。グループ 1 と 2 では、RayDF はほぼすべての評価メトリックにおいてベースラインを大幅に上回り、複雑な現実世界の 3D シーンを復元する上で明らかな利点があることが実証されています。

図8 ScanNetデータセットの視覚的な比較

3.4 アブレーション研究

この論文では、Blender データセットでアブレーション実験を実施しており、表 5 に、クリティカルデュアルレイ可視性分類器でのアブレーション実験の結果を示します。

表5（1）に示すように、デュアルレイ可視性分類器の助けがなければ、レイサーフェス距離フィールドは新しい視野角でのレイの合理的な距離値を予測することができません（図9を参照）。
分類器の入力では、表5(2)および(3)に示すように、入力表面点座標が補助として選択されます。入力表面点の距離値が補助として選択された場合、または補助情報が提供されなかった場合、分類器はより低い精度とF1スコアを取得し、光線表面距離ネットワークに不正確な可視性情報が提供され、誤った距離値が予測されます。
表5(4)に示すように、一対の光線が非対称に入力されると、訓練された分類器の精度は高くなりますが、F1スコアは低くなります。これは、この分類器が対称入力光線でトレーニングされたものよりも大幅に堅牢性が低いことを示しています。

その他のアブレーションについては、論文とその付録をご覧ください。

図9 分類器を使用した場合と使用しない場合の視覚的な比較

結論

要約すると、この論文は、レイベースのマルチビュー一貫性フレームワークを使用することで、3D 形状表現を効率的かつ正確に学習できることを実証しています。単純な光線表面距離フィールドを使用して 3D 形状ジオメトリを表現し、さらに新しい 2 光線可視性分類器を通じてマルチビュージオメトリの一貫性を実現します。 RayDF メソッドは、複数のデータセットで非常に高いレンダリング効率と優れたパフォーマンスを発揮することが実証されています。 RayDF フレームワークのさらなる拡張を歓迎します。さらなる視覚化結果はホームページでご覧いただけます:

https://vlar-group.github.io/RayDF.html

オリジナルリンク: https://mp.weixin.qq.com/s/dsrSHKT4NfgdDPYcKOhcOA

<<: マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

>>: 初めてmAP70%を突破！ GeMap: ローカル高精度マップ SOTA が再び更新されました