「1 枚の画像から 3D メッシュを再構築」により、遅延がなくなり、30 分から 45 秒にスピードアップしました。浙江大学、カリフォルニア大学などが共同でOne-2-3-45をリリース：オンラインデモを試用可能

単一の画像に基づく 3 次元再構成は、重要な応用価値を持つタスクですが、実装が非常に難しく、モデルに自然界に関する広範な事前知識が必要です。

これまでの研究では、2D 拡散モデルに基づいて神経放射場を最適化することでこの問題に対処してきましたが、最適化に時間がかかる、3D 結果に一貫性がない、形状が不十分などの問題が依然として残っています。

最近、カリフォルニア大学サンディエゴ校、カリフォルニア大学ロサンゼルス校、コーネル大学、浙江大学、インド工科大学マドラス校、Adobe の研究者らが共同で、新しいモデル「One-2-3-45」を提案しました。このモデルは、任意のオブジェクトの 1 枚の画像を入力として受け取り、1 回のフィードフォワードプロセスでわずか 45 秒で完全な 360 度の 3D テクスチャメッシュを生成できます。

写真

論文リンク: https://arxiv.org/pdf/2306.16928.pdf

プロジェクトホームページ: https://one-2-3-45.github.io/

オンラインデモ: https://huggingface.co/spaces/One-2-3-45/One-2-3-45

写真

One-2-3-45 は主に次の 3 つのコンポーネントで構成されます。

1. マルチビュー合成: ビュー条件付き 2D 拡散モデル Zero123 を使用して、2 段階方式でマルチビュー画像を生成します。入力には単一の画像と相対カメラ変換が含まれ、パラメータは相対球面座標です。

2. 姿勢推定：Zero123 によって生成された 4 つの隣接ビューに基づいて入力画像の仰角を推定し、指定された相対位置と入力ビューの推定位置を組み合わせて、マルチビュー画像の位置を取得します。

3. 3D再構成：マルチビューポーズ画像をSDFベースの一般的なニューラルサーフェス再構成モジュールに入力し、360°メッシュ再構成を実行します。

この方法では、高価な最適化操作を使用する必要がないため、他の方法よりも 3D 形状の再構築にかかる時間が大幅に短縮されます。

さらに、私たちの方法は、より優れたジオメトリを生成し、より優れた 3D 一貫性を持つ結果を生成し、入力画像に対してより忠実になります。

実験部分では、研究者らは合成データと新しい画像の両方で実験を行い、メッシュ品質と実行時間の点でこの方法の利点を実証しました。

提案された方法は、既製のテキストから画像への拡散モデルと統合することで、テキストから 3D へのタスクをシームレスにサポートすることもできます。

1-2-3-45

Zero123: ビュー条件付き 2D 拡散モデル

インターネット規模のデータでトレーニングすることにより、2D 拡散モデルは一般的な視覚概念を学習でき、制御条件はテキストから視覚エッジ、ユーザーの落書き、深度マップ、法線マップなどの他のモダリティに拡張されます。

Zero123 モデルも同様の考え方を採用し、条件を視点として設定して画像生成を制御します。具体的には、オブジェクトの RGB 画像と相対的なカメラ変換が与えられると、Zero123 は拡散モデルを制御して、変換されたカメラの視点で新しい画像を合成できます。

Zero123 は、大規模な 3D データセットに基づいて、画像のペアとそれらの相対的なカメラ変換を合成することにより、安定した拡散を微調整します。

微調整データセットを作成する過程で、Zero123 は、オブジェクトが座標系の原点を中心としていると想定し、球面カメラを使用します。つまり、カメラは球面上に配置され、常に原点を向いています。カメラの位置パラメータには、極角、方位角、半径が含まれます。2 点間の差が相対的なカメラ変換パラメータです。

目標は、入力が「初期ビュー、カメラ変換パラメータ」の場合と「変換されたビュー」の場合で f が同様に認識されるようなモデル f を学習することです。

実験結果は、この微調整方法により、安定拡散モデルがカメラの視点を制御するための一般的なメカニズムを学習し、微調整データセット外のオブジェクトを推測できることを示しています。

NeRF 最適化により、3D へのマルチビュー予測が改善されますか?

オブジェクトの単一の画像が与えられれば、Zero123 を使用してマルチビュー画像を生成できますが、従来の NeRF ベースまたは SDF ベースの方法を使用してこれらの予測から高品質の 3D メッシュを再構築できるでしょうか?

研究者らは、まず1枚の画像が与えられた場合、Zero123を使用して球面からカメラのポーズを均一にサンプリングし、32枚のマルチビュー画像を生成し、次に予測結果をNeRFベースの方法（TensoRF）とSDFベースの方法（NeuS）に入力して、それぞれ密度フィールドとSDFフィールドを最適化しました。

写真

しかし、これら 2 つの方法はどちらも満足のいく結果を達成せず、生成された結果には、主に Zero123 の予測の一貫性の欠如が原因で、多くの歪みと浮動小数点が含まれていました。

写真

2段階ソースビュー選択とグラウンドトゥルース予測のハイブリッドトレーニング

SparseNeuS の論文では正面ビューの再構築のみが実証されていましたが、研究者らはこれを拡張し、トレーニング中に特定の方法でソースビューを選択し、深い監視を追加することで、単一のフィードフォワードパスで 360 度メッシュを再構築しました。

Zero123 モデルのパラメータを固定した後、3D オブジェクトデータセットでトレーニングします。

トレーニングシェイプは Zero123 に従って正規化され、球面カメラモデルが使用されます。各シェイプに対して、球面上に均等に分散された n 個のカメラポーズからの n 個の実際の RGB 画像と深度画像が最初にレンダリングされます。各ビューに対して、Zero123 を使用して 4 つの近くのビューが予測されます。

トレーニング中、4×n のすべての予測と実際のポーズが再構築モジュールに入力され、n 枚の実際の RGB 画像から 1 つのビューがターゲットビューとしてランダムに選択されます。次に、実際の RGB 値と深度値を使用して教師ありトレーニングが実行され、モデルは Zero123 からの一貫性のない予測を処理し、一貫性のある 360° グリッドを再構築することを学習します。

カメラ位置推定

研究者らは、入力画像の仰角を推測するための仰角推定モジュールを提案した。

まず、Zero123 を使用して入力画像の 4 つの隣接ビューを予測し、次に、粗い角度から細かい角度まで、すべての可能な仰角を列挙します。

各仰角候補について、4 つの画像に対応するカメラ姿勢が計算され、このカメラ姿勢セットの再投影誤差が計算されて、画像とカメラ姿勢の一貫性が測定されます。

再投影誤差が最小となる仰角を使用して、入力ビューのポーズと相対ポーズを組み合わせて、すべての 4×n ソースビューのカメラポーズを生成します。

実験結果

写真

定性的な実験結果から、Point-E、Shap-E、および数百万の 3D データでトレーニングされた他のモデルを含む既存のゼロショット画像 3D 再構築方法と、安定拡散事前分布に基づく最適化方法を比較すると、One-2-3-45 モデルは合成画像と実際の画像の両方の処理に非常に効果的であることがわかります。

写真

研究者らは、Objaverse と Google Scanned Objects (GSO) データセットでこれらの手法を定量的に比較しました。

各データセットについて、20 個の図形がランダムに選択され、評価のために図形ごとに 1 つの画像がレンダリングされます。

予測を実際のグリッドに合わせるために、スケーリング係数と回転角度の線形検索が実行され、サンプリングされたポイントクラウドに反復最近傍ポイント (ICP) が適用され、最も外れ値の多いポイントクラウドが選択されます。

RealFusion に続いて、F スコア (しきい値 0.05) と CLIP 類似度、および A100 GPU での実行時間を測定しました。

写真

実験結果から、この方法は F スコアの点ではすべてのベースライン方法よりも優れており、CLIP 類似性の点では Shap-E を除くすべての方法よりも優れていることがわかります。

また、CLIP 類似度は色の分布に対して非常に敏感ですが、局所的な幾何学的変化 (スツールの脚の数やカップの取っ手の数など) に対する識別力が低いこともわかります。

実行時間に関して、この方法は最適化ベースの方法に比べて明らかに有利であり、そのパフォーマンスは Point-E や Shap-E などの 3D ネイティブ拡散モデルに匹敵します。つまり、3D 再構築モジュールは 3D メッシュを再構築するのに約 5 秒しかかからず、残りの時間は主に Zero123 予測に使用され、A100 GPU では画像ごとに約 1 秒かかります。

<<: Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏：より正確なAIにはより正確なデータが必要

>>: