3D AI生成は近年急速に発展しており、最新の作品の多くは文章・画像から高品質な3Dモデルを生成できるようになっています。しかし、昨年後半のDreamFusionやMagic3Dから最新のProlificDreamerに至るまで、作業のほとんどは各オブジェクトを最適化して3Dモデルを生成することです。この方法では、既存の 3D AI 生成方法に非常に時間がかかります。たとえば、ProlificDreamer の作者はかつて Zhihu で、この方法の主な制限の 1 つは生成時間が遅すぎることだと述べました。 「一般的に、安定拡散法を使ってPC上で画像を生成するのにかかる時間は数秒で、LoRAの微調整も高速です。しかし、解像度が高い場合は特に、3Dオブジェクトを生成するのに数時間を要します。レートが高いほど遅くなります。これは主に、3D 表現 (NeRF またはメッシュ) のパラメータを最適化するために、基本的に確率的勾配降下法に依存しているためです。この最適化プロセスには、多くの反復ステップが必要であり、 GPU のビデオ メモリに一定の要件があります。私たちが示す最終的な効果は、512 解像度の結果です。これらの結果の最適化には確かに非常に時間がかかるため、個々のユーザーが PC 上で直接私たちのアルゴリズムを使用することは依然として困難です。 ” 推論コストが高いと、研究者の実験の反復が遅くなるだけでなく、多くのリアルタイム アプリケーションに対する 3D AIGC テクノロジの商用実装と推進も妨げられます。 しかしつい最近、UCSD やその他の機関の研究者が新しい研究成果「One-2-3-45」を発表しました。これはオブジェクトごとの最適化生成パラダイムから脱却し、テスト中に各オブジェクトを最適化する必要なく、単一の画像/テキストから 45 秒以内に 3D テクスチャ メッシュを生成できます。
One-2-3-45 は、既存のテキストベースのグラフ モデル (DALL-E2 など) と組み合わせることで、任意のテキストから 3D モデルを生成することもサポートします。 この論文は発表されるとすぐに、ツイッター界の大物AK氏によって宣伝・再投稿され、ネットユーザーから広く注目を集めた。 写真 ネットユーザーの Xin Kong さんは次のようにコメントしました。「これは最高の時代であり、最悪の時代でもあります。これは 3D 拡散生成におけるインスタント NGP の瞬間かもしれません。30 分 -> 45 秒、分留なし、2D ビューから 3D への変換が最善の方法です。」 写真 方法3D データが不足しているため、学術界における最近の 3D AI 生成作業の大部分は、2D 拡散生成モデルを活用して NeRF などの 3D 表現の最適化をガイドすることで 3D コンテンツ生成を実現しています。 One-2-3-45 はこのパラダイムに従わず、まず 2D 拡散モデルを使用してマルチビュー画像を生成し、次にこれらのマルチビュー画像を使用して 3D モデルを再構築します。 具体的には、One-2-3-45 は視点制御に基づく 2D 拡散生成モデル Zero123 を活用します。 Stable Diffusion を微調整することで、モデルは単一の入力画像とカメラの相対的なポーズ変換を実現し、変換された視点の下でオブジェクトの対応する画像を予測できるようになります。 このタイプの 2D 拡散生成モデルを活用することで、単一の画像から対応するマルチビュー画像を予測して生成することができます。 写真 自然なアイデアとしては、これらのマルチビュー画像を従来の NeRF ベースの再構築方法に渡して 3D モデルを生成することが挙げられます。しかし、研究者たちは、これでは高品質の 3D モデルが生成されないことを発見しました (以下を参照)。 写真 これは実際には、ネットワークによって予測されたマルチビュー画像が潜在的に矛盾しているためです。ただし、NeRF ベースの最適化再構築方法では、いくつかの小さな矛盾でもメソッドがクラッシュする原因になります。 写真 上図に示すように、研究者らは予測されたマルチビュー画像を実際のデータと比較することで、Zero123 によって予測されたマルチビュー画像はピクセルレベルの精度が高くない (PSNR が高くない) ことを発見しました。ただし、全体的なシルエット (mIoU) と意味的/知覚的類似性 (CLIP 類似性) は、特に相対的なカメラポーズの変化が小さい場合に高くなります。これらの結果は、ネットワークによって予測されたマルチビュー画像を使用した 3D 再構築の実現可能性を示しています。 One-2-3-45 では、研究者はコストボリュームに基づく一般化可能な NeRF のような方法を使用して 3D 再構築を実現しました。このタイプの方法は、マルチビュー画像を入力として受け取り、追加の最適化なしでトレーニング後に 3D コンテンツを直接推測できます。これらの方法は、トレーニング データからマルチビュー予測の不一致に関する事前知識を学習するため、不一致なマルチビュー予測から 3D モデルを生成する場合に、より有望です。 写真 1-2-3-45法フローチャート 具体的には、One-2-3-45 はまずマルチビュー画像から 2D 画像の特徴を抽出し、カメラのポーズに基づいて 3D コスト ボリュームを構築します。次に、One-2-3-45 は 3D 畳み込みニューラル ネットワークを使用して、3D コスト ボリュームから入力マルチビュー イメージに対応する潜在的な 3D ジオメトリを推測し、最後に MLP を使用してボリューム レンダリング用のオブジェクトの SDF と色を予測します。 One-2-3-45 は、2D 拡散生成モデルとコスト ボリュームに基づく一般化可能な NeRF を組み合わせることで、1 回のフォワード パスで 3D モデルを生成できます。 One-2-3-45 は、時間のかかるオブジェクトごとの 3D 最適化を排除することで、高品質の 3D テクスチャ メッシュの生成にかかる時間を数時間からわずか 45 秒に短縮します。 しかし、このアイデアを実現する過程で、研究者たちはいくつかの具体的な課題に直面しました。 1. 既存の一般化可能な NeRF 手法のほとんどは、一貫性のあるマルチビュー画像 (実際のオブジェクトからレンダリング) を入力として受け取ります。しかし、このような方法を完全に一貫性のないマルチビュー予測に拡張するにはどうすればよいでしょうか? 2. 既存の一般化可能な NeRF 手法の多くは、前景領域の再構築に重点を置いています。しかし、3D 生成の問題では、完全な 360 度モデルを取得したいと考えています。 3. Zero123 は、相対的なカメラの姿勢を記述するために球面座標系を使用します。マルチビュー画像のカメラ姿勢を再構成モジュールに提供するには、入力画像に対応するカメラの仰角を取得する必要があります。 これらの課題に対処するために、研究者らは一連の主要なトレーニング戦略(段階的にマルチビュー画像を予測するなど)とピッチ角予測モジュールを提案しました。詳細については原論文を参照してください。 研究者らはまた、再構成モジュールは主に局所的な対応に依存しているため、トレーニングに必要なデータは少量で済み、一般化可能性も高いと指摘した。 既存の3D AI生成手法との比較研究者らは、「2Dマルチビュー予測+3D一般化再構成」という技術的ルートのおかげで、 One-2-3-45は推論時間を大幅に短縮するほか、既存の3D AI生成方法に比べて多くの利点があると述べた。また、入力の多様性、出力の幾何学的表現、結果の3D一貫性、入力との類似性、必要な3Dデータスケールなどの点でも利点がある。 写真 具体的には、オブジェクトごとの最適化に基づく多くの方法で高品質の 3D コンテンツを生成できますが、現在のところ 3D のテキスト生成のみがサポートされています(DreamFusion、Magic3D、ProlificDreamer など)。 One-2-3-45 は、3D のテキストと画像の両方の生成をサポートします。下の図は、One-2-3-45 と既存の主要な画像生成 3D 方式との比較を示しています。 NeRF 最適化に基づくいくつかの方法 (RealFusion や 3D Fuse など) は、新しい視点の合成の観点からは良好な結果を達成していますが、NeRF によって出力される幾何学的品質は満足できるものではないことがわかります。同様に、Point-E のネイティブ出力はスパース ポイント クラウドであり、後処理と再構築を行った後でも断片化や欠落領域が発生しやすくなります。 One-2-3-45 は SDF を予測してメッシュを抽出し、出力ジオメトリの品質がより有利になります。 もう 1 つの重要な点は、既存の方法の出力が入力画像の指示に完全に準拠していないことです。たとえば、最初の列のバックパックの場合、Zero123+SD によって生成されたバックパックにはストラップが 1 本しかありませんが、Shap-E によって生成されたバックパックにはストラップがありません。 2 列目の単一の消火器については、Shap-E と Point-E の両方が 2 つの接続された消火器を予測します。 4 列目のスツールについては、One-2-3-45 と 3DFuse のみが入力画像の椅子の脚の構造を保持していることがわかります。ただし、3DFuse によって生成されるすべての 3D コンテンツは、特定のスタイルと詳細の点で入力画像とはまったく異なることに注意してください。 さらに研究者らは、オブジェクトごとの最適化に基づく方法では、3D の一貫性において課題が発生することが多いことも指摘しました。生成される 3D モデルは、ファセット (またはヤヌス問題) に悩まされることがよくあります。たとえば、上の画像では、RealFusion は両面バックパックを生成します。それに比べて、One-2-3-45 によって生成された結果の 3D 一貫性ははるかに優れています。 研究者らはまた、OpenAIのPoint-EとShap-Eがトレーニング中に何百万レベルもの内部3Dデータを使用したとも述べた。 3D データが不足しているため、このような大規模なトレーニング データは、多くの研究者や機関にとって依然として比較的厳しい条件です。 前述の問題に加えて、既存の Wensheng 3D 方式では入力テキストの把握があまり得意ではないことがわかります。たとえば、「中が空洞の木」、「緑の脚が付いたオレンジ色のスツール」、「ハバナ風のパイナップル型の帽子」、「木製のキノコ」などの入力テキストの場合、既存の方法では正確に一致する 3D コンテンツを生成することができません。対照的に、 One-2-3-45 が採用した、対応する画像を 2D で生成し、それを 3D にアップグレードするというアプローチは、入力テキストをより正確に制御できる方法であると思われます。 結論One-2-3-45は「2Dマルチビュー予測+3D一般化再構成」と呼ばれる新しい3D AI生成方法を提案し、多くの面でその優位性を実証しました。 One-2-3-45 の現在の世代の品質は、オブジェクトごとの最適化に基づく Vincent 3D モデルの一部ほど良くないかもしれませんが、この新しいゲームプレイの探索と改善の領域は可能性に満ちている可能性があります。 |
<<: GPT-4が「愚か」になったと誰もが不満を言っていますが、これはアーキテクチャの再設計が原因かもしれません。
>>: GPT-4はプロンプトインジェクション攻撃に対して脆弱であり、誤った情報につながる
[[348375]]この記事はWeChatの公開アカウント「Java Chinese Commun...
ハイパースケールかエンタープライズかを問わず、現代のあらゆるデータセンターは、より広範なイノベーショ...
今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化デ...
2020 年は、IT プロフェッショナルがインフラストラクチャを管理およびプロビジョニングする方法を...
[[384617]]過去 20 年間がインターネットの急速な発展の 20 年間であったとすれば、次の...
企業がビッグデータを活用するには、データ サイエンティストと開発者がデータを準備して整理し、アナリス...
今年に入ってからは、ChatGPTやGPT-4などの技術の応用により、深層合成製品やサービスが増加し...
多くのニューラル ネットワーク フレームワークは長年にわたってオープン ソース化されており、機械学習...
[[256196]] [51CTO.com クイック翻訳] このチュートリアルでは、Stackove...
先週、ノースウェスタン大学の研究者らは、胸部X線写真からCOVID-19感染の兆候を検出できる新たな...
アマゾンは、同社が「未来を実現する」のに役立つと主張する一連の新しいドローンとロボットを発表した。し...