3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです。

あるいは「VRメガネをかけた猫」:

説明を満たす高品質のテクスチャ マップを持つ 3D シーンを生成できます。それだけでなく、既存の 3D モデルの微調整マッピングも実行できます。

これは香港大学と清華大学が共同開発したスター3D生成企業VAST AIが開発した新しい方法で、複雑なテキスト記述から想像力豊かで高品質な3Dモデルを直接生成することができます。

現在、この研究成果は人工知能のトップカンファレンス「ICLR 2024」に収録されており、コードはオープンソース化されています。この研究に興味のある方は、以下のプロジェクトのホームページと論文のアドレスをご覧ください。

  • 論文アドレス: https://arxiv.org/abs/2310.19415
  • プロジェクトアドレス: https://xinyu-andy.github.io/Classifier-Score-Distillation
  • コードアドレス: https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 論文タイトル: 分類スコア蒸留によるテキストから 3D への変換

それで、具体的にはどのようにこれを実現するのでしょうか?新しい方法が何であるかを理解する前に、まず既存の方法の問題点を理解しましょう。

従来の生成モデルが直面するジレンマ

インタラクティブ ゲーム、映画芸術、拡張現実/仮想現実、シミュレーション テクノロジーなどのさまざまなアプリケーション シナリオでは、高品質の 3D アセットを作成することが常に重要かつ困難な問題となっています。

現在、ほとんどの生成モデルはトレーニングのために現場の大量の高品質データに依存していますが、3D 分野ではそのようなデータセットは非常に不足しています。この結果、3D データに基づいてトレーニングされた現在の 3D 生成モデルでは、画像分野での成功を再現することができません。

2D事前分布に基づく3D生成法

この問題を解決するために、Google の Dream Fusion は最初にスコア蒸留サンプリング (SDS) 方式を提案し、事前にトレーニングされた 2 次元拡散モデルを通じて高品質で複雑な 3 次元結果を生成できることを証明しました。このパラダイムの利点は、3D データの事前トレーニングなしで 3D モデルを生成できることです。このアーキテクチャは、Nvidia の Magic3D などの研究者やその後の作業で使用されてきました。その中核となる理論は、レンダリングされたイメージをテキスト条件下で高確率密度領域に向かって移動させることにより、3D シーンを逆に生成することです。

SDS ベースの方法は目覚ましい成果を上げていますが、本論文の研究者らは、主に SDS ベースの方法が一般に分類子フリー ガイダンス (CFG) に依存しているため、実際の実装では SDS ベースの方法と理論の間に常に何らかのギャップがあることを発見しました。

CFG を使用する場合、最適化を推進する勾配は実際には 2 つの部分で構成されます。1 つはデータ密度の勾配で、もう 1 つは事後関数の勾配です。前者は SDS 理論の重要な部分に対応し、後者は実験中に追加された補助手段にすぎません。

分類器スコア蒸留: 3D 生成を改革する鍵

この論文の主な貢献は、SDS における CFG の役割を再評価し、CFG が単なる補助手段ではなく、逆にテキストから 3D への生成における重要な推進力であることを発見することです。この部分は暗黙の分類モデルとして解釈できるため、研究者はこの新しいパラダイムをClassifier Score Distillation (CSD)と名付けました。

この発見は、分留に基づくテキストから 3D への生成の成功の基盤となるメカニズムに対する私たちの理解を根本的に変えるものです。具体的には、その有効性は、生成事前確率に頼るのではなく、暗黙の分類子から知識を抽出することから生まれます。

CSD の導入により、既存の技術設計の選択を再検討できるようになります。たとえば、ネガティブなヒントはネガティブな分類スコアとして扱うことができ、ヒントされた結果への忠実性を維持しながら生成品質を向上させる漸進的なネガティブな分類スコアの最適化戦略につながることを示します。

さらに、この研究では、分類子スコアを効率的なテキスト駆動型 3D 編集に使用する可能性も明らかにし、変分スコア蒸留技術を負の分類子スコア最適化の適応形式として検討しました。

実験結果

CSD は、理論上のテキストから 3D への生成の分野に新たな視点を提供するだけでなく、実際のアプリケーションでも優れたパフォーマンスを発揮します。

主要な 3D 生成タスクに関する実験結果によると、この方法は Dream Fusion、Magic3D、Fantasia3D などの既存のテクノロジと比較して、テキストの配置と視覚品質が大幅に改善され、生成されたテクスチャもリアルで豊かであることが示されています。

速度の面では、CSD は単一の A800 GPU でタスクを完了するのに 1 時間しかかかりませんが、同じ視覚効果を実現できる Prolific Dreamer メソッドでは最大 8 時間かかります。この大幅な速度の利点と優れた発電品質が相まって、CSD テクノロジーの効率性と実用性が実証されています。

さらに、定量評価に採用された CLIP R-Precision メトリックにより、CSD の優位性がさらに確認されました。ユーザー調査では、参加者の 59.4% が CSD によって生成された結果を好んでいることも示されました。

実験部分では、テクスチャ生成タスクにおける CSD の能力を複数の方法と比較します。実験結果では、効果とユーザー調査の両方の点で他の方法よりも優れていることが示されています。

さらに、研究者らはCSDを使用して既存の3Dシーンを編集する方法も実演しました。下の図に示すように、CSDを使用してバナナマンをキュウリマンに編集したり、モデル上の苔を花に編集したりしても、他の部分は失われません。

要約すると、CSD は、現在の 3D 生成の鍵を理論的な観点から再考し、最適化の目標を再構築し、最終的に複数のタスクにおけるその優位性と強力な可能性を実証します。この新しいパラダイムを徹底的に調査して適用することで、テキスト記述から高品質かつ高精度の 3D コンテンツをより効果的に生成できるようになり、3D コンテンツ作成分野の将来の発展に大きな影響を与えます。

<<: 

>>:  Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

推薦する

危険なAIアルゴリズムを識別し、倫理原則に従ったビッグデータモデルを作成する方法

人工知能がもたらす脅威について議論するとき、スカイネット、マトリックス、ロボットによる終末の世界とい...

...

...

AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!

AI による自動プログラミングを可能にすることは、人工知能分野における長年の夢の 1 つです。現在...

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...

...

機械学習が医療に革命を起こす

その中で、ヘルスケア業界は強力なスポンサーであり、新しいテクノロジーを積極的に導入してきました。人工...

ドローン技術の最新動向

ドローン分野へと私たちを導いた技術開発はそこで止まりませんでした。ドローンが軍事目的以外の目的で使用...

...

...

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

[[334476]] AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実...

PyTorchに負けました! GoogleはTensorFlowを放棄し、JAXに賭ける

私はネットユーザーの一部が言ったことにとても満足しています。 「この子は本当にダメだ、もう一匹産もう...

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるよう...

なぜ「ハイエンド」アルゴリズムエンジニアはデータ移民労働者になったのでしょうか?

まず、Zhihu の「アルゴリズム エンジニアになるのはどんな感じか」という質問に対する私の回答を共...