大規模マルチビューガウスモデル(LGM):5秒で高品質の3Dオブジェクトを生成、試用可能

大規模マルチビューガウスモデル(LGM):5秒で高品質の3Dオブジェクトを生成、試用可能

メタバースにおける 3D クリエイティブ ツールの需要の高まりに対応するため、3 次元コンテンツ生成 (3D AIGC) が最近大きな注目を集めています。さらに、3D コンテンツの作成は、品質と速度の両面で大きな進歩を遂げました。

現在のフィードフォワード生成モデルは数秒で 3D オブジェクトを生成できますが、トレーニング中に必要となる集中的な計算によって解像度が制限され、結果としてコンテンツの品質が低下します。ここで疑問が生じます。わずか 5 秒で高解像度、高品質の 3D オブジェクトを生成することは可能なのでしょうか?

この論文では、北京大学、南洋理工大学S-Lab、上海人工知能研究所の研究者らが、単一視点の画像やテキスト入力からわずか5秒で高解像度かつ高品質の3次元オブジェクトを生成できる新しいフレームワークLGM、すなわちLarge Gaussian Modelを提案した。

現在、コードとモデルの重みは両方ともオープンソースです。研究者らは、誰でも試せるオンラインデモも提供した。

  • 論文タイトル: LGM: 高解像度 3D コンテンツ作成のための大規模マルチビュー ガウス モデル
  • プロジェクトホームページ: https://me.kiu​​i.moe/lgm/
  • コード: https://github.com/3DTopia/LGM
  • 論文: https://arxiv.org/abs/2402.05054
  • オンラインデモ: https://huggingface.co/spaces/ashawkey/LGM

この目標を達成するために、研究者は次の 2 つの課題に直面しています。

  1. 限られた計算労力で効率的な 3D 表現: 既存の 3D 生成作業では、3 平面ベースの NeRF を 3D 表現およびレンダリング パイプラインとして使用しています。高密度シーン モデリングとレイ トレーシング ボリューム レンダリング テクノロジにより、トレーニング解像度 (128×128) が大幅に制限されるため、最終的に生成されるコンテンツのテクスチャがぼやけて品質が低下します。
  2. 高解像度の 3D バックボーン生成ネットワーク: 既存の 3D 生成作業では、一般的なオブジェクトをモデル化するために十分な密度のパラメータ数を確保するために、バックボーン ネットワークとして高密度トランスフォーマーを使用していますが、これによりトレーニング解像度がある程度犠牲になり、最終的な 3D オブジェクトの品質が低下します。

この目的のために、本論文では、4 ビュー画像から高解像度の 3D 表現を合成し、既存のテキストからマルチビュー画像、または単一画像からマルチビュー画像へのモデルを通じて、高品質のテキストから 3D および画像から 3D へのタスクをサポートする新しい方法を提案します

技術的には、 LGM コア モジュールは Large Multi-View Gaussian Model です。ガウススパッタリングにヒントを得たこの方法では、効率的で軽量な非対称 U-Net をバックボーン ネットワークとして使用し、4 ビュー画像から高解像度のガウス プリミティブを直接予測し、最終的に任意の視点からの画像にレンダリングします。

具体的には、バックボーン ネットワーク U-Net は、4 つの視点からの画像と対応する Plücker 座標を受け取り、複数の視点から一定数のガウス特徴を出力します。このガウス特徴のセットは最終的なガウスプリミティブに直接融合され、微分可能なレンダリングを通じてさまざまな視点からの画像が得られます。

このプロセスでは、クロスビュー自己注意メカニズムを使用して、計算オーバーヘッドを低く抑えながら、低解像度の特徴マップ上の異なるビュー間の相関関係をモデル化します。

このようなモデルを高解像度で効率的にトレーニングすることは簡単ではないことに注意する必要があります。堅牢なトレーニングを実現するために、研究者は依然として次の 2 つの問題に直面しています。

理由の 1 つは、トレーニング フェーズでは、オブジェクト データセットでレンダリングされた 3 次元の一貫性のあるマルチビュー画像が使用されるのに対し、推論フェーズでは既存のモデルを直接使用して、テキストまたは画像からマルチビュー画像を合成するためです。しかし、このモデルに基づいて合成されたマルチビュー画像には常にマルチビュー不整合の問題があるため、このドメインギャップを補うために、本論文ではグリッド歪みに基づくデータ拡張戦略を提案します。つまり、画像空間内の3つのビューの画像にランダムな歪みを適用して、マルチビュー不整合をシミュレートします

第二に、推論段階で生成されるマルチビュー画像は、カメラ視点の3次元形状の一貫性を厳密に保証するものではないため、本論文では、3つの視点のカメラポーズをランダムに摂動させてこの現象をシミュレートし、推論段階でのモデルをより堅牢なものにしています

最後に、生成されたガウス プリミティブは、教師あり学習によって 2D 画像上で直接エンドツーエンドで学習される微分レンダリングを介して対応する画像にレンダリングされます。

トレーニング後、LGM は既存の画像からマルチビューへの拡散モデルまたはテキストからマルチビューへの拡散モデルを通じて、高品質のテキストから 3D へのタスクと画像から 3D へのタスクを実現できます。

この方法では、同じ入力テキストまたは画像が与えられれば、多様で高品質な 3D モデルを生成できます。

下流のグラフィックス タスクをさらにサポートするために、研究者らは、生成されたガウス表現を滑らかでテクスチャのあるメッシュに変換する効率的な方法も提案しました。

詳細については原文論文を参照してください。

<<:  ミッドジャーニー創設者:著作権の問題に対する解決策は今のところなく、AI生成画像はアーティストに取って代わることを意図したものではない

>>:  ジェミニはソラの動画がAI生成だと一目でわかるのか?数百万のトークンのコンテキスト機能がGPT-4を圧倒

ブログ    
ブログ    

推薦する

新たなAI詐欺事件が発覚! 「人工知能」は「インテリジェントな人工知能」ほど優れていないのでしょうか?

AIが「コーダー」に取って代わるという現実はまだ実現していないが、その逆を行い、コーダーを使ってA...

生成AIにおけるデータ制限を克服する方法

生成 AI は、トレーニングに使用されるデータに大きく依存します。ただし、データの制限により、望まし...

製造業の変革を促進、産業改革のためのAI主導ソリューション

製造業において、インダストリー 4.0 は単なる流行語ではなく、新たな現実となっています。新型コロナ...

...

テンセントクラウドがAIペイント製品をリリース、25以上の生成スタイルをサポート

9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...

完全な自動運転まであとどれくらいでしょうか?答えはセンサー技術の発展にある

近年、新エネルギー車が次々と登場し、販売も増加し続けています。テスラ、ウェイラン、小鵬汽車などの新エ...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...

...

この3つのロボットを知っていますか?

ロボットには、人間との感情的なつながりを築くように設計されたフレンドリーなロボットから、複雑なタスク...

Java で実装されたいくつかの一般的なソートアルゴリズムの詳細な解釈

ソートアルゴリズムはさまざまな場所で使用されています。最近、そのアルゴリズムを読み直し、自分で簡単に...

アコーディオン: HBase の「呼吸」メモリ圧縮アルゴリズム

導入現在、HBase を搭載した最新の製品では、HBase の読み取りおよび書き込みパフォーマンスに...

研究者たちは建設における人工知能の利用を研究している

過去数十年にわたり、AI ツールは、コンピューター サイエンスから製造、医学、物理学、生物学、さらに...

500以上の研究と50以上のモデルを網羅したコードビッグモデルレビューがここにあります

BERT や GPT などの事前トレーニング済みのトランスフォーマーの登場により、言語モデリングは近...

...