ヴィンセントの3Dモデルが大躍進しました！ MVDreamは、超リアルな3Dモデルを一文で生成します

すごいですね！

数語を入力するだけで、美しく高品質な 3D モデルを作成できるようになりました。

ちょうど今、海外のブログがインターネット上で大騒ぎになり、MVDream と呼ばれるものが私たちの前に現れました。

ユーザーは、ほんの数語を入力するだけで、リアルな 3D モデルを作成できます。

そして以前とは異なり、MVDream は実際に物理学を「理解」しているようです。

このMVDreamがどれだけ魔法のようか見てみましょう〜

MVドリーム

その人は、ビッグモデルの時代では、テキスト生成モデルや画像生成モデルが多すぎると言いました。そして、これらのモデルのパフォーマンスはますます強力になっています。

その後、私たちは Vincent ビデオモデルの誕生を目の当たりにし、もちろん今日お話しする 3D モデルも誕生しました。

文章を 1 つ入力するだけで、現実世界に存在するかのように見え、必要な詳細がすべて含まれたオブジェクトのモデルを生成できるとしたら、どれほどすばらしいことか想像してみてください。

そして、特にユーザーがモデルを生成するために必要な詳細が十分に現実的でなければならない場合、これは決して簡単な作業ではありません。

まずは効果を見てみましょう〜

同じプロンプト、MVDream の完成品は右端にあります。

5 つのモデル間の違いは肉眼で確認できます。これまでのモデルは客観的な事実と完全に矛盾しており、特定の観点から見た場合にのみ正しいものとなります。

たとえば、最初の 4 つの画像では、生成されたモデルには実際には 2 つ以上の耳があります。 4枚目の写真の方が詳細に描かれているように見えますが、ある角度から見ると、キャラクターの顔が凹んでいて、耳が付いていることがわかります。

誰が理解したでしょうか？編集者はすぐに、以前とても人気があったペッパピッグの正面図を思い出しました。

それは、特定の角度が示され、他の角度を見てはいけない、さもなければ死んでしまう、というようなものです。

しかし、一番右のMVDreamの世代モデルは明らかに異なります。 3Dモデルをどのように回転させても、違和感は感じません。

これは私が最初に述べたことです。MVDream は物理学の常識を本当に理解しており、各ビューに 2 つの耳があることを確認するために奇妙なことをすることはありません。

その人は、3D モデルが成功するかどうかを判断する上で最も重要なことは、さまざまな視点からモデルが十分にリアルで高品質であるかどうかを観察することだと指摘しました。

また、複数の耳があるモデルではなく、モデルの空間的な一貫性も確保する必要があります。

3D モデルを生成する主な方法の 1 つは、カメラの視点をシミュレートし、特定の視点から見えるものを生成することです。

つまり、これは 2D リフティングと呼ばれます。さまざまな視点をつなぎ合わせて最終的な 3D モデルを形成します。

上記の複数の耳の状況は、生成モデルが 3 次元空間内のオブジェクト全体の形状に関する十分な情報を持たないために発生します。 MVDream はこの点で大きな前進です。

新しいモデルは、これまで発生していた 3D パースペクティブの一貫性の問題を解決します。

分留サンプリング

使用される方法は、DreamFusion によって開発されたスコア蒸留サンプリングと呼ばれます。

分留サンプリング技術を理解する前に、この方法で使用されるアーキテクチャを理解する必要があります。

つまり、これは、DALLE、MidJourney、Stable Diffusion モデルに似た、2 次元画像用の別の拡散モデルです。

具体的には、すべては、Stable Diffusion 生画像に基づくオープンソースモデルである、事前トレーニング済みの DreamBooth モデルから始まります。

そして、変化が起こりました。

研究チームが次に行ったのは、1 つの画像だけではなく、多視点画像のセットを直接レンダリングすることでした。このステップでは、さまざまなオブジェクトの 3 次元データセットが必要です。

ここで、研究者たちはデータセットから3次元オブジェクトの複数のビューを取得し、それらを使用してモデルをトレーニングし、それらのビューを逆方向に生成しました。

具体的なアプローチは、下の図の青い自己注意ブロックを 3 次元の自己注意ブロックに変更することです。つまり、研究者は 1 つの画像ではなく複数の画像を再構築するために 1 つの次元を追加するだけで済みます。

下の画像では、どの画像がどこで使用されるか、どのようなビューを生成する必要があるかをモデルが理解できるように、カメラとタイムステップも各ビューのモデルに入力されていることがわかります。

これで、すべての画像が接続され、生成も一緒に実行されます。そうすることで、情報を共有し、全体的な状況をよりよく理解できるようになります。

次に、テキストがモデルに入力され、データセットからオブジェクトを正確に再構築するようにトレーニングされます。

そして、研究チームはここで、マルチビュースコア蒸留サンプリングプロセスを適用しました。

現在、マルチビュー拡散モデルにより、チームはオブジェクトの複数のビューを生成できます。

次のステップは、これらのビューを使用して、ビューだけでなく現実世界と一致する 3D モデルを再構築することです。

これには、前述の DreamFusion と同様に、NeRF (神経放射フィールド) の使用が必要です。

基本的に、このステップでは、以前にトレーニングされたマルチビュー拡散モデルを固定します。つまり、このステップでは、上記の視点の画像は「使用」されるだけで、再度「トレーニング」されることはありません。

研究者たちは、最初のレンダリングを参考にして、マルチビュー拡散モデルを使用して、最初の画像のノイズを追加したバージョンを生成し始めました。

研究者たちは、コンテキストを把握しながら画像の異なるバージョンを生成する必要があることをモデルに知らせるためにノイズを追加しました。

このモデルは、さらに高品質の画像を生成するために使用されます。

この画像を生成するために使用した画像を追加します。手動で追加したノイズが削除されているので、その結果を使用して次のステップで NeRF モデルをガイドおよび改善できます。

これらのステップはすべて、次のステップでより良い結果を生成するために、NeRF モデルが画像のどの部分に重点を置くべきかをよりよく理解することが目的です。

このプロセスは、満足のいく 3D モデルが生成されるまで繰り返されます。

このようにして、チームはマルチビュー拡散モデルの画像生成品質を評価し、さまざまな設計がパフォーマンスにどのように影響するかを判断しました。

まず、彼らは、クロスビューの一貫性をモデル化するための注意モジュールの選択を比較しました。

これらのオプションには以下が含まれます。

（１）ビデオ拡散モデルで広く使用されている１次元の時間的自己注意。

（２）既存のモデルに新たな3D自己注意モジュールを追加する。

（３）既存の2D自己注意モジュールを3D注意に再利用する。

この実験では、これらのモジュール間の違いを明確に示すために、研究者はビデオ設定に近い 90 度の視点変更を 8 フレーム使用してモデルをトレーニングしました。

同時に、研究チームは実験において、元の標準解像度モデルと同じ512×512という高い画像解像度も維持しました。結果は下の図に示されています。研究者は、静的なシーンでこのような限定的な視点の変化があっても、時間的な自己注意は依然としてコンテンツシフトの影響を受け、視点の一貫性を維持できないことを発見しました。

研究チームは、時間的注意は異なるフレーム内の同じピクセル間でしか情報を交換できないのに対し、視点が変わると対応するピクセルが離れてしまう可能性があるためだと仮説を立てている。

一方、一貫性を学習せずに新しい 3D アテンションを追加すると、品質が大幅に低下します。

研究者たちは、これは新しいパラメータをゼロから学習すると、より多くのトレーニングデータと時間が消費され、3D モデルが制限されている状況には適さないためだと考えています。研究者らが提案した 2D 自己注意を再利用する戦略は、生成品質を低下させることなく最高の一貫性を実現します。

チームはまた、画像サイズを 256 に縮小し、ビューの数を 4 に縮小すると、これらのモジュール間の違いが大幅に小さくなることにも気付きました。しかし、最良の一貫性を実現するために、研究者らは次の実験における予備的な観察に基づいて選択を行いました。

さらに、研究者らは、マルチビュー分留サンプリングのために、統一されたフレームワークの下で最先端のテキストから 3D モデルへの生成方法を実装する ThreeStudio (THR) ライブラリにマルチビュー拡散のガイダンスを実装しました。

研究者らは、マルチ解像度ハッシュグリッドを含む ThreeStudio の暗黙ボリューム実装を 3D 表現として使用しました。

カメラビューについては、研究者は 3D データセットをレンダリングするときとまったく同じ方法でカメラをサンプリングしました。

さらに、研究者らは、学習率 0.01 で 10,000 ステップにわたって AdamW オプティマイザーを使用して 3D モデルを最適化しました。

分留サンプリングの場合、最初の 8000 ステップで、最大および最小の時間ステップはそれぞれ 0.98 ステップから 0.5 ステップと 0.02 ステップに短縮されます。

レンダリング解像度は 64×64 から始まり、5000 ステップ後に徐々に 256×256 まで増加します。

その他の例は次のとおりです。

上記は、研究チームが 2D テキストから画像へのモデルを使用し、それをマルチビュー合成に使用し、最終的にそれを使用してテキストから 3D モデルへのプロセスを反復して作成した方法です。

もちろん、この新しい方法にはまだ一定の制限があります。最も重要な欠点は、現在生成される画像の解像度が 256 x 256 ピクセルしかないことです。これは非常に低い解像度です。

さらに研究者らは、このタスクを実行するために使用されるデータセットのサイズによって、この方法の汎用性がある程度制限されることを指摘している。データセットが小さすぎると、複雑な世界をより現実的に反映することができなくなるためである。

<<: 生成 AI の世界的な投資と資金調達は 220 億ドルで、そのうち 89% を米国が占めています。 OpenAIは中国のAIチップへの総投資額と資金調達額の60%以上を占めており、世界第1位、米国の2倍となっている。

>>:

2026年までに、AIを活用したARアプリケーションのユーザー数は2億人を超える

ヴィンセントの3Dモデルが大躍進しました！ MVDreamは、超リアルな3Dモデルを一文で生成します

MVドリーム

分留サンプリング

2026年までに、AIを活用したARアプリケーションのユーザー数は2億人を超える

AIの未来はエッジにある

4つのディープラーニングフレームワークの紹介：初心者はどのように選択すべきか？

AI監視の影響について知っておくべき3つのこと

生物学的ニューラルネットワークから人工ニューラルネットワークへ

ニューラルネットワークのデバッグは難しすぎる。6つの実用的なヒントをご紹介します

未来に向けて：IoT + AIが人類の進化の方向となる

科学ニュース！光速でのディープラーニングを実現、GPUに別れを告げる

メタヘッドセットが舌トラッキング機能を追加、ネットユーザー衝撃「理由は聞かないし、知りたくもない」

推薦する

AIと機械学習をサイバーセキュリティに組み込む方法

キッシンジャー：今やAIは人間が世界を理解するための第3の方法となっている

2019年の人工知能の開発動向

アメリカの科学者たちは氷でロボットカーを作りました。この車は自分で車輪を修理することができ、火星と南極に行く予定です。

データサイエンスと機械学習の違いは何ですか?

ビル・ゲイツ: 生成AIは限界に達した

Google エンジニア: AI テクノロジーにより、5 年以内に人間とコンピューターの会話が実現する

人工知能の力: ウェブ開発者がいまだに雇用されている理由

ChatGPTのサプライチェーンへの応用の可能性