すごいですね! 数語を入力するだけで、美しく高品質な 3D モデルを作成できるようになりました。 ちょうど今、海外のブログがインターネット上で大騒ぎになり、MVDream と呼ばれるものが私たちの前に現れました。 ユーザーは、ほんの数語を入力するだけで、リアルな 3D モデルを作成できます。 そして以前とは異なり、MVDream は実際に物理学を「理解」しているようです。 このMVDreamがどれだけ魔法のようか見てみましょう〜 MVドリームその人は、ビッグモデルの時代では、テキスト生成モデルや画像生成モデルが多すぎると言いました。そして、これらのモデルのパフォーマンスはますます強力になっています。 その後、私たちは Vincent ビデオ モデルの誕生を目の当たりにし、もちろん今日お話しする 3D モデルも誕生しました。 文章を 1 つ入力するだけで、現実世界に存在するかのように見え、必要な詳細がすべて含まれたオブジェクトのモデルを生成できるとしたら、どれほどすばらしいことか想像してみてください。 そして、特にユーザーがモデルを生成するために必要な詳細が十分に現実的でなければならない場合、これは決して簡単な作業ではありません。 まずは効果を見てみましょう〜 同じプロンプト、MVDream の完成品は右端にあります。 5 つのモデル間の違いは肉眼で確認できます。これまでのモデルは客観的な事実と完全に矛盾しており、特定の観点から見た場合にのみ正しいものとなります。 たとえば、最初の 4 つの画像では、生成されたモデルには実際には 2 つ以上の耳があります。 4枚目の写真の方が詳細に描かれているように見えますが、ある角度から見ると、キャラクターの顔が凹んでいて、耳が付いていることがわかります。 誰が理解したでしょうか?編集者はすぐに、以前とても人気があったペッパピッグの正面図を思い出しました。 それは、特定の角度が示され、他の角度を見てはいけない、さもなければ死んでしまう、というようなものです。 しかし、一番右のMVDreamの世代モデルは明らかに異なります。 3Dモデルをどのように回転させても、違和感は感じません。 これは私が最初に述べたことです。MVDream は物理学の常識を本当に理解しており、各ビューに 2 つの耳があることを確認するために奇妙なことをすることはありません。 その人は、3D モデルが成功するかどうかを判断する上で最も重要なことは、さまざまな視点からモデルが十分にリアルで高品質であるかどうかを観察することだと指摘しました。 また、複数の耳があるモデルではなく、モデルの空間的な一貫性も確保する必要があります。 3D モデルを生成する主な方法の 1 つは、カメラの視点をシミュレートし、特定の視点から見えるものを生成することです。 つまり、これは 2D リフティングと呼ばれます。さまざまな視点をつなぎ合わせて最終的な 3D モデルを形成します。 上記の複数の耳の状況は、生成モデルが 3 次元空間内のオブジェクト全体の形状に関する十分な情報を持たないために発生します。 MVDream はこの点で大きな前進です。 新しいモデルは、これまで発生していた 3D パースペクティブの一貫性の問題を解決します。 分留サンプリング使用される方法は、DreamFusion によって開発されたスコア蒸留サンプリングと呼ばれます。 分留サンプリング技術を理解する前に、この方法で使用されるアーキテクチャを理解する必要があります。 つまり、これは、DALLE、MidJourney、Stable Diffusion モデルに似た、2 次元画像用の別の拡散モデルです。 具体的には、すべては、Stable Diffusion 生画像に基づくオープンソース モデルである、事前トレーニング済みの DreamBooth モデルから始まります。 そして、変化が起こりました。 研究チームが次に行ったのは、1 つの画像だけではなく、多視点画像のセットを直接レンダリングすることでした。このステップでは、さまざまなオブジェクトの 3 次元データセットが必要です。 ここで、研究者たちはデータセットから3次元オブジェクトの複数のビューを取得し、それらを使用してモデルをトレーニングし、それらのビューを逆方向に生成しました。 具体的なアプローチは、下の図の青い自己注意ブロックを 3 次元の自己注意ブロックに変更することです。つまり、研究者は 1 つの画像ではなく複数の画像を再構築するために 1 つの次元を追加するだけで済みます。 下の画像では、どの画像がどこで使用されるか、どのようなビューを生成する必要があるかをモデルが理解できるように、カメラとタイムステップも各ビューのモデルに入力されていることがわかります。 これで、すべての画像が接続され、生成も一緒に実行されます。そうすることで、情報を共有し、全体的な状況をよりよく理解できるようになります。 次に、テキストがモデルに入力され、データセットからオブジェクトを正確に再構築するようにトレーニングされます。 そして、研究チームはここで、マルチビュー スコア蒸留サンプリング プロセスを適用しました。 現在、マルチビュー拡散モデルにより、チームはオブジェクトの複数のビューを生成できます。 次のステップは、これらのビューを使用して、ビューだけでなく現実世界と一致する 3D モデルを再構築することです。 これには、前述の DreamFusion と同様に、NeRF (神経放射フィールド) の使用が必要です。 基本的に、このステップでは、以前にトレーニングされたマルチビュー拡散モデルを固定します。つまり、このステップでは、上記の視点の画像は「使用」されるだけで、再度「トレーニング」されることはありません。 研究者たちは、最初のレンダリングを参考にして、マルチビュー拡散モデルを使用して、最初の画像のノイズを追加したバージョンを生成し始めました。 研究者たちは、コンテキストを把握しながら画像の異なるバージョンを生成する必要があることをモデルに知らせるためにノイズを追加しました。 このモデルは、さらに高品質の画像を生成するために使用されます。 この画像を生成するために使用した画像を追加します。手動で追加したノイズが削除されているので、その結果を使用して次のステップで NeRF モデルをガイドおよび改善できます。 これらのステップはすべて、次のステップでより良い結果を生成するために、NeRF モデルが画像のどの部分に重点を置くべきかをよりよく理解することが目的です。 このプロセスは、満足のいく 3D モデルが生成されるまで繰り返されます。 このようにして、チームはマルチビュー拡散モデルの画像生成品質を評価し、さまざまな設計がパフォーマンスにどのように影響するかを判断しました。 まず、彼らは、クロスビューの一貫性をモデル化するための注意モジュールの選択を比較しました。 これらのオプションには以下が含まれます。 (1)ビデオ拡散モデルで広く使用されている1次元の時間的自己注意。 (2)既存のモデルに新たな3D自己注意モジュールを追加する。 (3)既存の2D自己注意モジュールを3D注意に再利用する。 この実験では、これらのモジュール間の違いを明確に示すために、研究者はビデオ設定に近い 90 度の視点変更を 8 フレーム使用してモデルをトレーニングしました。 同時に、研究チームは実験において、元の標準解像度モデルと同じ512×512という高い画像解像度も維持しました。結果は下の図に示されています。研究者は、静的なシーンでこのような限定的な視点の変化があっても、時間的な自己注意は依然としてコンテンツシフトの影響を受け、視点の一貫性を維持できないことを発見しました。 研究チームは、時間的注意は異なるフレーム内の同じピクセル間でしか情報を交換できないのに対し、視点が変わると対応するピクセルが離れてしまう可能性があるためだと仮説を立てている。 一方、一貫性を学習せずに新しい 3D アテンションを追加すると、品質が大幅に低下します。 研究者たちは、これは新しいパラメータをゼロから学習すると、より多くのトレーニングデータと時間が消費され、3D モデルが制限されている状況には適さないためだと考えています。研究者らが提案した 2D 自己注意を再利用する戦略は、生成品質を低下させることなく最高の一貫性を実現します。 チームはまた、画像サイズを 256 に縮小し、ビューの数を 4 に縮小すると、これらのモジュール間の違いが大幅に小さくなることにも気付きました。しかし、最良の一貫性を実現するために、研究者らは次の実験における予備的な観察に基づいて選択を行いました。 さらに、研究者らは、マルチビュー分留サンプリングのために、統一されたフレームワークの下で最先端のテキストから 3D モデルへの生成方法を実装する ThreeStudio (THR) ライブラリにマルチビュー拡散のガイダンスを実装しました。 研究者らは、マルチ解像度ハッシュグリッドを含む ThreeStudio の暗黙ボリューム実装を 3D 表現として使用しました。 カメラビューについては、研究者は 3D データセットをレンダリングするときとまったく同じ方法でカメラをサンプリングしました。 さらに、研究者らは、学習率 0.01 で 10,000 ステップにわたって AdamW オプティマイザーを使用して 3D モデルを最適化しました。 分留サンプリングの場合、最初の 8000 ステップで、最大および最小の時間ステップはそれぞれ 0.98 ステップから 0.5 ステップと 0.02 ステップに短縮されます。 レンダリング解像度は 64×64 から始まり、5000 ステップ後に徐々に 256×256 まで増加します。 その他の例は次のとおりです。 上記は、研究チームが 2D テキストから画像へのモデルを使用し、それをマルチビュー合成に使用し、最終的にそれを使用してテキストから 3D モデルへのプロセスを反復して作成した方法です。 もちろん、この新しい方法にはまだ一定の制限があります。最も重要な欠点は、現在生成される画像の解像度が 256 x 256 ピクセルしかないことです。これは非常に低い解像度です。 さらに研究者らは、このタスクを実行するために使用されるデータセットのサイズによって、この方法の汎用性がある程度制限されることを指摘している。データセットが小さすぎると、複雑な世界をより現実的に反映することができなくなるためである。 |
著作権法実施条例第2条によると、「著作権法でいう著作物とは、文学、芸術、科学の分野における知的成果で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、鄭州市鄭東新区龍湖区の無人バスシステムプロジェクトの調達入札公告が発表された。自動運転バス路線...
概要: Microsoft と Amazon の共同作業により、MXNet と Microsoft ...
オフィスのシナリオでは、PPT の作成は最も一般的なタスクの 1 つです。業務報告、製品発表、イベン...
AI は、自動運転車、より優れたルートマッピング、より正確な予測を通じて、輸送と物流をよりスマートか...
1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...
この研究は、MIT のコンピューター科学および人工知能研究所 (CSAIL) で実施され、医療診断を...
将来、ロボットが世界を支配するのでしょうか?デイリー・メール紙によると、人工知能の専門家で『ロボット...
事前のプログラミングやトレーニングなしで GPT-4 を使用してヒューマノイド ロボットを制御すると...
ロジスティック回帰は、前世紀以来人気の手法です。カテゴリ変数と 1 つ以上の独立変数間の関係を確立し...