写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最新の「1枚の画像だけで3D化する」方法は人気があり、忠実度も高いです。

これまでの方法と比較すると、これは飛躍的な進歩です。 (新しい方法は最後の行にあります)

結果の 1 つを拡大すると、ジオメトリの詳細が豊富で、レンダリング解像度が1024 x 1024と高いことがわかります。

新しい方法「Magic123」は、KAUSTの博士課程学生Qian Guocheng氏が率いるKAUST、Snap、オックスフォードの共同チームによって考案されました。

画像を 1 枚入力するだけで、高品質の 3D メッシュだけでなく、視覚的に魅力的なテクスチャも 1 つのパッケージで得られます。

論文が arXiv に投稿されたばかりで、コードがまだアップロードされていなかったにもかかわらず、300 人以上の人がスターを付けて (そして更新を促して) くれました。

粗いものから細かいものまで、2段階のアプローチ

かつて、2D を 3D に変換する最も一般的な方法は NeRF でした。しかし、NeRF は大量のビデオメモリを消費するだけでなく、解像度も低くなります。

この論文では、よりリソース効率の高い Instant-NGP ソリューションであっても、16G メモリの GPU では128x128の解像度しか達成できないと指摘しています。

3D コンテンツの品質をさらに向上させるために、チームは NeRF の後に第 2 段階を導入し、DMTet アルゴリズムを使用して解像度を1024x1024に上げ、NeRF から派生したジオメトリとテクスチャを改良しました。

2D 参照画像が 1 枚だけの場合、まず既製の Dense Prediction Transformer モデルを使用してセグメンテーションを行い、次に事前トレーニング済みの MiDaS を使用して深度マップを抽出し、その後の最適化を行います。

次に、Instant-NGP を使用して最初の大まかな段階に入り、複雑な形状をすばやく推測して再構築できるように最適化しますが、解像度が高くなりすぎず、十分な解像度で十分です。

2 番目の改良フェーズでは、メモリ効率の高い DMTet メソッドを使用して 3D モデルが改良され、分離されます。 DMTet は、SDF ボクセルとメッシュ グリッドのハイブリッド表現であり、微分可能な四面体メッシュを生成します。

テクスチャ反転は両方の段階で使用され、生成されたジオメトリとテクスチャが入力と一致するようにします。

研究チームは入力画像を、一般的な物体(テディベアなど)、あまり一般的でない物体(2 つの積み重ねられたドーナツなど)、珍しい物体(ドラゴンの像など)の 3 つのカテゴリに分類しました。

2D 事前情報のみを使用すると、より複雑な 3D 構造を生成できることがわかりましたが、入力画像との一貫性は高くありません。

3D の事前情報のみを使用すると、正確ではあるものの詳細度の低いジオメトリが生成されます。

チームは2D 事前分布と 3D 事前分布を組み合わせて使用​​することを提案し、何度も試行した結果、最終的に 2 つの事前分布のバランスを見つけました。

2D事前情報にはStable Diffusion 1.5を使用し、3D事前情報にはコロンビア大学/トヨタ研究所が提案したZero-1-to-3を使用します。

定性的な比較では、2 種類の事前情報を組み合わせた Magic123 メソッドが最良の結果を達成しました。

定量的な比較では、NeRF4 および RealFusion15 データセットにおける Magic123 のパフォーマンスが評価され、以前の SOTA 方法と比較してすべての指標でトップ 1 の結果を達成しました

では、Magic123 メソッドには何か制限があるのでしょうか?

はい、あります。

論文の最後で、研究チームは、この方法全体が参照画像が正面図であるという仮定に基づいており、他の角度からの画像を入力すると、生成される幾何学的特性が不十分になると指摘した。

たとえば、テーブルの上の食べ物を上から撮影する場合、この方法は適していません。

また、SDS ロスの使用により、 Magic123 は飽和したテクスチャを生成する傾向があります。特に細かいレベルでは、解像度が高くなるほどこの問題は拡大します。

プロジェクトホームページ: https://guochengqian.github.io/project/magic123/

論文: https://arxiv.org/abs/2303.11328

GitHub: https://github.com/guochengqian/Magic123

<<:  HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

>>:  アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...

人工知能はよりクールで実用的

2021年は間違いなく人工知能産業の発展にとって重要な年となるでしょう。わが国のスマートシティ建設の...

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?

[[422423]]お金が手に入ったとき、あなたはまだ当初の意図を貫くことができますか? OpenA...

2018 年に最も人気のあるディープラーニング フレームワークはどれでしょうか?この科学的なランキングからわかることは

ディープラーニングは、機械学習の分野で最も注目されているテクノロジーです。ディープラーニング フレー...

陸軍におけるAIと自律型ロボット

AI やロボットについて話すとき、多くの人の頭に最初に浮かぶのは、しばしば「終末後の時代」に猛威を振...

ロボティック・プロセス・オートメーションは大きな問題でしょうか?

今日の急速に変化するデジタル時代において、企業は効率を高め、運用コストを削減し、全体的な生産性を向上...

...

無人スーパー、無人運転、無人宅配が実現すれば、職を失いそうな一般人はどうするのだろうか。

人工知能などの技術の発展により、無人技術がますます多く登場しています。 2030 年までに、8 億人...

大規模言語モデルの脆弱性緩和ガイド

大規模言語モデル (LLM) アプリケーションは世界中で急速に普及していますが、企業は依然として大規...

AIがITスキルと人材の需要をどのように変えているのか

AI は急速に日常のビジネス運営に不可欠な要素になりつつあり、すでに運用プロセスの改善、顧客サービス...

コンピュータビジョンプロジェクトのためのオブジェクト検出の初心者向けガイド

[51CTO.com クイック翻訳]近年、人工知能技術の発展と進歩に伴い、コンピュータービジョンとデ...

AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

ビッグデータダイジェスト制作出典: サイエンスデイリー編集者: ジェーン人工知能は、ビジネスから工業...

無料の Python 機械学習コース 6: ニューラル ネットワーク アルゴリズム

ニューラルネットワークは人間の脳を模倣するために開発されました。まだ実現されていないものの、ニューラ...

マトリックスシミュレーション! Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

「マトリックスシミュレーション」の世界は本当に存在するかもしれない。人間のニューロンをシミュレートし...

...