3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

[[443015]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

グレーの 3D モデルに「新しいスキン」を追加するのはどれくらい簡単ですか?

今では、それを実行するために必要なのは1 つの文だけです。

見て！

普通の小さなデスクランプは「ブリックランプ」と表現でき、すぐに「ブリックランプ」になります。

灰色のポニーに「Astronaut Horse」という文字を追加すると、そのポニーは即座に「Astronaut Horse」になります。

操作が簡単なだけでなく、あらゆる角度から細部や質感まで表現します。

これはText2Meshと呼ばれるモデルを使用して作成されています。これは3D オブジェクトの「スキン変更」専用に設計されており、シカゴ大学とテルアビブ大学が共同で作成しました。

面白いと思いませんか？

3D オブジェクトの「スキン変更」を 1 文で実行

Text2Mesh モデルの入力には、3D メッシュ (元の画像の品質に関係なく) とテキストの説明のみが必要です。

具体的な変換プロセスは次のとおりです。

入力元のメッシュモデルメッシュ、頂点V∈Rn×3、表面F∈{1, . . . , n}m×3は、トレーニングプロセス全体を通じて固定されます。

次に、ニューラルスタイルネットワークが構築され、メッシュの各頂点のスタイル属性が生成され、表面全体でスタイルを定義できるようになります。

具体的には、ネットワークはメッシュ表面 p∈V 上の点を対応する RGB カラーにマッピングし、法線方向に沿って移動させて、様式化された初期メッシュを生成します。

このメッシュは複数のビューからレンダリングされます。

次に、CLIP に組み込まれた 2D 拡張テクノロジを使用して、結果をよりリアルにします。

このプロセスでは、レンダリングされた画像とテキストプロンプト間の CLIP 類似度スコアが、ニューラルネットワークの重みを更新するための信号として使用されます。

Text2Mesh 全体に事前トレーニングは必要なく、専用の 3D メッシュデータセットも必要なく、UV パラメータ化 (三角形メッシュを 2 次元平面に展開する) も必要ありません。

具体的な効果は何ですか？

Text2Mesh は単一の GPU でトレーニングするのに 25 分もかからず、10 分以内に高品質の結果を生成できます。

さまざまなスタイルを生成でき、詳細も非常によく復元されます。

例えば、下の写真では、雪だるま、忍者、バットマン、ハルク、あるいはスティーブ・ジョブズ、メッシ、弁護士など、服のしわ、アクセサリー、筋肉、髪の毛など、細部まで鮮明に表現できます。

研究者らは、Text2Mesh とベースライン手法である VQGAN を比較するためのユーザー調査も設計しました。

採点には 3 つの質問が含まれます。1. 生成された結果の自然さ。2. テキストと結果の一致。3. 結果と元の画像との一致。

57 人のユーザーが評価した結果、次のようになりました。

Text2Mesh はすべてのカテゴリーで VQGAN よりも高いスコアを獲得しています。

さらに、Text2Mesh はより複雑で特殊なテキスト記述も処理できます。

たとえば、「かぎ針編みで作られた光沢のある金色の衣類用アイロン」：

「波形金属を使用したブルースチールの高級テーブルランプ」：

さらに、Text2Mesh モデルは画像によって直接駆動することもできます。

たとえば、サボテンの写真があれば、元の灰色の 3D 豚を「サボテンスタイル」に直接変換できます。

もう一つ

Text2Mesh コードはオープンソース化されており、デモが Kaggle Notebook にアップロードされています。興味のある方は以下をお試しください:

最後に、これが何だかわかりますか？

デモアドレス:

https://www.kaggle.com/neverix/text2mesh/

紙：

https://arxiv.org/abs/2112.03221

コード：

https://github.com/threedle/text2mesh

参考リンク:
https://threedle.github.io/text2mesh/

<<: GANは画像生成の王様ではないでしょうか？最近は拡散モデルが人気になり、その影響はSOTAにも及んでいる。

>>: テスラの自動運転タクシー参入は依然として困難

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

ブログ

AI時代ではモデルは大きいほど良い

ブログ

3つの論文が「セマンティックセグメンテーションの最適化と評価」の問題を解決します！ルーヴェン、清華大学、オックスフォード大学が共同で新しい方法を提案

ブログ

人工知能によるデータ管理の変革

ブログ

Tech Neo 9月号：アルゴリズムに基づくIT運用・保守

ブログ

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

ブログ

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

ブログ

科学者：大規模なAIモデルは小さなAIツールを自動的に生成できる

ブログ

日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

ブログ

3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

3D オブジェクトの「スキン変更」を 1 文で実行

具体的な効果は何ですか？

もう一つ

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

AI時代ではモデルは大きいほど良い

3つの論文が「セマンティックセグメンテーションの最適化と評価」の問題を解決します！ルーヴェン、清華大学、オックスフォード大学が共同で新しい方法を提案

人工知能によるデータ管理の変革

Tech Neo 9月号：アルゴリズムに基づくIT運用・保守

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

科学者：大規模なAIモデルは小さなAIツールを自動的に生成できる

日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

推薦する

人工知能はアプリのない世界をもたらすのでしょうか？

データマイニング: 機械学習手法に基づく POI カテゴリ推奨アルゴリズム

AI技術の自立を実現するために、国内のディープラーニングフレームワークは3つの大きな課題に直面している

マスクを着用しているときでも顔認識は役立ちますか?

2024年にAIが顧客体験に与える影響

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

北京で百度脳産業イノベーションフォーラムが閉幕、AIの文脈でインテリジェント政府業務を解読

オラクルCEOハード氏「AIについて心配する必要はない」

Facebookは機械学習を使ってコンパイラを最適化

人類は1世紀にわたってロボットの形を誤解してきた

AI研究も印象派から学べるのでしょうか？これらの生きているような人物は3Dモデルであることが判明した

インタラクティブ知覚とは何ですか?自動運転における社会的相互作用の動的モデルと意思決定の最前線に関する包括的なレビュー。

一般相対性理論の予測に沿って、M87ブラックホールの最新の研究結果がネイチャー誌に掲載されました。

スポーツイベントではロボットが人間に取って代わるのでしょうか?