0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

最近、ヴィンセントのビデオモデル「Sora」が生成 AI モデルの新たな波を引き起こし、そのモデルのマルチモーダル機能が幅広い注目を集めています。

現在、AI モデルは 3D コンテンツ生成において新たな進歩を遂げています。

ビジュアルコンテンツ生成を専門とするStability AIは、画像生成(Stable Difussion 3リリース)や動画生成(Stable Videoリリース)に続き、3D分野にも力を入れており、本日、中国チームVASTと連携し、単一画像生成3DモデルTripoSRをオープンソース化すると発表した。

TripoSR は、わずか 0.5 秒で単一の画像から高品質の 3D モデルを生成でき、GPU なしでも実行できます。

  • TripoSR モデルコード: https://github.com/VAST-AI-Research/TripoSR
  • TripoSR モデルの重み: https://huggingface.co/stabilityai/TripoSR
  • TripoSR デモ: https://huggingface.co/spaces/stabilityai/TripoSR

NVIDIA A100 でテストしたところ、TripoSR は約 0.5 秒でスケッチ品質のテクスチャ付き 3D メッシュ モデルを生成でき、OpenLRM などの他のオープン ソースの画像から 3D へのモデルよりも優れたパフォーマンスを発揮しました。 TripoSR は、その速度に加えて、GPU の有無にかかわらずユーザーが完全に使用できます。

TripoSR は、Adobe が 2023 年 11 月に提案した、画像生成 3D 用の大規模再構成モデ​​ル (LRM) である LRM にヒントを得たものです。単一の入力画像に基づいて、数秒で画像の対応する 3 次元モデルを取得できます。

LRM は、画像生成 3D モデル タスクをシーケンス間の翻訳タスクとして画期的に表現します。入力画像と出力 3D モデルを 2 つの異なる言語として想像してください。画像生成 3D タスクは、画像言語を 3D モデル言語に変換するプロセスとして理解できます。画像言語の「単語」(言語モデルのトークンやビデオモデルのパッチに類似)は、ユーザーが入力した画像を分割した小さなブロックです。LRM方式では、3Dモデル言語の「単語」は、「トライプレーン」と呼ばれる3次元表現の小さなブロックです。LRMは、画像言語の「単語」を3Dモデル言語の「単語」に変換し、入力画像から3Dモデルの出力を実現します。

トランスフォーマー アーキテクチャのサポートにより、LRM は 100 万を超える公開 3D データでトレーニングされ、驚異的な画像生成 3D 効果と効率性を実証し、学界と産業界で大きな反響を呼びました。しかし、関連するコードやモデルはオープンソースではなく、また、トレーニングコストが膨大(128台のA100を1週間稼働させる)であるため、小規模な研究機関にとっては負担が大きすぎます。これらの要因がこの技術の普及を大きく妨げています。

今回、Tripo AIとStability AIは共同で、LRMの初の高品質オープンソース実装であるTripoSRを発表しました。TripoSRは、ユーザーが提供する画像に基づいてほぼリアルタイムで高品質の3Dモデルを生成でき、3D生成人工知能の分野における重要なギャップを大幅に埋めることができます。

Stability のブログと技術レポートによると、このモデルは LRM のオリジナル アルゴリズムに基づいており、Objaverse データセットの慎重に選別およびレンダリングされたサブセットと、一連のモデルおよびトレーニングの改善により、限られたトレーニング データからの一般化能力が大幅に向上し、3D 再構築の忠実度も向上しています。 TripoSR が登場するまで、学術界やオープンソース コミュニティには、オープンで高速、かつ強力に一般化された 3D 生成の基本モデルとフレームワークが欠けていました。 ThreeStudio などの注目度の高いオープンソース プロジェクトは存在しますが、それらのプロジェクトで使用されているテクノロジ (スコア蒸留サンプリングなど) では、最適化と計算に長い時間がかかるため、3D モデルの生成が遅くなり、多くのリソースを消費します。 Stability AI が以前リリースした Stable Zero123 プロジェクトと、threestudio での統合の試みでは、ある程度の進歩はあったものの、これらの問題を完全に解決することはできなかった。

TripoSR オープンソースにより、世界中の研究者、開発者、クリエイティブ ワーカーは最先端の 3D 生成 AI モデルにアクセスできるようになり、あらゆる企業が 3D コンテンツを使用してより複雑な製品やサービスを作成し、3D 業界における新しい創造的可能性を探求し、より活発で競争力のある市場を促進できるようになります。

このグラフは、3D パフォーマンスの F スコア (高いほど良い) と推論時間 (低いほど良い) の関係を示しています。

近年、3D コンテンツ生成技術は、コンピュータ グラフィックスやコンピュータ ビジョンの分野で着実に発展してきました。過去1年ほどの間に、3D生成技術は驚異的かつ急速な進歩を遂げ、特に大規模な公開3Dデータセットの出現と2D画像およびビデオの分野での強力な生成モデルの進歩により、業界から幅広い注目を集めています。このような状況において、DreamFusion(Google Research チームが提案)などのスコア蒸留サンプリング(SDS)に基づくテクノロジーは、複数の視点から 3D モデルを生成することにおいて画期的な進歩を遂げてきましたが、生成時間が長いことや、生成されたモデルを細かく制御することが難しいことなど、実際のアプリケーションでは依然として限界があります。

これに対し、今回リリースされたTripoSRのような大規模3Dデータセットと大規模スケーラブルモデルアーキテクチャに基づく生成技術ソリューションは、さまざまな3Dデータセットに対して効率的なトレーニングを実行できることを実証しています。3Dモデルの生成プロセスでは高速フォワード推論のみが必要であり、生成プロセス中に3Dモデルの結果を細かく制御することが容易です。この種の技術の出現は、3D 生成技術の急速な発展への新たな道を開くだけでなく、業界におけるより幅広い応用の新たな可能性も提供します。

画像とデータソース: TripoSR: 単一画像からの高速 3D オブジェクト再構築

今回、Stability AI が Tripo AI と共同でオープンソース化されている点は注目に値します。 Tripo AI を支える研究組織である VAST AI Research は、3D コンテンツ生成の分野における最先端の研究チームです。設立当初からオープンソース コミュニティへの貢献に尽力しており、Wonder3D、CSD、TGS など高品質な研究成果のコードやウェイトを次々とオープンソース化しています。

Tripo は、2023 年 12 月から VAST によってリリースされた汎用 3D 生成モデルです ( www.tripo3d.ai )。テキストや画像から 8 秒以内に 3D メッシュ モデルを生成し、5 分以内に洗練された生成を実行できます。生成されたモデルの品質は、形状と材質の点で手動レベルに近くなります。

VAST AI Research のブログによると、3D 生成の分野で AI をさらに発展させるには、人間の経験への依存を超えて、より大きなデータ、よりスケーラブルなモデル、強力なコンピューティング能力のフル活用を通じて「学習」する「一般的なアプローチ」が必要です。この「ユニバーサル アプローチ」には、マルチモーダル トレーニング データの統一、マルチモーダル制御条件の統一、および複数のモダリティに共通する生成モデル インフラストラクチャが含まれる必要があります。

この目標を達成するには、表現、モデル、データという 3 つの方向で作業を行う必要があると VAST は考えています。その中で、「表現」の選択は非常に重要です。既存のグラフィックス パイプラインとの互換性を確保しながら、柔軟で計算効率の高い 3D 表現を見つける必要があります。さらに、「3Dトークナイザー」の探求も有望な方向性です。3D表現を言語トークンに似た形式に変換することで、既存の理解および生成モデルを3D分野に適用するのに役立ちます。

「モデル」レベルでは、VAST の研究は、他のモダリティにおける大規模モデルの事前知識、設計基準、トレーニング経験を最大限に活用して、モデルの 3D データの学習能力を強化することを目指しています。 「データ」レベルでの課題は無視できません。高品質でネイティブかつ多様な 3D データセット リソースの不足により、モデルの最終的なパフォーマンスと一般化機能が制限されます。

TripoSR により、3D 方向での生成 AI モデルの可能性を確認することができます。2024 年には、3D 生成の分野でさらに新たな探求が行われることを期待しています。

<<: 

>>:  ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ブログ    
ブログ    
ブログ    

推薦する

人工知能がクラウド業界を変える5つの方法

サイバー攻撃の巧妙さと深刻さが増すにつれ、IT 業界は協力して、サイバー攻撃からの保護と防止に使用さ...

二次編集やUnreal Engine 5へのインポートをサポートし、Stable Diffusionは3D生成機能に進化

全体像を捉えるモデルに関して言えば、Stability AI が 2022 年にリリースした Sta...

...

2021年の人工知能トレンドに関する5つの予測

人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、その他の分野での応用...

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

具体的には、この記事ではまず、分散コンピューティングの基本概念と、分散コンピューティングがディープラ...

...

...

...

AIテキスト翻訳システムの品質が44%向上し、500億以上のパラメータを使用して200の言語を翻訳

Meta Platforms は本日、Meta が社内開発した、200 言語のテキストを翻訳できる人...

誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

2016 年に私たちは、ボット パラダイムの変化は、過去 10 年間の Web からモバイル アプリ...

データサイエンスと人工知能の専門家がプログラミングスキルを向上させる方法

[[379310]]ビッグデータダイジェスト制作出典: medium編集者: Hippoプログラミン...

...

...

世界はとても広い。AIがあなたと一緒に世界を旅します

[オリジナル記事は51CTO.comより] 私の周りには、「世界は広いから、外に出て旅をしたい」と言...

ディープラーニング プロジェクトをゼロから構築するにはどうすればよいでしょうか?詳細なチュートリアルはこちら

ディープラーニングに関する理論コースを受講した後、多くの人が独自のプロジェクトを構築してみることに興...