0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

最近、ヴィンセントのビデオモデル「Sora」が生成 AI モデルの新たな波を引き起こし、そのモデルのマルチモーダル機能が幅広い注目を集めています。

現在、AI モデルは 3D コンテンツ生成において新たな進歩を遂げています。

ビジュアルコンテンツ生成を専門とするStability AIは、画像生成（Stable Difussion 3リリース）や動画生成（Stable Videoリリース）に続き、3D分野にも力を入れており、本日、中国チームVASTと連携し、単一画像生成3DモデルTripoSRをオープンソース化すると発表した。

TripoSR は、わずか 0.5 秒で単一の画像から高品質の 3D モデルを生成でき、GPU なしでも実行できます。

TripoSR モデルコード: https://github.com/VAST-AI-Research/TripoSR
TripoSR モデルの重み: https://huggingface.co/stabilityai/TripoSR
TripoSR デモ: https://huggingface.co/spaces/stabilityai/TripoSR

NVIDIA A100 でテストしたところ、TripoSR は約 0.5 秒でスケッチ品質のテクスチャ付き 3D メッシュモデルを生成でき、OpenLRM などの他のオープンソースの画像から 3D へのモデルよりも優れたパフォーマンスを発揮しました。 TripoSR は、その速度に加えて、GPU の有無にかかわらずユーザーが完全に使用できます。

TripoSR は、Adobe が 2023 年 11 月に提案した、画像生成 3D 用の大規模再構成モデル (LRM) である LRM にヒントを得たものです。単一の入力画像に基づいて、数秒で画像の対応する 3 次元モデルを取得できます。

LRM は、画像生成 3D モデルタスクをシーケンス間の翻訳タスクとして画期的に表現します。入力画像と出力 3D モデルを 2 つの異なる言語として想像してください。画像生成 3D タスクは、画像言語を 3D モデル言語に変換するプロセスとして理解できます。画像言語の「単語」（言語モデルのトークンやビデオモデルのパッチに類似）は、ユーザーが入力した画像を分割した小さなブロックです。LRM方式では、3Dモデル言語の「単語」は、「トライプレーン」と呼ばれる3次元表現の小さなブロックです。LRMは、画像言語の「単語」を3Dモデル言語の「単語」に変換し、入力画像から3Dモデルの出力を実現します。

トランスフォーマーアーキテクチャのサポートにより、LRM は 100 万を超える公開 3D データでトレーニングされ、驚異的な画像生成 3D 効果と効率性を実証し、学界と産業界で大きな反響を呼びました。しかし、関連するコードやモデルはオープンソースではなく、また、トレーニングコストが膨大（128台のA100を1週間稼働させる）であるため、小規模な研究機関にとっては負担が大きすぎます。これらの要因がこの技術の普及を大きく妨げています。

今回、Tripo AIとStability AIは共同で、LRMの初の高品質オープンソース実装であるTripoSRを発表しました。TripoSRは、ユーザーが提供する画像に基づいてほぼリアルタイムで高品質の3Dモデルを生成でき、3D生成人工知能の分野における重要なギャップを大幅に埋めることができます。

Stability のブログと技術レポートによると、このモデルは LRM のオリジナルアルゴリズムに基づいており、Objaverse データセットの慎重に選別およびレンダリングされたサブセットと、一連のモデルおよびトレーニングの改善により、限られたトレーニングデータからの一般化能力が大幅に向上し、3D 再構築の忠実度も向上しています。 TripoSR が登場するまで、学術界やオープンソースコミュニティには、オープンで高速、かつ強力に一般化された 3D 生成の基本モデルとフレームワークが欠けていました。 ThreeStudio などの注目度の高いオープンソースプロジェクトは存在しますが、それらのプロジェクトで使用されているテクノロジ (スコア蒸留サンプリングなど) では、最適化と計算に長い時間がかかるため、3D モデルの生成が遅くなり、多くのリソースを消費します。 Stability AI が以前リリースした Stable Zero123 プロジェクトと、threestudio での統合の試みでは、ある程度の進歩はあったものの、これらの問題を完全に解決することはできなかった。

TripoSR オープンソースにより、世界中の研究者、開発者、クリエイティブワーカーは最先端の 3D 生成 AI モデルにアクセスできるようになり、あらゆる企業が 3D コンテンツを使用してより複雑な製品やサービスを作成し、3D 業界における新しい創造的可能性を探求し、より活発で競争力のある市場を促進できるようになります。

このグラフは、3D パフォーマンスの F スコア (高いほど良い) と推論時間 (低いほど良い) の関係を示しています。

近年、3D コンテンツ生成技術は、コンピュータグラフィックスやコンピュータビジョンの分野で着実に発展してきました。過去1年ほどの間に、3D生成技術は驚異的かつ急速な進歩を遂げ、特に大規模な公開3Dデータセットの出現と2D画像およびビデオの分野での強力な生成モデルの進歩により、業界から幅広い注目を集めています。このような状況において、DreamFusion（Google Research チームが提案）などのスコア蒸留サンプリング（SDS）に基づくテクノロジーは、複数の視点から 3D モデルを生成することにおいて画期的な進歩を遂げてきましたが、生成時間が長いことや、生成されたモデルを細かく制御することが難しいことなど、実際のアプリケーションでは依然として限界があります。

これに対し、今回リリースされたTripoSRのような大規模3Dデータセットと大規模スケーラブルモデルアーキテクチャに基づく生成技術ソリューションは、さまざまな3Dデータセットに対して効率的なトレーニングを実行できることを実証しています。3Dモデルの生成プロセスでは高速フォワード推論のみが必要であり、生成プロセス中に3Dモデルの結果を細かく制御することが容易です。この種の技術の出現は、3D 生成技術の急速な発展への新たな道を開くだけでなく、業界におけるより幅広い応用の新たな可能性も提供します。

画像とデータソース: TripoSR: 単一画像からの高速 3D オブジェクト再構築

今回、Stability AI が Tripo AI と共同でオープンソース化されている点は注目に値します。 Tripo AI を支える研究組織である VAST AI Research は、3D コンテンツ生成の分野における最先端の研究チームです。設立当初からオープンソースコミュニティへの貢献に尽力しており、Wonder3D、CSD、TGS など高品質な研究成果のコードやウェイトを次々とオープンソース化しています。

Tripo は、2023 年 12 月から VAST によってリリースされた汎用 3D 生成モデルです ( www.tripo3d.ai )。テキストや画像から 8 秒以内に 3D メッシュモデルを生成し、5 分以内に洗練された生成を実行できます。生成されたモデルの品質は、形状と材質の点で手動レベルに近くなります。

VAST AI Research のブログによると、3D 生成の分野で AI をさらに発展させるには、人間の経験への依存を超えて、より大きなデータ、よりスケーラブルなモデル、強力なコンピューティング能力のフル活用を通じて「学習」する「一般的なアプローチ」が必要です。この「ユニバーサルアプローチ」には、マルチモーダルトレーニングデータの統一、マルチモーダル制御条件の統一、および複数のモダリティに共通する生成モデルインフラストラクチャが含まれる必要があります。

この目標を達成するには、表現、モデル、データという 3 つの方向で作業を行う必要があると VAST は考えています。その中で、「表現」の選択は非常に重要です。既存のグラフィックスパイプラインとの互換性を確保しながら、柔軟で計算効率の高い 3D 表現を見つける必要があります。さらに、「3Dトークナイザー」の探求も有望な方向性です。3D表現を言語トークンに似た形式に変換することで、既存の理解および生成モデルを3D分野に適用するのに役立ちます。

「モデル」レベルでは、VAST の研究は、他のモダリティにおける大規模モデルの事前知識、設計基準、トレーニング経験を最大限に活用して、モデルの 3D データの学習能力を強化することを目指しています。「データ」レベルでの課題は無視できません。高品質でネイティブかつ多様な 3D データセットリソースの不足により、モデルの最終的なパフォーマンスと一般化機能が制限されます。

TripoSR により、3D 方向での生成 AI モデルの可能性を確認することができます。2024 年には、3D 生成の分野でさらに新たな探求が行われることを期待しています。

<<:

>>: ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

錬金術をより形而上学的にしましょう！蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。

0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

錬金術をより形而上学的にしましょう！蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。

人工知能とIoTがガソリン小売業界を変革

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

考えてみてください。連合学習は大規模な言語モデルをトレーニングできるのでしょうか?

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

放射線科医は再び危機に陥っている！海外の主要5機関が共同で最新の「胸部X線」ベンチマークを発表

AIの5つの本当の危険性

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

ドローン基地局は被災地の通信復旧にどのように役立つのでしょうか?

推薦する

「機械が人間に取って代わる」時代が到来。人類はこれからどう生き残っていくのか？

将来、人間はAIに置き換えられるのでしょうか？人工知能の種類と発展段階を1つの記事で理解する

AIがクラウドに依存しない理由：将来AIは疎外される

ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

データ分布の正規性を判断するための11の基本的方法

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイムレンダリングフレームワーク

AIバブルが崩壊したら

エンタープライズ向け人工知能プラットフォームの選択ガイド

李徳義：自動運転のバブルを破るには、技術、市場、エコロジー、コストを無視することはできない

ガートナーは、信頼、成長、変化を通じてイノベーションを推進する新興テクノロジーをリストアップ

IBM Think Digitalカンファレンス開幕：「ポスト流行時代」のデジタル変革に対応するには今が絶好のタイミング

人工知能の時代、今後子どもたちが持つどんな能力が人気になるのでしょうか？