最近、ヴィンセントのビデオモデル「Sora」が生成 AI モデルの新たな波を引き起こし、そのモデルのマルチモーダル機能が幅広い注目を集めています。 現在、AI モデルは 3D コンテンツ生成において新たな進歩を遂げています。 ビジュアルコンテンツ生成を専門とするStability AIは、画像生成(Stable Difussion 3リリース)や動画生成(Stable Videoリリース)に続き、3D分野にも力を入れており、本日、中国チームVASTと連携し、単一画像生成3DモデルTripoSRをオープンソース化すると発表した。 TripoSR は、わずか 0.5 秒で単一の画像から高品質の 3D モデルを生成でき、GPU なしでも実行できます。
NVIDIA A100 でテストしたところ、TripoSR は約 0.5 秒でスケッチ品質のテクスチャ付き 3D メッシュ モデルを生成でき、OpenLRM などの他のオープン ソースの画像から 3D へのモデルよりも優れたパフォーマンスを発揮しました。 TripoSR は、その速度に加えて、GPU の有無にかかわらずユーザーが完全に使用できます。 TripoSR は、Adobe が 2023 年 11 月に提案した、画像生成 3D 用の大規模再構成モデル (LRM) である LRM にヒントを得たものです。単一の入力画像に基づいて、数秒で画像の対応する 3 次元モデルを取得できます。 LRM は、画像生成 3D モデル タスクをシーケンス間の翻訳タスクとして画期的に表現します。入力画像と出力 3D モデルを 2 つの異なる言語として想像してください。画像生成 3D タスクは、画像言語を 3D モデル言語に変換するプロセスとして理解できます。画像言語の「単語」(言語モデルのトークンやビデオモデルのパッチに類似)は、ユーザーが入力した画像を分割した小さなブロックです。LRM方式では、3Dモデル言語の「単語」は、「トライプレーン」と呼ばれる3次元表現の小さなブロックです。LRMは、画像言語の「単語」を3Dモデル言語の「単語」に変換し、入力画像から3Dモデルの出力を実現します。 トランスフォーマー アーキテクチャのサポートにより、LRM は 100 万を超える公開 3D データでトレーニングされ、驚異的な画像生成 3D 効果と効率性を実証し、学界と産業界で大きな反響を呼びました。しかし、関連するコードやモデルはオープンソースではなく、また、トレーニングコストが膨大(128台のA100を1週間稼働させる)であるため、小規模な研究機関にとっては負担が大きすぎます。これらの要因がこの技術の普及を大きく妨げています。 今回、Tripo AIとStability AIは共同で、LRMの初の高品質オープンソース実装であるTripoSRを発表しました。TripoSRは、ユーザーが提供する画像に基づいてほぼリアルタイムで高品質の3Dモデルを生成でき、3D生成人工知能の分野における重要なギャップを大幅に埋めることができます。 Stability のブログと技術レポートによると、このモデルは LRM のオリジナル アルゴリズムに基づいており、Objaverse データセットの慎重に選別およびレンダリングされたサブセットと、一連のモデルおよびトレーニングの改善により、限られたトレーニング データからの一般化能力が大幅に向上し、3D 再構築の忠実度も向上しています。 TripoSR が登場するまで、学術界やオープンソース コミュニティには、オープンで高速、かつ強力に一般化された 3D 生成の基本モデルとフレームワークが欠けていました。 ThreeStudio などの注目度の高いオープンソース プロジェクトは存在しますが、それらのプロジェクトで使用されているテクノロジ (スコア蒸留サンプリングなど) では、最適化と計算に長い時間がかかるため、3D モデルの生成が遅くなり、多くのリソースを消費します。 Stability AI が以前リリースした Stable Zero123 プロジェクトと、threestudio での統合の試みでは、ある程度の進歩はあったものの、これらの問題を完全に解決することはできなかった。 TripoSR オープンソースにより、世界中の研究者、開発者、クリエイティブ ワーカーは最先端の 3D 生成 AI モデルにアクセスできるようになり、あらゆる企業が 3D コンテンツを使用してより複雑な製品やサービスを作成し、3D 業界における新しい創造的可能性を探求し、より活発で競争力のある市場を促進できるようになります。 このグラフは、3D パフォーマンスの F スコア (高いほど良い) と推論時間 (低いほど良い) の関係を示しています。 近年、3D コンテンツ生成技術は、コンピュータ グラフィックスやコンピュータ ビジョンの分野で着実に発展してきました。過去1年ほどの間に、3D生成技術は驚異的かつ急速な進歩を遂げ、特に大規模な公開3Dデータセットの出現と2D画像およびビデオの分野での強力な生成モデルの進歩により、業界から幅広い注目を集めています。このような状況において、DreamFusion(Google Research チームが提案)などのスコア蒸留サンプリング(SDS)に基づくテクノロジーは、複数の視点から 3D モデルを生成することにおいて画期的な進歩を遂げてきましたが、生成時間が長いことや、生成されたモデルを細かく制御することが難しいことなど、実際のアプリケーションでは依然として限界があります。 これに対し、今回リリースされたTripoSRのような大規模3Dデータセットと大規模スケーラブルモデルアーキテクチャに基づく生成技術ソリューションは、さまざまな3Dデータセットに対して効率的なトレーニングを実行できることを実証しています。3Dモデルの生成プロセスでは高速フォワード推論のみが必要であり、生成プロセス中に3Dモデルの結果を細かく制御することが容易です。この種の技術の出現は、3D 生成技術の急速な発展への新たな道を開くだけでなく、業界におけるより幅広い応用の新たな可能性も提供します。 画像とデータソース: TripoSR: 単一画像からの高速 3D オブジェクト再構築 今回、Stability AI が Tripo AI と共同でオープンソース化されている点は注目に値します。 Tripo AI を支える研究組織である VAST AI Research は、3D コンテンツ生成の分野における最先端の研究チームです。設立当初からオープンソース コミュニティへの貢献に尽力しており、Wonder3D、CSD、TGS など高品質な研究成果のコードやウェイトを次々とオープンソース化しています。 Tripo は、2023 年 12 月から VAST によってリリースされた汎用 3D 生成モデルです ( www.tripo3d.ai )。テキストや画像から 8 秒以内に 3D メッシュ モデルを生成し、5 分以内に洗練された生成を実行できます。生成されたモデルの品質は、形状と材質の点で手動レベルに近くなります。 VAST AI Research のブログによると、3D 生成の分野で AI をさらに発展させるには、人間の経験への依存を超えて、より大きなデータ、よりスケーラブルなモデル、強力なコンピューティング能力のフル活用を通じて「学習」する「一般的なアプローチ」が必要です。この「ユニバーサル アプローチ」には、マルチモーダル トレーニング データの統一、マルチモーダル制御条件の統一、および複数のモダリティに共通する生成モデル インフラストラクチャが含まれる必要があります。 この目標を達成するには、表現、モデル、データという 3 つの方向で作業を行う必要があると VAST は考えています。その中で、「表現」の選択は非常に重要です。既存のグラフィックス パイプラインとの互換性を確保しながら、柔軟で計算効率の高い 3D 表現を見つける必要があります。さらに、「3Dトークナイザー」の探求も有望な方向性です。3D表現を言語トークンに似た形式に変換することで、既存の理解および生成モデルを3D分野に適用するのに役立ちます。 「モデル」レベルでは、VAST の研究は、他のモダリティにおける大規模モデルの事前知識、設計基準、トレーニング経験を最大限に活用して、モデルの 3D データの学習能力を強化することを目指しています。 「データ」レベルでの課題は無視できません。高品質でネイティブかつ多様な 3D データセット リソースの不足により、モデルの最終的なパフォーマンスと一般化機能が制限されます。 TripoSR により、3D 方向での生成 AI モデルの可能性を確認することができます。2024 年には、3D 生成の分野でさらに新たな探求が行われることを期待しています。 |
>>: ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。
実際、AI と ML はほとんどの人間によるやりとりを置き換えつつあります。市場にはチャットボットや...
今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...
[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...
マスク氏が投稿したXダイナミックにより、Microsoft Windowsは論争の中心となった。事件...
画像マッチング応用:ターゲット認識、ターゲット追跡、超解像度画像再構成、視覚ナビゲーション、画像ステ...
IT Homeは1月23日、Googleが最近、大規模言語モデル向けに特別に設計されたASPIREト...
ドローンは警報装置、検出器、カメラなどを搭載し、多くの機能を実現でき、セキュリティ監視、スマートビル...
[[277051]]これまでの共有を通じて、顔認識の一般的なプロセスを理解しました。主に次のプロセス...
本人確認のための顔認識、路上の車両の無線測定と制御、空中検査を行うドローン...人々の日常生活におけ...
ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...
[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...
9月25日、アリババ人工知能研究所は雲啓カンファレンスで、Tmall Genieは現在660以上のI...