インテルラボ、テキストプロンプトに基づいて360度パノラマ画像を生成する新しいAI拡散モデルをリリース

6月21日、Intel ResearchはBlockade Labsと提携してLDM3D（Latent Diffusion Model for 3D）モデルをリリースしたと発表しました。この新しい拡散モデルは、生成AIを使用して3Dビジュアルコンテンツを作成します。

報道によると、 LDM3D は拡散プロセスを使用して深度マップを生成し、リアルで没入感のある 360 度パノラマを生成する業界をリードするモデルです。 LDM3D は、コンテンツ作成、メタバースアプリケーション、デジタルエクスペリエンスに革命をもたらし、エンターテイメント、ゲーム、建築、デザインなど多くの業界を変革する可能性があります。

インテルは、LDM3D は 10,000 個のサンプルを含む LAION-400M データセットのサブセットでトレーニングされたと述べた。 LAION-400M は、4 億を超える画像とテキストのペアを含む大規模な画像とテキストのデータセットです。研究チームは、トレーニングコーパスに注釈を付ける際に、Intel Labs が以前に開発した高密度深度推定モデルである DPT-Large を使用しました。このモデルは、画像内の各ピクセルに対して非常に正確な相対深度を提供します。 LAION-400M データセットは、研究者やその他の関心のあるコミュニティがより大規模なモデルトレーニングをテストできるように、研究目的で作成されました。

LDM3Dモデルは、Intel XeonプロセッサとIntelを搭載したIntel AIスーパーコンピュータでトレーニングされました。ハバナガウディAIアクセラレータドライバー。最終的なモデルとパイプラインは、RGB 画像と深度マップを統合して、没入感のある体験を実現する 360 度のパノラマを生成します。

<<: テスラがテスラAIのTwitterアカウントを開設、Dojoスーパーコンピューターの生産を来月開始すると発表

>>: エッジ AI がインダストリー 4.0 の成果を推進する方法