画像やテキストが無限の3D世界を生み出します!スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

画像やテキストが無限の3D世界を生み出します!スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

スタンフォード大学の呉嘉軍チームが『不思議の国のアリス』の傑作のAI版を制作!

たった 1 つの画像または 1 段落のテキストを使用して、カメラの軌跡に沿って無限に一貫した 3D シーンを生成できます。

古代の詩を入力するだけで、詩の中の場面がすぐに表示されます。

そして、それは行ったり来たりできるタイプで、また戻ることができるタイプです。

同じ開始点から異なるシーンに入ることができます。

リアルなシーンもOK、キャラクターの影などのディテールも違和感なし:

ブロックワールドはさらに簡単にプレイでき、まるで「Minecraft」を開いたような感じです。

この作品は「WonderJourney」と呼ばれ、スタンフォード大学の Wu Jiajun 氏のチームと Google Research が共同で制作しました。

WonderJourney は、あらゆる場所から多様で一貫性のある 3D シーンを無限に生成できるだけでなく、テキストの説明に基づいて生成する場合にも高度な制御が可能です。

マウスをビデオの上に置くだけで、自動スライドが一時停止します。

この作品の公開にネットユーザーからは「信じられない」という声が上がった。プロジェクトコードはまだ正式にリリースされていませんが、200 を超えるスターを獲得しています。

AI研究者のザンダー・スティーンブルッゲ氏は驚いてこう語った。

これは、生成 AI と従来の 3D テクノロジーの完璧な組み合わせです。

これまでの作品は、一つのシナリオに特化していたのですが、『WonderJourney』は新たな世界への扉を開いたとも言えます。

それで、これはどのように行われるのでしょうか?

素晴らしい3Dの旅を始めましょう

無限に一貫性のある 3D シーンを生成する際の大きな課題の 1 つは、要素の多様性を維持しながら、シーン要素の論理的な組み合わせを生成する方法です。

これには、生成される要素の空間位置の合理性を判断すること、および新しいシーンと古いシーン間の遮蔽関係、視差、その他の幾何学的関係を処理することが必要です。

WonderJourney はこの点に関して非常に細心の注意を払っていることがわかります。

どんなスタイルでも簡単にコントロールできます:

これを実現するための鍵となるのは、WonderJourney のモジュール式プロセスです。

全体的な生成プロセスは、「生成するオブジェクトを決定する」、「これらのオブジェクトをどこに配置するか」、「これらのシーンを幾何学的にどのように接続するか」という 3 つのステップに分かれています。

次の 3 つのモジュールを完了する必要があります。

  • シーンの説明の生成: 大規模言語モデル(LLM)を使用して、現在のシーンに基づいて次のシーンのテキストの説明を生成します。
  • ビジュアルシーン生成: テキストによる説明をシーンの 3D ポイント クラウド表現に変換します。
  • 視覚的な検証: VLM を使用して生成されたシーンを検証し、不合理な結果が検出された場合に再生成を開始します。

具体的には、シーン記述生成モジュールでは、事前トレーニング済みの LLM を使用して現在のシーン記述を入力し、自己回帰を通じて次のシーンを生成します。次のシーンには、スタイル、オブジェクト、背景の 3 つの部分の説明が含まれます。

さらに、自然言語記述は単語クラスによってフィルタリングされ、名詞と形容詞のみが保持されます。新しいシーン記述が生成されるたびに、シーン記述メモリが更新されます。

ビジュアルシーン生成モジュールでは、まず現在の画像/テキストが 3D ポイント クラウド表現に変換されます。

次に、深度調整を使用して、オブジェクト境界の深度の不連続性を強調します。簡単に言えば、境界の両側の深度のコントラストがより明確になり、遷移がよりリアルになります。

次に、テキストガイドによる修復を使用して、テキストの説明に基づいて新しいシーン画像を生成します。

研究者らはまた、深度一貫性の損失と再レンダリング一貫性のメカニズムを設計し、新しいシーンと古いシーン間のオクルージョンとポイントクラウドの配置を改善しました。

最後に、ビジュアル検証モジュールは VLM キューを使用して、フレーム、ぼかしなど、生成されたイメージ内の不良結果を検出し、検出された場合はシーンを再生成します。

これら 3 つのモジュールは実装可能であり、最も高度な事前トレーニング済みモデルに置き換えることができるため、トレーニングは不要であることは注目に値します。

実験的テスト

コヒーレント 3D シーン生成は既存の利用可能なデータセットがない新しいタスクであるため、研究者は自分で撮影した写真、オンライン上の著作権フリーの写真、および生成された画像を使用して実験を評価しました。

さらに、画像ベースの InfiniteNature-Zero とテキストベースの SceneScape という 2 つの最先端の連続ビュー生成方法がベースラインとして使用されます。

定性的な結果は、異なるタイプの入力から一貫した 3D シーン シーケンスを生成することの有効性を示しており、この方法では任意の入力から 3D シーンを生成できることを実証しています。

さらに、同じ入力から異なる出力が生成されるため、アプローチの多様性が実証されます。

研究者らはまた、生成効果の多様性、視覚品質、シーンの複雑さ、面白さという4つの側面で人間の嗜好評価を行った。

結果は、WonderJourney メソッドが InfiniteNature-Zero および SceneScape よりも大幅に優れていることを示しています。

著者について

この論文はスタンフォード大学とGoogle ResearchのWu Jiajun氏のチームによるものである。

論文の第一著者はスタンフォード大学博士課程4年生のYu Hongxing氏であり、指導教員はWu Jiajun氏である。

彼の主な研究分野は、物理的なシーンの理解と動的モデリングです。

Yu Hongxing はかつて Google Research でインターンをしており、その期間中に論文の一部を完成させました。

Jiajun Wu は現在、スタンフォード大学の助教授であり、スタンフォード視覚学習研究所 (SVL) およびスタンフォード人工知能研究所 (SAIL) に所属しています。

彼はMITで博士号を取得し、清華大学の姚クラスを卒業して学士号を取得した。かつては「清華大学の10人の偉大な学者の一人」と称えられた。

論文リンク: https://arxiv.org/abs/2312.03884

<<: 

>>: 

推薦する

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

事前のプログラミングやトレーニングなしで GPT-4 を使用してヒューマノイド ロボットを制御すると...

ピュー研究所の報告:2025年までにAIのせいで7500万人が解雇される

[[253650]]テクノロジー専門家の約 37% は、人工知能 (AI) と関連技術の進歩により、...

携帯電話の顔認識は本当に安全ですか?

​​​ [51CTO.com クイック翻訳]顔認識は、セキュリティメカニズムとして、ますます多くの携...

AI+教育はさまざまなシナリオに適用されていることをご存知ですか?

人工知能技術の継続的なアップグレードと革新的な変化に伴い、中国は時代の変化に対応し、人工知能関連のコ...

顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

[[337768]]現在、世界中のあらゆる部門が人工知能(AI)の研究を行っています。 AI の画...

データ拡張: データが限られている場合にディープラーニングをどのように使用するか? (下)

私たちは皆、そこに行ったことがあります。機械学習の概念に精通しており、それを機械学習モデルに適用でき...

AIは生産性を低下させるでしょうか?今のところは出演はありません!

[[286440]] ▲ イラスト出典:エドモン・デ・ハロ2016年、ロンドンに拠点を置くアルファ...

...

ニューラルネットワークのデバッグは難しすぎる。6つの実用的なヒントをご紹介します

ニューラル ネットワークに基づくプロジェクトにおけるボトルネックは通常、ネットワークの実装ではありま...

アルゴリズムを超えて: 人工知能と機械学習が組織に与える影響

[[319769]]今日、デジタルサイエンスは企業にとってますます魅力的になっています。しかし、デジ...

AIロボットが2025年までにクラウドデータセンターの半分を占める可能性

[[437396]]コネチカット州スタンフォード — 新しいレポートによると、人工知能 (AI) を...

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表:AI、ブロックチェーンなど

Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...

Hudiに基づくByteDanceの機械学習アプリケーションシナリオ

統合ストリームとバッチサンプルの生成プロセスを明らかにし、Hudiカーネルの最適化と変換を共有し、デ...

【文字列処理アルゴリズム】文字列包含アルゴリズムの設計とCコード実装

1. 要件の説明長い文字列と短い文字列が与えられた場合、短い文字列のすべての文字が長い文字列に含まれ...

AIを活用したスト​​レージ施設は、企業がデータを最大限に活用するのに役立ちます

AI を活用したスト​​レージにより、企業はデータを迅速かつインテリジェントに分析し、ほぼ瞬時に洞察...