AIの「脳内いっぱい」写真は迫力満点!フェイフェイ・リーのチームの新作「ZeroNVS」は、単一ビューの360度フルシーン生成です。

AIの「脳内いっぱい」写真は迫力満点!フェイフェイ・リーのチームの新作「ZeroNVS」は、単一ビューの360度フルシーン生成です。

最近では、3D 対応の拡散モデルを使用してモデルをトレーニングし、個々のオブジェクトに対して SDS 蒸留を実行する研究が数多く行われています。

しかし、真に「シーンレベル」の画像生成はこれまで実現されていません。

現在、スタンフォード大学のフェイフェイ・リーと Google チームがこの記録を破りました。

例えば、ある角度から撮影したリビングルームの写真を入力すると、リビングルーム全体の様子が表示されます。

こちらは、家の角を非常に斜めの角度で撮影した別の写真です。これもまた、予想外の空間を作り出すことができます。

屋内外のさまざまなオブジェクトの全景写真もあります。

これを見ると、AIの「脳サプリメント」はただただすごいと思わずにはいられません!

それで、これは具体的にどのように達成されるのでしょうか?

3D知覚拡散モデル——ZeroNVS

最新の論文では、スタンフォード大学と Google の研究者が 3D 知覚拡散モデルである ZeroNVS を紹介しました。

論文アドレス: https://arxiv.org/pdf/2310.17994.pdf

単一画像の 360 度 Novel View 合成 (NVS) モデルでは、生成される画像が現実的かつ多様である必要があります。

合成画像は私たちにとって自然で 3D 的に一貫して見える必要があり、また、観察できない領域についてもさまざまな解釈が可能である必要があります。

従来、この困難な問題は通常、単一のオブジェクト、またはコンテキストなしで研究されており、信頼性と多様性の両方の要件が簡素化されていることを意味します。

最近の研究では、条件付き散乱モデルを使用して新しい視点からリアルな画像を生成できる Objaverse-XL などの高品質で大規模なデータセットが活用されており、その後、SDS 蒸留によってサンプリングされて 3D の一貫性が向上します。

一方、画像の多様性は主にオブジェクトではなく背景に存在するため、背景を無視すると、多様な画像を合成する効果が大幅に低下します。

実際、ほとんどのオブジェクト中心の方法では、多様性を指標として考慮しなくなりました。

しかし、複雑な現実のシーンで新しい視点の合成を生成することはより困難な問題であり、現在のところ、完全なシーンの真実の情報を含む大規模なデータセットは存在しません。

研究者たちは、研究の文脈をモデル化して多様な結果を生み出した。

ZeroNVS では、著者らは、3D 認識拡散モデル トレーニング (Zero-1-to-3) と SDS 蒸留 (DreamFusion) における以前の研究を基に、単一の実際の画像からシーンを予測する新しい手法を開発しています。

具体的な方法

研究者たちは、単一の実画像からシーンレベルの新しいビューを合成する問題に取り組んでいます。

以前の研究と同様に、まず拡散モデルをトレーニングして新しいビュー合成を実行し、次にそれを活用して 3D SDS 蒸留を実行します。

これまでの研究とは異なり、著者らはオブジェクトではなくシーンに焦点を当てています。

このシナリオでは、いくつかの独特な課題が提示されました。まず、これまでの研究では、シーンについて曖昧であったり表現が不十分なカメラやスケールの表現が使用されていました。

第二に、これまでの研究の推論プロセスは SDS に基づいていますが、これはモード崩壊の問題が知られており、予測されるビューの背景の多様性を大幅に削減することでシーンに現れます。

研究者らは、以前の研究と比較して、シーンの表現と推論手順を改善することでこれらの課題に対処しようとしました。

この定式化では、M の出力と単一の画像の入力が、ビュー合成モデルで利用できる唯一の情報です。

ビュー合成を表すオブジェクト

下の図に示すように、3DoF カメラ ポーズは、カメラの仰角、方位角、および原点を指すカメラの半径をキャプチャしますが、カメラのロール (図に示すように) や空間内の任意の方向のカメラを表すことはできません。

このようなパラメータ化を持つモデルは、多くのカメラポーズを 3DoF ポーズで適切に表現できない現実世界のデータでトレーニングすることはできません。

ビュー構成の一般的なシナリオを表現する

シーンの場合、研究者は、すべての可能な位置と方向をキャプチャできる 6 自由度のカメラ表現を使用する必要があります。

6 つの自由度をキャプチャするカメラ パラメータ化の簡単な選択肢は、相対ポーズ パラメータ化です。研究者らは、視野も追加の自由度として含めることを提案し、この複合表現を「6DoF+1」と呼ぶ。

M 6DoF+1 の魅力的な特性は、シーンの剛体変換に対して不変であることです。つまり、次のようになります。

各正規化スキームの ZeroNVS における複数のサンプルの Sobel エッジ マップの分散のヒートマップ。研究者らは、スケールの曖昧さによって引き起こされるランダム性を観察者が低減するスキーム M 6DoF+1 を提案しました。

SDSアンカーによる多様性の向上

SDS ベースの NeRF 蒸留 (左) では、すべての新しい 360° ビューに同じガイダンス イメージが使用されます。

当社の「SDS アンカリング」(右) は、まず DDIM を介して新しいビューをサンプリングし、次に最も近い画像 (入力またはサンプリングされた新しいビューのいずれか) をガイドとして使用します。

実験結果

具体的な評価では、研究者らは一連の標準的な新しいビュー合成メトリックを使用して、PSNR、SSIM、LPIPS のすべての方法を評価しました。

PSNR と SSIM の既知の欠点のため、研究者は LPIPS に重点を置き、図 7 に示すように、PSNR と SSIM は問題設定でのパフォーマンスとあまり相関しないことを確認しました。

結果を表1に示す。

まず、ベースライン手法である DS-NeRF、PixelNeRF、SinNeRF、DietNeRF と比較します。

これらの方法はすべて DTU でトレーニングされていますが、研究者は DTU でトレーニングしたことがなく、最先端の LPIPS ゼロショットを達成しました。

いくつかの定性的な比較を図 8 に示します。

DTU シナリオは、比較的単純なフォワード シナリオに制限されます。

そのため、研究者らは、より困難なベンチマーク データセットである Mip-NeRF 360 データセットも導入し、単一の画像から 360 度ビューを合成するタスクをベンチマークしました。

研究者らはこのベンチマークをゼロショット ベンチマークとして使用し、混合データセットで 3 つのベースライン モデルをトレーニングしてゼロショットのパフォーマンスを比較しました。

これらのゼロショット モデルを制限すると、このデータセットでは LPIPS で彼らの方法が大幅にリードします。表 2 に示すように、DTU では、新しい方法は LPIPS だけでなくすべてのメトリックで Zero-1-to-3 および Zero-Shot PixelNeRF モデルよりも優れています。

著者について

カイル・サージェント

スタンフォード大学の博士課程の学生。2022年秋から、Jiajun Wu 氏と Fei-Fei Li 氏とともにスタンフォード人工知能研究所で勤務します。

彼は Google Research で学生研究者としても働いていました。

<<:  28 歳の中国人 Meta ソフトウェア エンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

>>: 

ブログ    
ブログ    

推薦する

AIのマインドリーディングがサミットであなたを驚かせる!モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される|NeurIPS 2023

今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画...

...

あなたの頭上に「ロボット」がやって来ます!起業家の知恵:リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...

AI脳を搭載したドローン:群衆の中の暴力的な人々を正確に識別できる

[[233174]]もしある日私を殴りたくなったら、ただ殴って終わりにできると思いますか?今はそんな...

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

自動運転が原因でしょうか?上海の地下鉄で乗客がホームの網戸に挟まれて死亡した。この悲劇の責任は誰にあるのだろうか?

1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...

交通渋滞の解決、放射線の監視、現場での捜索救助...ドローンにはどんな素晴らしい用途があるのでしょうか?

01 トラフィック監視セキュリティ任務におけるドローンの有望な用途の 1 つは、交通監視システムの...

学生の未来を照らすSquirrel AIは、すべての子供にAIスーパー教師を授けます

[51CTO.com からのオリジナル記事] 人工知能技術のさらなる進歩により、教師が本来行わなけれ...

...

...

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...

機械学習を使用して、GPU と TPU で高速化できる O(N) 複雑度のソート アルゴリズムを構築します。

[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...

サーマルイメージングによって施設と従業員の安全性がどのように向上するのでしょうか?

監視範囲の死角、互換性のないビデオおよびアクセス制御システム、適切な境界保護の欠如...これらは、施...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

...