CityDreamer: ワンクリックで境界のない 3D 都市を生成

CityDreamer: ワンクリックで境界のない 3D 都市を生成

近年、3D自然シーンの生成に関する研究は盛んに行われていますが、3D都市の生成に関する研究はまだほとんど行われていません。これは主に、3D 都市は生成がより困難であり、人間は都市の構造的歪みに対してより敏感であるためです。最近、南洋理工大学のS-Labの研究者らが、境界のない3D都市の生成に重点を置いた新しいフレームワーク「CityDreamer」を提案しました。まずはその結果を見てみましょう。

良さそう?これはすべて次の研究から得られたものです。

  • 論文アドレス: https://arxiv.org/abs/2009.00610
  • プロジェクトアドレス: https://haozhexie.com/project/city-dreamer
  • コードアドレス: https://github.com/hzxie/city-dreamer

メタバースにおける 3D クリエイティブ ツールの需要の高まりに対応するため、最近、3 次元シーン生成が大きな注目を集めています。その中で、3D 都市の生成は 3D 自然シーンの生成よりも複雑です。自然の風景では、同じカテゴリのオブジェクトは通常、同様の外観を持ちます。たとえば、木は通常緑色です。しかし、都市では建物の外観は非常に多様であるにもかかわらず、同じカテゴリーに分類され、建物の外観の質の低下につながります。

この問題を解決するために、研究者は、2 つの異なるモジュールを使用して建物と都市の背景 (道路、緑地、水域を含む) を生成する、境界のない 3D 都市を生成する CityDreamer を提案しました。どちらのモジュールも、シーン表現として Bird's Eye View (BEV) を使用し、ボリューメトリック レンダラーを使用して敵対的トレーニングを通じてリアルな画像を生成します。

特に、シーンをパラメータ化する方法には、背景のオブジェクトや建物の固有の特性に合わせて慎重に調整されている点が挙げられます。各カテゴリの背景オブジェクトは通常、不規則なテクスチャを示しながら、同様の外観をしています。そのため、CityDreamer では、3D の一貫性を維持しながら自然さを保つためにハッシュ メッシュの生成を導入しています。対照的に、建築物の例では外観は多種多様ですが、ファサードの質感は一般的に規則的な周期的なパターンを示しています。そこで研究者らは、建物のファサードの多様性を処理するのにシンプルかつ効果的な周期的な位置エンコーディングを設計しました。

生成された都市のレイアウトと外観をよりリアルにするために、研究者は OSM と Google Earth という 2 つのデータセットを構築しました。前者はOpenStreetMap [1]から80以上の有名都市と6,000 km2以上の鳥瞰図の高さマップとセマンティックセグメンテーションマップを抽出しました。後者はGoogle Earth Studio [2]から米国ニューヨーク市の400の円形軌跡を抽出しました。これには24,000枚の画像とそれに対応するセマンティックセグメンテーションと建物インスタンスセグメンテーションの注釈が含まれています。これらの注釈は、OSM データセットから生成された 3D 都市レイアウトを画像に投影することによって生成されました。このアプローチにより、ラベル付けされたデータを世界の他の都市に簡単に拡張できます。

方法

CityDreamer は、3D 都市生成を、境界のない都市レイアウト生成、都市背景生成、建物インスタンス生成、画像融合の 4 つのステップに分解します。

無限の都市レイアウト生成

CityDreamer は、無限の都市レイアウトの生成を、スケーラブルなセマンティック マップと高さフィールドの生成問題に変換します。この目的のために、CityDreamerは、自然にインペインティングとアウトペインティング機能をサポートするMaskGIT [3]に基づくUnbounded Layout Generator (ULG)を使用します。具体的には、ULG は VQVAE を使用してセマンティック マップと高さフィールドの画像スライスをエンコードし、それらを個別の潜在空間に変換して Codeboook を作成します。推論中、ULG は自己回帰方式でコードブック インデックスを生成します。その後、ULG は VQVAE のデコーダーを使用して、セマンティック マップと高さフィールドのペアを生成します。 VQVAE は固定サイズのセマンティック マップと高さフィールドを生成するため、ULG はイメージ アウトペインティングを使用して任意のサイズのセマンティック マップと高さフィールドを作成します。このプロセスでは、ULG はスライディング ウィンドウを採用して、各ステップでローカル コードブック インデックスを予測し、スライディング期間中に 25% の重複を実現します。

都市背景生成

都市背景ジェネレーター (CBG) は、主に道路、緑地、水域などの都市の背景を生成するために使用されます。このモジュールは、シーン表現として鳥瞰図 (BEV) を使用します。具体的には、セマンティック マップと高さマップで構成される BEV 表現を使用して、大規模な 3D シーンを表現します。

同じカテゴリの都市背景は通常、外観が似ているという事実を考慮して、CBG はシーンのパラメータ化として生成ハッシュ グリッドを導入し、3D の一貫性を維持しながら自然さを保ちます。具体的には、CBG はハッシュ関数を使用して、シーンの特徴と空間ポイント座標をマルチスケール混合の学習可能なパラメータにマッピングします。

レンダリングの 3D 一貫性を確保するために、ボリューム レンダリングに基づくレンダリング ネットワークを使用して、3D 空間特性の 2D 画像へのマッピングを完了します。カメラ レイ上の点については、生成ハッシュ グリッドを照会して対応する特徴を取得し、スタイル ノイズによって変調されたマルチレイヤー MLP を使用して対応する点の色とボリューム密度を取得し、最後にボリューム レンダリングを使用して、カメラ レイ上のすべての点を対応するピクセルの色に統合します。

インスタンス生成の構築

建物インスタンス ジェネレーター (BIG) は、都市内の建物を生成するために使用されます。都市背景生成と同様に、シーン表現として鳥瞰図を使用し、ボリュームレンダリングベースのレンダリングネットワークを使用して 3D 空間特徴を 2D 画像にマッピングします。 BIG では 2 つの異なるクラス ラベルが割り当てられている建物のファサードと屋根の分布に大きな違いが見られます。

建物のファサードに現れる周期的な法則を考慮して、より軽量なシーン パラメータ化手法、つまり周期関数に基づくシーン パラメータ化を設計しました。具体的には、BIG は周期関数を通じて建築上の特徴と空間座標を高次元空間にマッピングします。

このうち、$\rm Concat$は連結演算を表し、次のように定義される。

画像融合

都市の背景の画像とマスク(それぞれ と で示される)と建物のインスタンスの画像とマスクのコレクション(それぞれ と で示される)が与えられると CityDreamer次のように融合画像を取得します。

ここで、n は建物インスタンスの数を表します。

実験

下の図は、CityDreamerと他のSOTA手法(PersistentNature [4]、SceneDreamer [5]、InfiniCity [6]など)との比較を示しています。実験結果によると、CityDreamer は他の方法よりも大幅に優れていることがわかりました。

下の図は、より多くの視点から生成された結果を示しており、CityDreamer の堅牢性を示しています。

<<:  何百万人もの人々が「焼けた赤ちゃん」の写真を見ました!バークレー教授が噂を否定:AI画像検出器は役に立たない

>>:  「メタバージョンChatGPT」の背後にある技術:基本的なLLMが長いコンテキストをより適切に処理できるようにするには、事前トレーニングを継続するだけです

ブログ    

推薦する

Facebookは再生可能エネルギー貯蔵を改善するために人工知能を活用する

Facebookとカーネギーメロン大学は、AIを使って新たな「電気触媒」を見つけようとしていると発表...

2024 年のビッグデータ業界予測 (パート 2)

ビッグデータデジタル変革への投資は、特にインフレが継続する中で、リスク管理の強化、コストの削減、顧客...

タイムトラベルが現実になる?人間はワームホールを通じて「時空の端」に到達できるかもしれないし、量子AIは機械に意識を与えるだろう

[[436484]]タイムトラベルは本当に可能なのでしょうか?新たな研究によれば、今から数千年後には...

PyTorch を使って完全な NeRF をゼロから構築する

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Daguan Data が自社開発の OCR と NLP 技術を統合し、インテリジェント RPA をリリース<

2019年7月26日、人工知能企業Daguan Dataは北京で「大道知建」をテーマにした製品発表...

10年後に人工知能のリーダーとなる国はどこでしょうか?アメリカ国民:中国であるべきだ

ロシアメディアは、中国の人工知能(AI)産業の急速な発展を背景に、米シンクタンクのブルッキングス研究...

人工知能は世界をどう変えるのか:BBCがAIのAからZまでをまとめる

今日、人工知能はもはや漠然とした研究室の技術ではなく、私たちの生活のあらゆる側面に組み込まれています...

...

アメリカン・エキスプレスはAIを活用してクレジットカード詐欺を50%削減

サイバー犯罪者の目から見れば、クレジットカード会社は間違いなく最も重要な攻撃ターゲットの一つです。彼...

...

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られています...

.NET 6 でのハッシュ アルゴリズムの簡略化された使用

[[422468]]この記事はWeChatの公開アカウント「amazingdotnet」から転載した...

2021 年のデジタル トランスフォーメーションの 10 大トレンド

2020 年に私たちがどうなるかは誰も予測できませんでした。過去 6 か月だけでも、過去 10 年間...

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付け...

中国、米国、欧州における人工知能開発の現状の比較分析

1. 背景と比較方法[[393581]]人工知能は、経済、安全保障、社会の発展を促進する基礎技術です...