Nvidia の新しいブラック テクノロジーが「Minecraft」のモザイクをリアルな大ヒット作に変える

Nvidia の新しいブラック テクノロジーが「Minecraft」のモザイクをリアルな大ヒット作に変える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

島の大ヒット作を見てみましょう。

これは写真家の作品ではなく、GANcraft の作品です。

元画像は「Minecraft」のモザイク品質のシーンです。

今、「私の世界」は本当に私の世界になりました!

NVIDIA とコーネル大学のコラボレーションによる GANcraft は、大規模な 3D ブロック世界をリアルな画像に生成できる、教師なし 3D ニューラル レンダリング フレームワークです。

かつてない現実感

それはどれくらい現実的ですか?他のモデルと比較すると。

以下は、MUNIT、GauGAN で使用される SPADE、wc-vid2vid、および NSVF-W (NSVF+NeRF-W) を使用して 2 つのシナリオで生成された効果です。

GANcraftの効果を見てみましょう: (色と画質は圧縮されています)

比較すると次のことがわかります。

MUNIT や SPADEなどの Im2im (画像間変換) 方式では、モデルに 3D ジオメトリの知識がなく、各フレームが独立して生成されるため、視点の一貫性を維持できません。

wc-vid2vid はビュー一貫性のあるビデオを生成しますが、トレーニング テスト領域でのブロック状のジオメトリとエラーの蓄積により、時間の経過とともに画像の品質が急速に低下します。

NSVF-Wもビューと一致する出力を生成しますが、色がくすんで見え、詳細が欠けています。

GANcraftによって生成された画像は、高品質でありながらビューの一貫性を維持します。

これはどうやって行うのですか?

原則の概要

GANcraft のニューラル レンダリングの使用によりビューの一貫性が確保され、革新的なモデル アーキテクチャとトレーニング スキームによりこれまでにないリアリズムが実現されます。

具体的には、研究者らは、Hybird ボクセル条件付きニューラル レンダリング手法を使用して、3D ボリューム レンダラーと 2D 画像空間レンダラーを組み合わせました。

まず、ボクセル(つまり、ボリューム要素)で囲まれた神経放射フィールドが定義され、学習可能な特徴ベクトルがブロックの各コーナーに割り当てられます。

三線補間を使用して、ボクセル内の任意の場所に位置コードが定義され、世界を連続的なボリューム関数として表現します。また、各ブロックには、土、草、水などのセマンティック ラベルが割り当てられます。

次に、MLP を使用して放射輝度フィールドが暗黙的に定義されます。MLP は、位置コード、セマンティック ラベル、共有スタイル コードを入力として受け取り、ポイント フィーチャ (放射輝度に類似) とそのボリューム密度を生成します。

最後に、カメラのパラメータが与えられ、放射フィールドをレンダリングすることによって 2D 特徴マップが取得され、CNN を使用して画像に変換されます。

ボクセル条件付きニューラルレンダリングモデルを構築することは可能ですが、グラウンドトゥルースとして使用できる画像はありません。このため、研究者は敵対的トレーニング方法を採用しました。

しかし、Minecraft は現実世界とは異なり、シーンが完全に雪や水に覆われていたり、1 つのエリアに複数のバイオームが出現したりするなど、ブロックのラベル分布がまったく異なることがよくあります。

インターネットの写真を使った敵対的トレーニングでは、ランダムにサンプリングすると非現実的な結果が生成されます。

そのため、研究者はトレーニングのために疑似グラウンドトゥルースを生成します。

事前トレーニング済みの SPADE モデルを使用して、2D セマンティック セグメンテーション マスクを通じて、同じセマンティクスを持つ疑似グラウンド トゥルース画像が取得されます。

これにより、ラベルと画像の割り当て間の不一致が軽減されるだけでなく、損失が強くなり、より高速で安定したトレーニングが可能になります。生成パフォーマンスが大幅に向上しました:

さらに、GANcraft を使用すると、ユーザーはシーンのセマンティクスと出力スタイルを制御できます。

紹介ページには次のように書かれています: 「Minecraft プレイヤー全員が 3D アーティストに変身します!」

さらに、複雑な風景シーンの 3D モデリング プロセスが簡素化され、長年の専門知識が不要になります。

GANcraft はまもなくオープンソースになります。興味のある方はリンクをクリックして詳細をご覧ください。

参考リンク:
[1] https://nvlabs.github.io/GANcraft/
[2] https://arxiv.org/abs/2104.07659
[3] https://news.ycombinator.com/item?id=26833972

<<:  Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か?

>>:  グラフアルゴリズムシリーズ: 無向グラフのデータ構造

ブログ    
ブログ    

推薦する

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

フォーカス分析: 動画向けAIと画像向けAIの違い

[51CTO.com クイック翻訳] 画像処理と比較すると、ビデオから洞察を抽出したり、AI 技術を...

説明可能なAIと説明可能な機械学習:ブラックボックスに光を当てる

人工知能(AI)や機械学習の分野では、「ブラックボックス」という概念が常に大きな注目を集めています。...

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

ボストン・ダイナミクスCEO:軍の命令は否定しないが、ロボット犬を粗雑に扱っていると思う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Ctrip列車チケットSMSリコールアルゴリズムの最適化の実践

著者についてCtrip アルゴリズムの専門家であるライアンは、パーソナライズされた推奨事項、スマート...

AI時代に向けてキャリアを再設計する時が来た

Pew Researchの分析によると、AI、特にAIGCの台頭は管理職や専門職に大きな影響を与える...

労働者は一生懸命働かなければなりません! AI仮想人間が労働力に参入しようとしている

[[413812]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能が実戦投入され、すでに一部は排除・解雇されている!

脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...

人工知能はどうすれば大衆に届くのでしょうか?最も価値のある AI テクノロジーは何ですか?

顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速...

...

AIは私たちが何を見て、何を考えるかを静かにコントロールしている

私たちの日常生活では、携帯電話のさまざまなアプリにますます依存するようになっています。外食時にレスト...

...

PaddleOCRのスーパーパワーを解き放つ

光学文字認識 (OCR) は、機械が画像やスキャンされた文書からテキストを認識して抽出できるようにす...