写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です——

AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。

360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法でを生成することもできます。

さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニング データ セットもあることです。3D データ、複数の視点、カメラ パラメータがなくても、新しい視点を生成する方法を学習できます。

NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

これに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。

ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビュー データセットを使用してより優れた 2D をトレーニングする必要があります。

ただし、マルチビュー データセットは制限されることが多く、トレーニングに長い時間がかかります。

そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。

Pix2NeRF には、ジェネレータ ネットワーク G、ディスクリミネーター ネットワーク D、エンコーダー E という 3 種類のネットワーク アーキテクチャが含まれています。

このうち、生成ネットワーク G と識別ネットワーク D は生成敵​​対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。

まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。

次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。

ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。

では、この「混合」AI モデルの効果は何でしょうか?

ぼやけた画像を使うことで新たな視点も生み出せる

著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。

たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。

その中で、GAN 反転の目的は、与えられた画像を事前トレーニング済みの GAN モデルの潜在空間に反転し、ジェネレーターが反転されたコードから画像を再構築できるようにすることです。

実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。

次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の A​​I モデルと比較しました。

結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。

CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。

さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。

一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。

AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。

著者について

この論文の著者は全員、スイス連邦工科大学チューリッヒ校(ETH)の出身です。

論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングス カレッジ ロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラル レンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。

ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピューター ビジョンと機械学習が含まれます。

Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。

ETH のコンピューター ビジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボット ビジョン、オプティカル フローなどがあります。

この研究のコードは現在準備中です。

興味のある友達はしばらくしゃがんでください〜

論文の宛先:

https://arxiv.org/abs/2202.13162

プロジェクトアドレス:

https://github.com/sxyu/pixel-nerf

<<:  Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

>>:  オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人材管理を改善する人工知能の可能性

AI は人間の従業員の努力を補完し、彼らの時間を解放することができます。人事担当者はこの機会を利用し...

これから「顔認証」の時代がやって来ますが、あなたの顔は安全でしょうか?

[[206222]] 【TechWebレポート】10月13日、Appleの携帯電話はバッテリー膨張...

すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...

コードのスキャン、顔認識、人工知能、「インターネット+」...デジタル中国はあなたと私の人生を変えます!

[[264426]]第1回デジタル中国建設サミットのテーマは「情報化で近代化を推進し、デジタル中国...

2020年の世界産業用ロボット業界の現在の市場状況と競争環境の分析

2020年の世界産業用ロボット産業の現状と競争環境の分析:アジア太平洋地域が世界最大の市場に1. 世...

GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

Appleは自動車製造を諦めてAIに目を向けたが、Li Xiang氏はこう答えた。「その通りだ!」その背後にある真実は人々に深く考えさせる

この2日間で大きなニュースがありました。Appleが自動車の製造をやめると発表したのです。このニュー...

...

Google の新しい AI が話題に!世界で最も長い単語を描くことができる

友達、この英語の単語が何だか知っていますか?超微細珪火山性肺炎。これは45文字からなる世界最長の単語...

データアーキテクチャはAIと医療の未来を推進する上で重要

COVID-19パンデミックは、医学的発見のスピードの重要性だけでなく、その加速を支援するデータサイ...

GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターをベンチマークし、CUHK の最新の研究では「大きな動き」が発表さ...

AI と新しい小売業が出会ったとき、両者は力を合わせて無敵になれるのでしょうか?

[51CTO.com オリジナル記事] 2018 年に最も人気のある 2 つの単語はどれでしょうか...