写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です——

AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。

360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法で顔を生成することもできます。

さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニングデータセットもあることです。3D データ、複数の視点、カメラパラメータがなくても、新しい視点を生成する方法を学習できます。

NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

これに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。

ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビューデータセットを使用してより優れた 2D をトレーニングする必要があります。

ただし、マルチビューデータセットは制限されることが多く、トレーニングに長い時間がかかります。

そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。

Pix2NeRF には、ジェネレータネットワーク G、ディスクリミネーターネットワーク D、エンコーダー E という 3 種類のネットワークアーキテクチャが含まれています。

このうち、生成ネットワーク G と識別ネットワーク D は生成敵対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。

まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。

次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。

ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。

では、この「混合」AI モデルの効果は何でしょうか?

ぼやけた画像を使うことで新たな視点も生み出せる

著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。

たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。

その中で、GAN 反転の目的は、与えられた画像を事前トレーニング済みの GAN モデルの潜在空間に反転し、ジェネレーターが反転されたコードから画像を再構築できるようにすることです。

実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。

次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の AI モデルと比較しました。

結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。

CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。

さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。

一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。

AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。

著者について

この論文の著者は全員、スイス連邦工科大学チューリッヒ校（ETH）の出身です。

論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングスカレッジロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラルレンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。

ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピュータービジョンと機械学習が含まれます。

Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。

ETH のコンピュータービジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボットビジョン、オプティカルフローなどがあります。

この研究のコードは現在準備中です。

興味のある友達はしばらくしゃがんでください〜

論文の宛先:

https://arxiv.org/abs/2202.13162

プロジェクトアドレス:

https://github.com/sxyu/pixel-nerf

<<: Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

>>: オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

ブログ

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

GAN+オートエンコーダーで「脳を満たす」方法を学ぶ

ぼやけた画像を使うことで新たな視点も生み出せる

著者について

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

自動運転技術のアルゴリズムを研究するにはどのような知識が必要ですか?

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

2022年の7つの最先端技術：量子シミュレーションと標的遺伝子治療

AIスタートアップで2年間働いて学んだ7つのこと

AIが気候変動に効果的に対抗する方法

2030年までに、仕事の70％が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか？

推薦する

Google Chinaのエンジニアは破壊的なアルゴリズムモデルを提案し、Waymoはそれをテストして予測精度を向上させた。

人工知能がスマート交通の発展に与える影響

Google の具現化された知能に関する新たな研究: RT-H が登場、RT-2 より優れている

デジタルツインブレイン：生物と人工知能の架け橋

新たなマイルストーン！ IBM、量子コンピュータの最高記録64台を発表、ハネウェルを追い抜く

人工知能とコンピュータービジョンの違いは何ですか?

デュアルポインタとスライディングウィンドウアルゴリズムテンプレート

どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?

将来の成長の原動力は？ビッグデータ＋人工知能が浸透し、私たちの生活を変える

ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

2021年の中国サービスロボット産業の発展状況のレビュー

Java クラシックアルゴリズム: カクテルソート

ついに誰かが「組み込み人工知能」を明らかにした