この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2D絵「脳サプリメント」3Dモデル、今回は一枚だけで十分です—— AI にランダムな写真を入力するだけで、さまざまな角度からの「新しいビュー」が生成されます。 360°の椅子や車を処理できるだけでなく、「死の自撮り」の角度から下からのビューまで、新しい方法で顔を生成することもできます。 さらに興味深いのは、 Pix2NeRFというこの AI には「異なる」トレーニング データ セットもあることです。3D データ、複数の視点、カメラ パラメータがなくても、新しい視点を生成する方法を学習できます。 NeRFシリーズのAIは新たな高みに到達したと言えるでしょう。 GAN+オートエンコーダーで「脳を満たす」方法を学ぶこれに先立ち、NeRF は複数のビューを通じて AI モデルをトレーニングし、新しい視点から 3D オブジェクトの写真を生成することを学習できるようにしました。 ただし、これにより、PixelNeRF や GRF などの NeRF メソッドを使用する一連のモデルも作成され、3D モデル効果を生成するために、マルチビュー データセットを使用してより優れた 2D をトレーニングする必要があります。 ただし、マルチビュー データセットは制限されることが多く、トレーニングに長い時間がかかります。 そこで著者らは、自動エンコーダーを使用して物体の姿勢と形状の特徴を抽出し、GAN を使用して新しい透視画像を直接生成するという新しい方法を考案しました。 Pix2NeRF には、ジェネレータ ネットワーク G、ディスクリミネーター ネットワーク D、エンコーダー E という 3 種類のネットワーク アーキテクチャが含まれています。 このうち、生成ネットワーク G と識別ネットワーク D は生成敵対ネットワークGANを構成し、エンコーダー E と生成ネットワーク G は自動エンコーダーを形成するために使用されます。 まず、オートエンコーダは、教師なし学習を通じて、物体の姿勢や形状など、入力画像の隠れた特徴を取得し、学習した特徴を使用して元のデータを再構築します。 次に、GAN を使用して、姿勢と形状データを通じて元のオブジェクトの形状とは異なる新しいビューを再構築します。 ここで研究者らは、他のタイプの GAN よりも優れた 3D 遠近法写真を生成するπ-GANと呼ばれる構造を使用しました (著者らは HoloGAN を使用した論文も比較しました)。 では、この「混合」AI モデルの効果は何でしょうか? ぼやけた画像を使うことで新たな視点も生み出せる著者らはまず、さまざまなトレーニング方法とモデルアーキテクチャが Pix2NeRF の効果を本当に向上させることができるかどうかを確認するために、一連のアブレーション実験を実施しました。 たとえば、モデルから GAN 逆マッピングとオートエンコーダーを削除するか、学習率をウォームアップするためにウォームアップを使用せずに、新しい視点から顔を生成してみます。
実験では、完全なモデルを除いて、さまざまな方法のモデルを削除して顔を生成する効果が十分ではないことが示されています。 次に著者らは、生成された写真のパフォーマンスを、新しいビューを生成する他の AI モデルと比較しました。 結果は、Pix2NeRF は ShapeNet-SRN の生成において PixelNeRF ほど優れてはいないものの、結果は非常に近いことを示しています。 CelebA および CARLA データセットでは、Pix2NeRF が基本的に最良の結果を達成しました。 さらに、このモデルには「美化」機能も組み込まれています。ぼやけた画像が送信された場合でも、GAN に滑らかな輪郭を与えることができます。 一般的に、人間の顔はさまざまな角度から新しいビューを生成できることに加えて、物体も 360° でさまざまな姿勢をとることが想像できます。 AIは人間と同様に、見たことのない物体の形状を「想像」することを学んだようです。 著者についてこの論文の著者は全員、スイス連邦工科大学チューリッヒ校(ETH)の出身です。 論文の筆頭著者である Shengqu Cai 氏は、ETH の修士課程の学生であり、キングス カレッジ ロンドンを卒業して学士号を取得しています。彼の研究対象には、ニューラル レンダリング、生成モデル、教師なし学習などがあります。彼は遼寧実験中学校を卒業しました。 ETH の博士課程の学生である Anton Obukhov 氏は、以前は NVIDIA などの企業で働いており、研究対象にはコンピューター ビジョンと機械学習が含まれます。 Dengxin Dai 氏は、マックスプランク研究所の上級研究員であり、ETH (外部) 講師です。彼の研究対象には、自動運転、センサー融合、限定的な監視による物体検出などがあります。 ETH のコンピューター ビジョン教授である Luc Van Gool 氏は、Google Scholar で 150,000 件を超える引用を獲得しています。彼の研究対象には、2D および 3D のオブジェクト認識、ロボット ビジョン、オプティカル フローなどがあります。 この研究のコードは現在準備中です。 興味のある友達はしばらくしゃがんでください〜 論文の宛先: https://arxiv.org/abs/2202.13162 プロジェクトアドレス: https://github.com/sxyu/pixel-nerf |
<<: Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。
>>: オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応
「周囲の車両や歩行者は、次の数秒で何をするだろうか?」これは、安全な自動運転を実現するために答えな...
[[262283]]時代の進歩とさまざまな技術の継続的な発展により、私たちの日常生活は大きな変化を遂...
GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出...
人間の脳の構造にヒントを得た神経科学と AI 技術の最近の一連の進歩により、知性の謎を解き明かす新た...
ちょうど今、IBM は量子コンピューティングの新たなマイルストーンに到達し、現時点での最高量子ボリュ...
人工知能 (AI) アプリケーションは、テクノロジーとの関わり方を変え始めており、私たちの生活をより...
[[428819]]ダブルポインタのアルゴリズム原理は、2 つのポインタを介して 1 つの for ...
人工知能 (AI) は建物の避けられない未来ですが、過去 10 年間のスマート テクノロジーの採用と...
画像ソース: Unsplash新世代情報技術の急速な発展に伴い、コンピューティング能力、データ処理能...
ChatGPT を使用して有料の Web コンテンツに無料でアクセスすることは、まもなくできなくな...
写真ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運...
人口の高齢化が加速し、教育に対する需要が引き続き強いことから、中国のサービスロボットは大きな市場潜在...
ソートアルゴリズムの中では、バブルソートが古典的です。カクテル ソートは、シェーカー ソートとも呼ば...
組み込み人工知能とは、組み込み環境で人工知能を実行することです。アルゴリズムモデルは以前と同じですが...