CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を暗黙的に学習できることを確認しています。研究者らが提案した方法は、3D 形状生成の新しい方法といえます。彼らは、従来の方法の対称性の仮定に依存しない新しい教師なし3D再構築方法「Shape-from-GAN」を提案し、建築物などのオープンデータセット上での3D再構築を初めて実現しました。この研究はICLR 2021口頭発表論文として採択されました。 現在、StyleGAN などの生成的敵対ネットワークは、さまざまなオブジェクトのリアルな 2D 画像を生成できます。しかし、おそらく皆さんが知らないのは、これらの GAN が、生成するオブジェクトの 3D 形状を実際に認識しているということです。 2D GAN によって生成された画像の場合、次の図に示すように、3D 構造を正確に再構築し、回転や再照明などの画像編集効果を実装できます。 これは、香港中文大学、南洋理工大学、香港大学の研究者らが提案した、2D GAN を使用した教師なし 3D 再構築を実現する GAN2Shape 手法です。この「Shape-from-GAN」パラダイムは、従来の方法の対称性の仮定に依存する必要がなく、さまざまなオブジェクト カテゴリに適用でき、SOTA を達成するための従来の方法を上回ります。現在、この論文はICLR 2021に口頭発表として採択されています。論文のコードもオープンソース化されています。 論文リンク: プロジェクトリンク: 研究の動機 近年、生成的敵対的ネットワーク (GAN) は画像生成タスクで大きな成功を収めています。私たちは、2次元の画像の世界を作り出すためにそれを使用することに熱心ですが、実際には、これらの2次元の画像は、3次元のオブジェクトを2次元の画像平面に投影したものです。 例えば、下の図はStyleGAN[1]が顔の視点の変更を実現できることを示しています(顔の視点の注釈の監視下)。したがって、GAN の画像空間を移動する場合、理想的にはこれらの画像はオブジェクト自体の 3D 構造に準拠している必要があります。 StyleGANは顔の視点の変化を実現できる したがって、興味深い疑問は、 2D GAN で幾何学的情報 (視点と照明) をマイニングすることで、オブジェクトの 3D 形状を再構築できるかどうかです。 方法: GAN画像空間における視点と照明情報のマイニングと活用 GAN で幾何学情報をマイニングするのは簡単な作業ではありません。既存の方法では、あらゆるオブジェクト カテゴリの GAN の潜在空間で対応する遠近法と照明変数の正確な方向を見つけることは困難です。この問題を解決するために、研究者たちは、ほとんどの物体(顔や車など)が比較的「凸型」の三次元形状をしていることに気が付きました。 そのため、彼らは物体の形状として楕円体を使用しました。この事前確率は弱いですが、オブジェクトの視点や照明の変化をある程度反映することができ、GAN 画像空間におけるさまざまな視点や照明の探索を導くために使用できます。 GAN2Shape メソッドの概要 このアイデアに基づいて、研究者はGAN画像空間内の遠近法と照明情報を反復的にマイニングして活用する戦略を設計しました。具体的な手順は次のとおりです。 最初のステップは、初期化された形状 (つまり、楕円体) と微分可能なレンダラーを使用して、さまざまな視野角と照明条件下で多数の「疑似サンプル」をレンダリングすることです。 2 番目のステップは、事前トレーニング済みの GAN を使用して疑似サンプルを再構築し、GAN 画像空間での投影、つまり「投影サンプル」を取得することです。これらの投影されたサンプルは、疑似サンプルと同様の視点と照明を継承します。同時に、GAN の生成特性により、投影されたサンプルは実際の画像空間に制約され、疑似サンプル内の非現実的な歪みや光と影が排除されます。 3 番目のステップでは、投影されたサンプルが微分可能なレンダリング ステップのグラウンド トゥルースとして使用され、オブジェクトの 3D 形状が最適化されます。投影サンプルにはGANが学習した物体の3次元情報が含まれているため、上の写真の顔のように物体の形状がより正確になります。 上記の手順を完了したら、最適化された形状を初期形状として使用し、上記の手順を複数回繰り返して、収束するまで形状を徐々に改善することができます。 注目すべきは、上記の第 2 ステップで GAN を使用して疑似サンプルを再構築する際に、再構築結果の信頼性を確保するために、研究者らが StyleGAN2 のマッピング ネットワークの一部を使用して潜在ベクトルを制限する方法を提案したことです。詳細については、元の論文を参照してください。 実験: 2D GAN 画像を 3D に変換できる 研究者らは、人間の顔、猫の顔、車、建物でトレーニングされたStyleGAN2 [1]にGAN2Shapeを適用しました。結果は、次の図に示すように、すべてが合理的な3D形状を再構築できることを示しました。 次の図は、建物上のGAN2Shapeの3D再構築と再照明の結果と、Unsup3d [2]との比較を示しています。 さらに、この研究の定量的な結果も他の方法を大幅に上回り、従来の顔の対称性の仮定を使用せずに合理的な3次元再構築結果が得られました。 この手法では、GAN 潜在空間における物体の 3 次元形状の方向と遠近照明の変化を取得するため、次の図に示すように、画像を 3 次元的に編集することができます。 オブジェクトの回転や再照明などの 3D 画像編集の結果。 他の教師なしGANベースの顔回転方法と比較して、研究者の方法は顔のアイデンティティをよりよく保持します。 教師なし顔回転方法の比較。 3D 再構築と編集のさらなる結果を次の図に示します。 |
>>: 画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ
[[420892]]学習の実行方法に基づいて、アルゴリズムをさまざまなカテゴリに分類できます。教師あ...
グローバル情報化教育の時代において、教育モデル、教育内容、学習方法は大きな変化を遂げており、人工知能...
調査会社ガートナーは、データ サイエンスおよび機械学習プラットフォームを「さまざまなデータ サイエン...
ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注...
レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...
01.人間は日々、環境、社会、他の人々、物と密接に関わっています。このタイプの接続は、一方向、双方...
[[405128]]このチュートリアルでは、TensorFlow (Keras API) を使用して...
講演者紹介:王東:北京大学大学院 CreditEase テクノロジーセンター AI ミドルプラットフ...
[[379936]]近年、人工知能、コンピュータービジョン、ビッグデータ、クラウドコンピューティング...
人工知能 (AI) が医療分野において大きなチャンスと潜在的なリスクを抱えていることはよく知られてい...
周知のとおり、従来の手動メーター読み取り方法は時間がかかり、労働集約的であり、その正確性と適時性は保...