ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を暗黙的に学習できることを確認しています。研究者らが提案した方法は、3D 形状生成の新しい方法といえます。彼らは、従来の方法の対称性の仮定に依存しない新しい教師なし3D再構築方法「Shape-from-GAN」を提案し、建築物などのオープンデータセット上での3D再構築を初めて実現しました。この研究はICLR 2021口頭発表論文として採択されました。

現在、StyleGAN などの生成的敵対ネットワークは、さまざまなオブジェクトのリアルな 2D 画像を生成できます。しかし、おそらく皆さんが知らないのは、これらの GAN が、生成するオブジェクトの 3D 形状を実際に認識しているということです。 2D GAN によって生成された画像の場合、次の図に示すように、3D 構造を正確に再構築し、回転や再照明などの画像編集効果を実装できます。

これは、香港中文大学、南洋理工大学、香港大学の研究者らが提案した、2D GAN を使用した教師なし 3D 再構築を実現する GAN2Shape 手法です。この「Shape-from-GAN」パラダイムは、従来の方法の対称性の仮定に依存する必要がなく、さまざまなオブジェクトカテゴリに適用でき、SOTA を達成するための従来の方法を上回ります。現在、この論文はICLR 2021に口頭発表として採択されています。論文のコードもオープンソース化されています。

論文リンク:
https://openreview.net/pdf?id=FGqiDsBUKL0

プロジェクトリンク:
https://github.com/XingangPan/GAN2Shape

研究の動機

近年、生成的敵対的ネットワーク (GAN) は画像生成タスクで大きな成功を収めています。私たちは、2次元の画像の世界を作り出すためにそれを使用することに熱心ですが、実際には、これらの2次元の画像は、3次元のオブジェクトを2次元の画像平面に投影したものです。

例えば、下の図はStyleGAN[1]が顔の視点の変更を実現できることを示しています（顔の視点の注釈の監視下）。したがって、GAN の画像空間を移動する場合、理想的にはこれらの画像はオブジェクト自体の 3D 構造に準拠している必要があります。

StyleGANは顔の視点の変化を実現できる

したがって、興味深い疑問は、 2D GAN で幾何学的情報 (視点と照明) をマイニングすることで、オブジェクトの 3D 形状を再構築できるかどうかです。

方法: GAN画像空間における視点と照明情報のマイニングと活用

GAN で幾何学情報をマイニングするのは簡単な作業ではありません。既存の方法では、あらゆるオブジェクトカテゴリの GAN の潜在空間で対応する遠近法と照明変数の正確な方向を見つけることは困難です。この問題を解決するために、研究者たちは、ほとんどの物体（顔や車など）が比較的「凸型」の三次元形状をしていることに気が付きました。

そのため、彼らは物体の形状として楕円体を使用しました。この事前確率は弱いですが、オブジェクトの視点や照明の変化をある程度反映することができ、GAN 画像空間におけるさまざまな視点や照明の探索を導くために使用できます。

GAN2Shape メソッドの概要

このアイデアに基づいて、研究者はGAN画像空間内の遠近法と照明情報を反復的にマイニングして活用する戦略を設計しました。具体的な手順は次のとおりです。

最初のステップは、初期化された形状 (つまり、楕円体) と微分可能なレンダラーを使用して、さまざまな視野角と照明条件下で多数の「疑似サンプル」をレンダリングすることです。

2 番目のステップは、事前トレーニング済みの GAN を使用して疑似サンプルを再構築し、GAN 画像空間での投影、つまり「投影サンプル」を取得することです。これらの投影されたサンプルは、疑似サンプルと同様の視点と照明を継承します。同時に、GAN の生成特性により、投影されたサンプルは実際の画像空間に制約され、疑似サンプル内の非現実的な歪みや光と影が排除されます。

3 番目のステップでは、投影されたサンプルが微分可能なレンダリングステップのグラウンドトゥルースとして使用され、オブジェクトの 3D 形状が最適化されます。投影サンプルにはGANが学習した物体の3次元情報が含まれているため、上の写真の顔のように物体の形状がより正確になります。

上記の手順を完了したら、最適化された形状を初期形状として使用し、上記の手順を複数回繰り返して、収束するまで形状を徐々に改善することができます。

注目すべきは、上記の第 2 ステップで GAN を使用して疑似サンプルを再構築する際に、再構築結果の信頼性を確保するために、研究者らが StyleGAN2 のマッピングネットワークの一部を使用して潜在ベクトルを制限する方法を提案したことです。詳細については、元の論文を参照してください。

実験: 2D GAN 画像を 3D に変換できる

研究者らは、人間の顔、猫の顔、車、建物でトレーニングされたStyleGAN2 [1]にGAN2Shapeを適用しました。結果は、次の図に示すように、すべてが合理的な3D形状を再構築できることを示しました。

次の図は、建物上のGAN2Shapeの3D再構築と再照明の結果と、Unsup3d [2]との比較を示しています。

さらに、この研究の定量的な結果も他の方法を大幅に上回り、従来の顔の対称性の仮定を使用せずに合理的な3次元再構築結果が得られました。

この手法では、GAN 潜在空間における物体の 3 次元形状の方向と遠近照明の変化を取得するため、次の図に示すように、画像を 3 次元的に編集することができます。

オブジェクトの回転や再照明などの 3D 画像編集の結果。

他の教師なしGANベースの顔回転方法と比較して、研究者の方法は顔のアイデンティティをよりよく保持します。

教師なし顔回転方法の比較。

3D 再構築と編集のさらなる結果を次の図に示します。

<<: 私たちのプライバシーはどこにも見つからない

>>: 画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

AIのリスクと安全性をどのように管理するのか?

ビッグデータとクラウドコンピューティングの融合がロボット工学の未来

教師あり学習か教師なし学習か?この問題は明確にされなければならない

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

AI対決シリーズ：あなたのレコメンデーションアルゴリズムは破られましたか？

AI時代のセキュリティ情勢にはどのような新たな変化が起こっているのでしょうか？

AIは世界を席巻しており、すべての関係者がアプリケーションの導入に力を入れており、競争は激化している。

感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

アルゴリズムやモデルがわかりませんか? UFIDA Jingzhi Industrial Brainは、産業インテリジェンスを簡単に習得する方法を教えます

推薦する

視覚化: 画像のテーマカラーを抽出するアルゴリズムは高度すぎませんか?

【専門家がここにいるエピソード3】大量ログ分析とインテリジェントな運用・保守

人工知能は教育のバランスのとれた発展に貢献する

AIチップのスタートアップ企業が岐路に立つ

機械学習に必須: TensorFlow を使用するための 11 のヒント

人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか？

GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導：AIアライメントAIは実証的な結果を達成

宮崎駿のアニメで新垣結衣を見たことがありますか？このオープンソースのアニメジェネレーターは、写真を数秒で手描きの日本のアニメに変換します

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

トピックモデルに適した定量評価指標を見つけるにはどうすればよいでしょうか?これは人気のある方法の要約です

アルゴリズム実践者が知っておくべき TensorFlow のヒント 10 選

ロボットは期待低下の谷間にあるのか？何が問題ですか？

ディープラーニングの3つの主なステップ！

2018 年に人工知能を変える 5 つのビッグデータトレンド