人工知能は正面の顔に基づいて複数の横顔を生成し、生成的敵対ネットワークを使用して多角度の側面顔を生成します。

人工知能は正面の顔に基づいて複数の横顔を生成し、生成的敵対ネットワークを使用して多角度の側面顔を生成します。

人工知能は正面の顔に基づいて複数の側面の顔を生成し、生成的敵対的ネットワークを使用して多角度の側面の顔を生成します。概要: 単一ビューの入力からマルチビュー画像を生成することは、基本的でありながら困難な問題です。ビジョン、グラフィックス、ロボット工学など幅広い用途があります。私たちの研究は、広く使用されている敵対的生成ネットワーク (GAN) が、エンコーダー/デコーダー ネットワークの後に識別器ネットワークが続く単一パス フレームワークのために、「不完全な」表現を学習する可能性があることを示しています。この問題を解決するために CR-GAN を提案します。単一の再構築パスに加えて、学習した埋め込み空間の整合性を維持するために世代を導入します。これら 2 つの学習経路は、パラメータを共有しながら連携および競合し、「未知の」データセットに対する一般化能力を大幅に向上させます。さらに重要なことは、デュアルパスウェイフレームワークはラベル付きデータとラベルなしデータを組み合わせて自己教師学習を行うことができ、実用的な世代の埋め込み空間をさらに充実させることができることです。実験結果では、CR-GAN が、特に「目に見えない」入力から生成された場合に、最先端の方法を大幅に上回る性能を発揮することが実証されています。

人工知能は正面の顔に基づいて複数の側面を生成し、生成的敵対ネットワークを使用して多角度の側面を生成します。 はじめに: 単一ビューの入力からマルチビュー画像を生成することは、視覚、グラフィックス、ロボット工学の幅広いアプリケーションを持つ興味深い問題です。しかし、これは難しい問題です。なぜなら、1) コンピューターは、3D 回転を適用した後に特定のオブジェクトがどのように見えるかを「想像」する必要があるからです。2) マルチビュー生成では、同じ「アイデンティティ」を維持する必要があるからです。一般に、この問題に対するこれまでの解決策としては、モデル駆動型合成 [Blanz and Vetter, 1999]、データ駆動型生成 [Zhu et al. 、2014年; Yan et al. 、2016]、およびこれら2つを組み合わせたもの[Zhu et al. 、2016年; Rezende et al.、2016年]。最近、生成的敵対的ネットワーク (GAN) [Goodfellow et al. 、2014]は、マルチビュー生成において印象的な結果を示しました[Tran et al. 、2017年; Zhao et al.、2017年]。

人工知能は正面の顔に基づいて複数の側面の顔を生成し、生成的敵対的ネットワークを使用して多角度の側面の顔を生成します。貢献: これらの GAN ベースの方法は通常、単一パス設計になっています。つまり、エンコーダー/デコーダー ネットワークの後に、識別器ネットワークが続きます。エンコーダー (E) は入力画像を潜在空間 (Z) にマッピングします。ここで最初に埋め込みが操作され、その後デコーダー (tt) に送られて新しいビューが生成されます。しかし、私たちの実験では、このような単一チャネル設計には重大な問題がある可能性があることが示されています。つまり、これらの設計では「不完全な」表現しか学習できず、「見えない」または制約のないデータへの一般化能力が制限されることになります。図1を例に挙げます。トレーニング中、トレーニング サンプルの数は有限であるため、E の出力は Z のサブスペースのみを構成します。これにより、Z の一部のみが「見える」ようになります。テスト中、E はサブスペースの外側に「見えない」入力をマッピングする可能性が高くなります。その結果、予期しない埋め込みにより、tt は悪い結果を生成する可能性があります。

この問題に対処するために、マルチビュー生成のための完全な表現を学習する CR-GAN を提案します。主なアイデアは、再構成パスに加えて、Z 内のランダムにサンプリングされた埋め込みからビュー固有の画像を作成するための別の生成パスを導入することです。図2を参照してください。これら 2 つのパスは同じ tt を共有します。言い換えれば、生成パスで学習された tt は再構築パスでの E と D の学習を導き、その逆も同様です。 E は tt の逆数になるように強制され、完全な Z 空間の完全な表現が生成されます。さらに重要なのは、デュアルパス学習ではラベル付きデータとラベルなしデータの両方を自己教師あり学習に簡単に利用できるため、自然生成の Z 空間を大幅に強化できることです。要約すると、私たちの貢献は次のとおりです。

私たちの知る限り、GAN モデルの「完全な表現」を研究したのは私たちが初めてです。私たちは、デュアルパス学習スキームを使用して「完全な」表現を学習する CR-GAN を提案しています。CR-GAN は、ラベルなしデータを自己教師あり学習に活用できるため、生成品質が向上します。また、CR-GAN は、野生の「目に見えない」データセットからでも高品質のマルチビュー画像を生成できます。

人工知能は正面の顔に基づいて複数の側面の顔を生成し、生成的敵対ネットワークを使用して多角度の側面の顔を生成します。提案された方法:不完全な表現のおもちゃの例。単一パスネットワーク、つまり、識別器ネットワークに続くエンコーダーデコーダーネットワークには、「不完全な」表現を学習するという問題がある可能性があります。図 2 の左側に示すように、通常はトレーニング データの量が限られているため、エンコーダー E とデコーダー tt は Z のサブスペースにのみ「タッチ」できます。これにより、「見えない」データを入力として使用する場合、テストで重大な問題が発生します。 E は、新しい入力をサブスペースの外側にマッピングする可能性が高く、埋め込みを「見る」ことがないため、必然的に貧者の生成につながります。これを説明するには、おもちゃの例を使用します。 Multi-PIE [Gross et al.] を使用します。 、2010]を使用して、単一経路ネットワークをトレーニングしました。図 1 の上部に示すように、入力画像が学習したサブスペースにマッピングされている限り、ネットワークは Multi-PIE (最初の行) で現実的な結果を生成できます。しかし、IJB-A [Klare et al., 2015] の「見えない」画像でテストすると、ネットワークは満足のいく結果を生成することができません (2 行目)。この場合、新しい画像は学習したサブスペースの外側にマッピングされます。

この事実は、完全な表現を学習できるように、Z 空間全体を「カバー」できる E と tt をトレーニングする動機になります。これを実現するために、ジェネレーターは Z 空間全体を高品質の画像にマッピングすることに重点を置く別の生成パスを導入します。図 2 は、シングルパス ネットワークとデュアルパス ネットワークの比較を示しています。私たちのアプローチの図解については図3(d)を参照してください。

人工知能は正面の顔に基づいて複数の側面の顔を生成し、生成的敵対的ネットワークを使用して多角度の側面の顔を生成します。実験: CR-GAN の目標は、ベッド空間内の完全な表現を学習することです。これを実現するには、双方向アーキテクチャと自己教師学習を組み合わせる必要があります。私たちは、これら 2 つの貢献を個別に評価するための実験を実施します。次に、CR-GAN と DR-GAN [Tran et al. 、2017]、埋め込み空間における視覚的な結果とt-SNEの視覚化を示しています。また、画像再構成タスクにおいて CR-GAN と BiGAN を比較します。

実験セットアップ、データセット。ビューラベル付きとビューラベルなしのデータセットで CR-GAN を評価します。マルチPIE [Gross et al. , 2010]は、制限された環境で収集されたラベル付きデータセットです。最初のセッションでは、9 つ​​のポーズ、20 の照明、2 つの表情を持つ 60 人の被写体を含む 250 人の被写体を使用しました。最初の 200 人の被験者はトレーニングに使用され、残りの 50 人はテストに使用されます。 300wLP [Zhu et al. 、2016]の顔分析法[Zhu et al. 、2016]は300Wから増加しました[Sagonas et al. 、2013] には、ビュー タグも含まれています。ヨー角 60° から +60° までの画像を撮影し、9 つの間隔に分割します。

ラベルなしデータセットの評価には、CelebA [Liu et al., 2015]とIJB-A [Klare et al., 2015]を使用します。 CelebA には、視点の分布が不均衡な有名人の画像が多数含まれています。したがって、60°から+60°の範囲の72,000枚の画像のサブセットを収集しました。 CelebA の画像のビュー ラベルはサブセットを収集するためにのみ使用され、トレーニング中にはビュー ラベルや ID ラベルは使用されないことに注意してください。評価には 5,396 枚の画像を含む IJB-A も使用します。このデータセットは、アイデンティティとポーズのバリエーションが幅広いため、困難です。

人工知能は正面顔に基づいて複数の側面顔を生成し、生成的敵対ネットワークを使用して多角度の側面顔を生成します。結論:この論文では、GANモデルの学習「完全表現」について研究しました。 この目標を達成するために、デュアルパス フレームワークを使用する CR-GAN を提案します。 私たちの方法は、ラベル付きデータとラベルなしデータの両方を自己教師学習に活用できるため、実際には「目に見えない」データからでも高品質のマルチビュー画像を作成できます。

<<:  自動運転企業Roadstar.aiはシリーズA資金調達で1億2,800万ドルを調達し、2020年までに1,500台の自動運転車を運行する予定だ。

>>:  生物学的ニューラルネットワークから人工ニューラルネットワークへ

ブログ    
ブログ    

推薦する

ああ、顔認識で同性愛を検出できるんですか?

[[236037]]顔認識は携帯電話のロックを解除したり逃亡者を捕まえたりできるだけでなく、あなた...

人工知能の先駆者であるIBM Watsonは殉教者となったのか? IBMがWatsonを売却、AIは本当に失敗したのか?

かつて、人工知能医療診断の先駆者であったIBM Watson(通称ワトソン)は、現実世界における人工...

...

...

TikTokの買収者は、コアアルゴリズムの削除を含む4つの買収オプションについて議論している

CNBCが以前報じたように、当初この取引は早ければ火曜日にも発表される予定だったが、当日になっても取...

LK-99は今もメロンを生産中:元のサンプルは韓国エネルギー技術研究所に届けられ、薄膜プロセスは最後の懸案

中国科学院物理研究所とプリンストン大学による2本の否定的な論文の発表により、LK-99に対する人々の...

ガートナー: 2024 年の主要な戦略的テクノロジー トレンド

2024 年までに、AI は企業で主流となり、クラウド サービス、セキュリティ、持続可能性も影響力を...

...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

百度の女性デーのポスターはスマートライフの姿を描いている:人工知能は女性をより自由にする

社会の進歩と国民の意識の高まりに伴い、社会全体が女性の権利にますます注目するようになっています。 3...

人間はAIに勝てるか?私たちは機械に置き換えられるのでしょうか?

2017年、中国の囲碁棋士である柯潔はAI AlphaGoとの対戦で惨敗し、コート上で涙を流し、人...

...

860万の超軽量中国語と英語のOCRモデルをオープンソース化し、ワンストップでトレーニングと展開が可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...