AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。はじめに: デジタル時代では、スマートフォン アプリケーションだけでなく、写真業界、電子商取引のプロモーション、映画制作などからも、柔軟で高品質なポートレート操作の需要が急増しています。ポートレートリグはコンピュータビジョンやコンピュータグラフィックスのコミュニティでも広く研究されてきました[34], 5, 8, 18, 1, 33]。これまでの方法は、メイクアップの追加[23, 6]、スタイルの転送[9, 14, 24, 12]、年齢の進行[42]、表情の操作[1, 39]などに特化していました。ただし、これらの方法は特定のタスクに合わせて調整されており、継続的かつ一般的なマルチモーダルポートレート操作を実行するために転送することはできません。

最近、生成的敵対的ネットワークは合成と画像翻訳において顕著な結果を示しており[15、38、4、35、44、13]、その中で[44、40]は非対画像翻訳に対するサイクル一貫性を提案した。本稿では、複雑な表情の変化を捉えることができる追加の顔のランドマーク情報を活用して、この考え方を条件設定に拡張します。この単純で簡単な変更から生じる利点は次のとおりです。まず、巡回マッピングにより、モード崩壊とも呼ばれる多対1マッピング[44,45]を効果的に防止できます。顔/姿勢操作の場合、サイクルの一貫性はアイデンティティの保存と双方向の操作も誘導しますが、以前の方法[1]では中立的な顔の開始を前提としていたか、単方向[26, 29]であったため、同じドメインで操作されていました。第二に、異なるテクスチャやスタイルの顔画像は異なるモダリティとみなされ、現在のランドマーク検出器はそれらの様式化された画像には適用できません。私たちの設計では、複数のドメインからのサンプルをペアにして、各ドメインのペア間で変換できるため、様式化された肖像画のランドマーク抽出を間接的に実行できます。対応するデータが収集されると、当社のフレームワークはメイクアップ/除去、エイジング操作などにも拡張できます。多くの顔操作タスクではグラウンドトゥルースデータが不足していることを考慮して、[14]の結果を活用して疑似ターゲットを生成し、表情とモダリティの同時操作を学習しますが、これは任意のターゲットドメインに置き換えることができます。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。貢献: ただし、高品質のポートレート操作を実現するには、まだ 2 つの大きな課題が残っています。我々は[7]のように単一のジェネレータttを学習することを提案する。しかし、StarGAN[7]は離散的な操作を処理するため、除去できないアーティファクトのある高解像度画像では失敗します。写真のようにリアルな品質の画像(512x512)を合成するために、[37, 41]にヒントを得たマルチレベル平面監視を提案する。この監視では、異なる解像度の合成画像を伝播して組み合わせ、マルチレベル識別器に入力する。第二に、異なるドメイン間の変換中にテクスチャの不一致やアーティファクトを回避するために、多様性があり、バックプロパゲーションを使用してエンドツーエンドでトレーニングできるため、グラム行列[9]をテクスチャ距離の測定基準としてモデルに統合します。図 1 は私たちのモデルの結果を示しています。

広範囲にわたる評価により、私たちのアプローチは、高品質のポートレート操作を実行する上で最先端の生成モデルと同等かそれ以上の性能を発揮することが定量的にも定性的にも実証されています (セクション 4.2 を参照)。私たちのモデルは双方向なので、中立面や固定領域から開始する必要がありません。この機能により、安定したトレーニング、ID 保護も保証され、他の必要なドメイン操作にも簡単に拡張できます。次のセクションでは、関連する作業をレビューし、その違いを指摘します。 PortraitGANの詳細についてはセクション3を参照してください。第 4 章では私たちのアプローチを評価し、第 5 章で本論文を締めくくります。

AI は、生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。画像変換: 私たちの研究は、画像変換と生成的敵対ネットワークに分けられます。これらは、生成器 tt と識別器のペアを敵対的にトレーニングすることで、ターゲット ドメインと区別できない分布を誘導するマッピング tt を学習することを目的としています。たとえば、Isola et al. [13]は、ペアサンプルで訓練された一般的な画像間翻訳のための画像を調整する。その後、Zhuら[44]は、マッチングしたトレーニングペアの必要性を回避するためにサイクル一貫性損失を導入して[13]を拡張しました。さらに、生成的敵対ネットワークのトレーニング中に発生する多対 1 のマッピング (モード崩壊とも呼ばれます) を軽減します。これに着想を得て、私たちはこの損失をモデルに統合し、異なるドメイン間のアイデンティティを維持します。

私たちの設計に影響を与えたもう一つの先駆的な研究はStar-GAN [7]であり、対象となる顔の属性はワンホットベクトルとしてエンコードされます。 StarGAN では、各属性は異なるドメインとして扱われ、これらの属性を区別するための補助分類は、トレーニング プロセスを監視するために重要です。 StarGANとは異なり、離散ラベルを使用して列挙できないピクセル空間で連続編集を実行することを目指しています。これは暗黙的に滑らかで連続した潜在空間を示唆しており、この空間内の各ポイントはデータ内の意味のある変化軸をエンコードします。この記事では、さまざまな文体形式をドメインとして扱い、2 つの単語を同じ意味で使用します。この意味で、美化/非美化、老化/若返り、ひげ/ひげなしなどのアプリケーションも、私たちの一般的なフレームワークに組み込むことができます。第4章ではCycle-GAN [44]およびStarGAN [7]と私たちの手法を比較し、第3章では私たちの設計について詳しく説明します。

ポーズ画像生成:人物画像生成における人物再識別タスクにおいて、ポーズを条件として利用する研究があることは知られている[36、20、31、29]。例えば、[26]はワンホットポーズ特徴マップをチャネルごとに連結して[30]と同様にポーズ生成を制御し、鳥の位置とポーズを処理するために鳥のキーポイントとセグメンテーションマスクを使用しています。より妥当な人間のポーズを合成するために、シアロヒンら[31]は変形可能なスキップ接続を開発し、関節変形を近似するためのアフィン変換のセットを計算した。これらの作品は、顔の特徴と人間の骨格の両方がポーズ表現の一形態として考えられるため、私たちの作品といくつかの類似点があります。ただし、これらの作業はすべて元のドメインでの操作を伴うため、アイデンティティは保持されません。さらに、これらの作業で生成された結果は解像度が低いのに対し、私たちのモデルは写真のようにリアルな品質で 512 x 512 の解像度を生成することに成功しました。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。全体的なフレームワークは次のとおりです。問題の定式化 異なるモダリティのドメイン 1、2、3、... n が与えられた場合、連続的な形状編集を通じてドメイン A から B に A を変換する単一のユニバーサル マッピング関数 tt: Xi→Xj、∀i、j∈{1,2,3、...n} (1) を学習することが目標です (図 1)。式 1 は、望ましい条件が与えられれば tt が双方向であることも意味します。領域jにおける顔の表情を表すために、顔のランドマークj R1×H×Wを使用します。顔の表情は、N = 68 の 2D キーポイントのベクトルとして表されます。ここで、各ポイント ui = (xi, yi) は、j 内の i 番目のピクセル位置です。ターゲットドメインを表すために、属性ベクトル c = [c1, c2, c3, ... cn] を使用します。正式には、入力/出力は (IA, LB, cB)/(IB, LA, cA)∈R(3+1+n)×H×W という形式のタプルです。モデルアーキテクチャ 図2に示すように、私たちのアプローチの全体的なパイプラインはシンプルで、3つの主要なコンポーネントで構成されています。(1)条件付き顔ランドマークが与えられた場合、ドメインc1の入力顔を別のドメインc2の同じ人物に提示するジェネレータtt(,c)。 tt は双方向であり、順方向ループと逆方向ループの両方で再利用されます。 (2)生成されたサンプルと実際のサンプルを区別するために使用される、異なる解像度を持つ識別器Diのセット。 Iを「本物」か「偽物」かを表す単一のスカラーにマッピングする代わりに、各要素Mi,jが重なり合うパッチijが本物である確率を表す完全なconvnet出力行列を使用するPatchGAN [44]を採用します。 元の画像を遡ってみると、各出力には 70×70 の受容野があります。 (3)異なる領域間の損失関数の一貫性は、同一性とテクスチャを保持すると考えられる。 次のサブセクションでは、各モジュールを個別に詳細に説明し、それらを組み合わせて PortraitGAN を構築します。

人工知能は、生成的敵対的ネットワークデータセットのトレーニングと検証を使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。Radboud Facesデータベース[19]には、67人の参加者の4,824枚の画像が含まれており、各画像は怒り、嫌悪、恐怖、幸福、悲しみ、驚き、軽蔑、中立の8つの標準的な感情表現を示しています。 iCVマルチ感情表情データセット[25]は、ミクロ感情認識(5184x3456解像度)用に設計されており、50種類の感情を示す31,250の表情が含まれています。 テスト: テスト用に、人がスピーチや演説をしている高解像度のビデオ 20 本を YouTube から収集します (HRY データセットと略記)。 上記のデータセットでは、顔のランドマーク抽出にdlib [17]を使用し、複数のモダリティでポートレートを生成するためにニューラルスタイル転送アルゴリズム[14]を使用します。 テスト中、グラウンドトゥルースは評価目的でのみ使用されることに注意してください。

生成的敵対的ネットワークを使用した、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性の人工知能生成 結論: 高解像度での形状とマルチモーダル肖像画の同時操作は簡単ではありません。本稿では、追加の顔のランドマークと属性ベクトルを条件として組み込むことで、サイクル一貫性の限界を押し広げる PortraitGAN を提案します。双方向マッピングでは、[7]に似たジェネレータのみを使用しますが、トレーニングスキームが異なります。これにより、マルチモーダル操作を同時に連続的に実行できるようになります。私たちは、表現補間とさまざまなスタイリング モードを使用してアプローチを検証します。より良い画像品質を実現するために、マルチレベルの敵対的監視を採用し、トレーニング プロセス中に強力なガイダンスを提供します。トレーニング プロセスでは、生成された異なるスケールの画像が結合され、異なるスケールの識別器に伝播されます。また、テクスチャ損失を利用して、モダリティ間のテクスチャの一貫性を強化します。しかし、多くの顔操作タスクではデータが不足しているため、スタイル転送を超えたモダリティ操作は提示されていません。それでも、私たちが提案するフレームワークはインタラクティブな操作に向けて一歩前進しており、対応するデータが利用可能になれば、より多くのモダリティの操作に拡張することができますが、これは今後の課題として残しておきます。

<<:  オープンソースのAIがディープラーニングを使用して、顔の表情の特徴に基づいて画像のキャプションを生成

>>:  今後5~10年で、人工知能+ブロックチェーンは第三者による支払いを終わらせるだろう

ブログ    

推薦する

Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...

...

ジャック・マー:テクノロジーは私たちの生活をより健康にしなければ意味がない

9月17日から19日まで、上海で「人工知能が新時代を力づける」をテーマにした2018年世界人工知能大...

Huice: 大手 e コマース企業が使用しているスマート小売管理ソフトウェアの優れた点は何でしょうか?

6月30日、北京地下鉄の改札口でデジタル人民元が支払いに使えるようになる。「孔坊兄弟」は再び変身し...

生成AI人材の獲得競争が始まった。求人数は4倍に増え、最高年収は90万ドル

ウォール・ストリート・ジャーナルによると、求人ウェブサイトIndeedの統計によると、生成AI関連の...

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

OpenAIは7月10日、開発者のモデル処理効率向上を支援するため、GPT-3.5 Turbo、DA...

人工知能の進歩:ロボットの台頭

人工知能の革新により、よりスマートなロボットが開発されました。ロボットはコンピューターによってプログ...

思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した

大規模言語モデル (LLM) の機能を最大限に活用するには、効果的なプロンプト設計ソリューションが不...

「素晴らしい成果物!」ハードウェア AI パフォーマンス テスト用の Python ライブラリがリリースされました

現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...

人工知能は人間と同じくらい創造的になれるのでしょうか?

創造性は、芸術、文学、科学、技術など、斬新で価値があり、意義のある作品を生み出すことを可能にする人間...

人工知能技術を開発すべきでしょうか?

まず、技術発展の観点から見ると、人工知能技術の発展は避けられません。現在、クラウドコンピューティング...

【他者から学ぶ】360 多面的関心の想起マインド実践的最適化

1. 事業背景ショートビデオや情報ストリームなどのシナリオの増加に伴い、ユーザーはこれらのシナリオで...

ワークステーションはクライアント側の大規模モデルの「幸せな家」です

MacでSiriを呼び出したことがありますか?とにかく一度も合格していない。 AIの世界では「ベテラ...