顔を自由に編集! Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

顔を自由に編集! Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

画像合成における重要な問題は、画像内のエンタングルメント問題です。

たとえば、人物の顔にあるすべてのひげを自動的に削除したり、ひげを完璧に貼り付けたりすると、ひげと顔の間に何らかの絡み合いがあるため、結果として得られる画像は多かれ少なかれ矛盾したものになります。

さらに、異なるオブジェクトを合成したり削除したりする難しさも異なります。

人生からいくつかの例を挙げれば、簡単に理解できます。牛肉麺からコリアンダーを取り除くのは、牛肉を取り除くよりもはるかに困難です。コーヒーから砂糖をすべて取り除くのは、ほぼ不可能な作業です。

いくつかのものは自然にまとめられており、新しい画像を完璧に作成して合成するには、機械学習モデルがさまざまなオブジェクトを作成し、できれば異なる機能や概念を分離することを学習できる必要があります。

モデルが年齢、性別、髪の色、肌の色、感情などを分離できれば、フレームワーク内でこれらのコンポーネントを自由に変更し、生成された画像をより柔軟に制御し、顔などの画像をより詳細なレベルで作成および編集し、画像の絡み合いを完全に回避できます。

すべてのエンティティの最大のエンタングルメントの場合、モデルがレディー・ガガの写真を識別するなど、画像は実際に分類タスクを実行しています。

中程度のエンタングルメントの場合、モデルは写真をさらに分解して、彼女がブロンドの髪をしていて、笑顔の表情をしているなどを発見できます。その後、GAN モデルはこの情報に基づいて写真を修正し、新しい画像を生成できます。

完全に分離した状態では、モデルは年齢、笑顔の度合いなどの特徴をさらに識別できます。

過去数年間、スライダーやその他の従来のユーザー インターフェイス操作を使用して、対象の顔のコア機能を変更せずに顔の特徴を追加または変更できるインタラクティブな顔編集モデルを作成する試みが数多く行われてきました。

しかし、GAN 潜在空間における潜在的な特徴とスタイルの絡み合いにより、顔の特徴を任意に編集できるほど技術が成熟していません。

たとえば、眼鏡の特徴は高齢者の特徴と絡み合っていることが多く、高レベルの特徴がどれだけうまく分離されているかに応じて、眼鏡を追加すると顔も「老化」する可能性があり、顔を老化させたい場合、顔に眼鏡を追加する可能性もあります。

一番難しいのは、髪の色や髪型を変えることです。髪や顔のレイアウトを再計算せずにキャラクターの「髪を切る」ことはほぼ不可能です。

一度のトレーニングで、あなたの顔を思い通りに変える

最近、Adobe は WACV2022 カンファレンスで、これらの根本的な問題を解決するための新しいアプローチを示す新しい論文を発表しました。 StyleGAN で生成された画像で、アイデンティティを維持しながら多面的な顔属性を編集するための学習マッパー。

論文の宛先:

https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf 翻訳:

この論文の主著者は、Adobe の応用科学者 Siavash Khodadadeh 氏で、他の Adob​​e 研究者 4 名とセントラルフロリダ大学コンピューターサイエンス学部の研究者 1 名が執筆しています。

この論文が興味深いのは、Adobe が以前から画像合成に取り組んでおり、それが Adob​​e 製品によく適合し、この機能が今後数年で Adob​​e Creative Suite プロジェクトにパッケージ化される可能性が高いからです。しかし、主な理由は、このプロジェクトに提案されているアーキテクチャが、GAN 顔エディターの視覚的な整合性を維持しながら変更を適用するための異なるアプローチを採用している点です。

著者らは、属性が変化した画像に対応する潜在コードを見つけ、潜在意識から潜在意識への翻訳を実行するようにニューラルネットワークを訓練したと主張している。この技術はワンショットであるため、特性が徐々に変化する線形または非線形の軌跡に依存しません。

生成パイプライン全体にわたってネットワークをエンドツーエンドでトレーニングすることにより、システムは既存のジェネレーター アーキテクチャの潜在空間を適応させ、トレーニング損失でエンコードできる人物 ID などのプロパティを保持できるようになります。

潜在的ネットワークがトレーニングされると、微調整なしで任意の画像入力に使用できるようになります。

この機能は、記事で提案されたアーキテクチャがモデルを一度にユーザー端末に展開できることも意味しますが、ニューラル ネットワークを実行するには依然としてローカル リソースが必要ですが、新しい画像をモデルに直接投入して自由に変更できます。フレームワークは分離されているため、画像固有のトレーニングをさらに行う必要はありません。

この研究の主な成果の 1 つは、ネットワークがターゲット ベクトルの属性のみを変更するだけで、潜在空間内の ID 機能を「固定」できることです。

本質的に、ネットワークは、変換に望ましくない横方向の影響をもたらさない固定重みを持つ事前トレーニング済みコンポーネントを通じてすべての処理要素を調整する、より一般的なアーキテクチャに組み込まれています。

トレーニング プロセスは、シード イメージ (GAN 反転) または既存の初期潜在コードから生成できるトリプレットに依存するため、トレーニング プロセス全体が教師なしとなり、このようなシステムで慣例となっている一連のラベルとキュレーション システムを効果的に処理できます。このシステムでは、既製の属性回帰器を使用します。

著者らは論文の中で、ネットワークが独立して制御できる属性の数は、認識装置の機能によってのみ制限されると述べています。属性の認識装置があれば、どの顔にもその属性を追加できます。研究者らは実験で、これまでのどのアプローチよりも多くの 35 種類の顔の属性に適応できる潜在的ネットワークを直接トレーニングしました。

システムには、変換による望ましくない「副作用」を防ぐための追加の安全策も組み込まれています。必要な属性の変更がない場合、潜在対潜在ネットワークは潜在ベクトルをそれ自体に投影し、ターゲット ID の安定性と持続性をさらに高めます。

過去数年間、GAN およびエンコーダー/デコーダー ベースの顔エディターで繰り返し発生しているもう 1 つの問題は、使用される変換方法によって顔の類似性が低下する傾向があることです。

この問題を解決するために、Adobe プロジェクトでは、FaceNet と呼ばれる組み込みの顔認識ネットワークを識別器として使用し、標準的な顔認識システムや表情認識システムさえも生成ネットワークに統合することができます。

このフレームワークのもう 1 つの重要な機能は、潜在空間で任意の変換を実行できることです。 GAN の空間認識を向上させることで、潜在的な遷移ポイントの範囲内で画像の変更を実行できますが、EQGAN などのモデルは、異なるマテリアルやテクスチャの変更に直面したときに再トレーニングする必要があります。

まったく新しいユーザー画像を受け入れるだけでなく、ユーザーは変換プロセス中に保持したい要素を手動で「フリーズ」することもできます。このようにして、ユーザーは背景などの無関係な要素が変更されないようにすることができます。

属性回帰ネットワークは、FFHQ、CelebAMask-HQ、StyleGAN-V2のZ空間から40万個のベクトルをサンプリングして生成されたローカルGANネットワークの3つのネットワークで構成されています。

分布外 (OOD) 画像は除外され、Microsoft の Face API を使用して属性が抽出され、結果の画像セットは 90/10 に分割され、比較用に 720,000 枚のトレーニング画像と 72,000 枚のテスト画像が残りました。

実験ネットワークの初期構成は 35 個の潜在的な変換に対応できますが、同様のフレームワーク InterFaceGAN、GANSpace、StyleFlow で同様のテストを行うために、変換の数は、年齢、はげ、あごひげ、表情、性別、眼鏡、ピッチ、ヨーの 8 個に簡略化されました。

実験結果は予想と一致し、画像合成により、他の競合モデル アーキテクチャよりも高いレベルのエンタングルメントが得られました。たとえば、あるテストでは、ユーザーがキャラクターの年齢を変更するように要求すると、InterFaceGAN と StyleFlow は対象の性別さえ変更しました。

最終的な定量的な実験結果から、Yaw (ヘッドアングル) 実験を除いて、Latent-to-Latent 効果は理想的ではなく、他の 7 つの属性のパフォーマンスは基本的に sota シーケンスになっていることがわかります。 GANSpace は、年齢やメガネの変化に応じてパフォーマンスが向上します。

<<:  緩い時代は終わった:米国の自動運転規制環境は静かに厳格化している

>>:  炭素クレジット監査における人工知能の応用

ブログ    

推薦する

IoTとAIのトレンドが今日のビジネスに及ぼす影響

IoT と AI の誇大宣伝サイクルは、企業が大きな価値を認識し始める段階まで進んでいます。 IoT...

...

ディープラーニングは廃れつつあるのでしょうか?ベンジオ氏と他の専門家がNeurlPS2019でアドバイスを行う

状況はますます明らかになりつつあります。 AIが直面している課題は、計算能力を高めたり、より多くのデ...

ディープフェイクは今回、顔を変えるだけでなく、街そのものを変えてしまった。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能チュートリアル (V): Anaconda とさらなる確率理論

このシリーズの前回の記事では、まず TensorFlow の使い方を紹介しました。これは、人工知能お...

...

マイクロソフト、進化拡散法を用いたタンパク質生成のための新しい AI フレームワーク EvoDiff をオープンソース化

進化により、細胞プロセスを正確に制御する多様な機能性タンパク質が生み出されました。近年、この多様性か...

2019年の自動運転のキーワード:冬眠と迂回による救国

何年もの間大騒ぎされていた自動運転の人気も、ようやく落ち着いてきた。世界の資本市場が寒い冬の時期に入...

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

完全自動サポートにより、ドローンは真の「無人」になります。

ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...

自然言語処理の概要

自然言語処理 (NLP) は、人間の言語または人間のような書き言葉、話し言葉、組織化された言語の形式...

ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatG...

全人代副代表の馬化騰氏は8つの書面提案を提出し、ブロックチェーンや人工知能など17の質問に答えた。

[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新...