画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

[[436122]]

EditGAN は、複雑かつ高精度な画像編集効果を実現しながらも、高い画像品質とオブジェクトのアイデンティティを維持できます。NVIDIA はまさに画像処理の分野で「並外れた」存在です。

今日、AI を活用した写真および画像編集テクノロジーは、写真家やコンテンツ クリエイターのワークフローを効率化し、創造性とデジタル芸術性を新たなレベルに引き上げるのに役立っています。 AI ベースの画像編集ツールは、ニューラル写真編集フィルターの形ですでに消費者向けソフトウェアで利用可能であり、ディープラーニング研究コミュニティは新しい技術を積極的に開発しています。その中で、生成的敵対的ネットワーク(GAN)に基づくさまざまなモデルや技術が次々と登場しています。実装原理の観点から見ると、この分野の研究者は、GANの潜在空間に画像を埋め込むか、GANを直接使用して画像を生成します。

GAN ベースの画像編集方法のほとんどは、次のカテゴリに分類されます。一部の研究では、クラスラベルやピクセルレベルのセマンティックセグメンテーション注釈を処理するために GAN に依存しており、条件が異なると出力結果が異なります。また、補助属性分類器を使用して画像の合成と編集をガイドする研究もあります。ただし、このような条件付き GAN や外部分類器をトレーニングするには、大規模な注釈付きデータセットが必要です。したがって、これらの方法は現在のところ、ポートレートなどの大規模な注釈付きデータセットを持つ画像タイプにのみ適用できます。十分に注釈が付けられたデータセットであっても、これらの注釈には通常、高レベルのグローバル プロパティまたは粗いピクセル レベルのセグメンテーションのみが含まれるため、ほとんどの方法では編集制御が制限されます。

他の方法は、異なる画像からの特徴のブレンドと補間に重点を置いているため、編集対象として参照画像が必要になり、通常は微調整の制御ができません。 GAN の潜在空間を注意深く分析して、編集に適した分離された潜在変数を見つけたり、GAN のネットワーク パラメータを制御したりする手法もいくつかあります。残念ながら、これらの方法ではきめ細かい編集ができず、一般的に速度が遅くなります。

最近、NVIDIA、トロント大学などの機関は、論文「EditGAN: 高精度セマンティック画像編集」でこれらの制限を克服し、ユーザーがオブジェクトの部分のセグメンテーションを変更できるようにすることで高精度のセマンティック画像編集を実現する、新しい GAN ベースの画像編集フレームワーク EditGAN を提案しました。

関連研究は NeurIPS 2021 カンファレンスで採択されており、コードとインタラクティブ編集ツールは後日オープンソース化される予定です。

論文アドレス: https://arxiv.org/pdf/2111.03186.pdf

プロジェクトのホームページ: https://nv-tlabs.github.io/editGAN/

具体的には、EditGAN は最近提案された GAN モデルを基盤としており、同じ潜在コードに基づいて画像とそのセマンティック セグメンテーションを共同でモデル化するだけでなく、注釈付きの例が 16 個しか必要ないため、多くのオブジェクト クラスやパーツ ラベルに拡張可能です。研究者らは、予想される編集結果に応じてセグメンテーションマスクを修正し、潜在コードを新しいセグメンテーションと一致するように最適化することで、RGB 画像を効率的に変更できるようになりました。

さらに、効率性を高めるために、潜在空間で編集ベクトルを学習し、追加の最適化手順をまったく行わず、または数回行うだけで、編集を他の画像に直接適用します。そのため、研究者は、ユーザーがインタラクティブ ツールで直接使用できるように、興味のあるエディターのライブラリを事前にトレーニングしました。

研究者らによると、EditGAN は、以下の目標を同時に達成する初の GAN 駆動型画像編集フレームワークです。

非常に高精度な編集を提供します。

少量のラベル付きトレーニング データのみが必要であり、追加の分類器は必要ありません。

リアルタイムのインタラクティブ操作。

複数の編集の直接的な意味構成。

実際の埋め込み、GAN 生成、さらにはドメイン外の画像でも動作します。

研究者らは、車、猫、鳥、顔など幅広い画像にEditGANを適用し、最終的に前例のない高精度の編集を実証しました。また、EditGAN を複数のベースライン メソッドと定量的に比較し、注釈付きトレーニング データが数桁少なくなるにもかかわらず、アイデンティティと品質の保持、ターゲット属性の精度などの指標でそれらを上回りました。

プロジェクトのホームページでは、研究者らが EditGAN 関連のデモ動画をいくつか公開しています。次のアニメーション画像 (左) は編集ベクトル補間の効果を示しており、画像 (右) は領域外画像上の編集ベクトルに EditGAN を適用した効果を示しています。

下の図 (左) は、インタラクティブ デモ ツールで EditGAN を使用した効果を示しており、図 (右) は、EditGAN を使用すると複数の編集と定義済みの編集ベクトルを実現できることを示しています。

EditGAN を使用して高精度なセマンティック画像編集を実現するにはどうすればよいでしょうか?

下の図2(1)はEditGANのトレーニングプロセスを示しています。図2(2と3)はそれぞれセグメンテーションマスクの編集と編集ベクトルを使用したリアルタイム編集を示しています。ここで、ユーザーはセグメンテーションマスクを変更し、GANの潜在空間で最適化して編集を実現できます。図2(4)は潜在空間での編集ベクトルの学習を示しています。ここで、ユーザーは以前に学習した編集ベクトルを適用して編集し、画像をインタラクティブに操作できます。

セグメンテーション編集による潜在空間の意味の発見

EditGANの中心的なアイデアは、画像の結合分布p(x, y)とセマンティックセグメンテーションを活用して高精度の画像編集を実現することです。編集する新しい画像 x が与えられたら、それを EditGAN の W^+ 潜在空間に埋め込むことができます。次に、セグメンテーションと RGB 画像が同じ潜在コード w^+ を共有するため、セグメンテーション部分は対応するセグメンテーション y を生成します。シンプルなインタラクティブなデジタル ペイント ツールまたは注釈ツールを使用して、意図した編集に基づいてセグメンテーションを手動で変更します。研究者は編集されたセグメンテーションマスクを y_edited と表記します。

たとえば、右側の車の写真のホイールを変更する場合、Q_edit はタイヤ、スポーク、ハブなど、ホイールに関連するすべてのパーツのラベルを含めます。

推論中のさまざまな編集方法

一般的に、EditGAN は 3 つの異なるモードで画像編集に使用できます。

リアルタイム編集には編集ベクターを使用します。ローカルで十分に分離された編集の場合、以前に学習した編集ベクトルを異なるスケールで適用し、インタラクティブな速度で画像を操作するだけで編集を実行できます。

自己監視による改良を備えたベクター編集。画像の残りの部分から完全に分離されていないローカル編集の場合、学習したベクトルを使用して編集を初期化しながらテスト中に追加の最適化を行うことで、編集アーティファクトを除去できます。

最適化ベースの編集。画像固有の編集や大規模な編集は、編集ベクトルを介して他の画像に転送することはできません。このような操作の場合、最適化を最初から開始できます。

実験結果

実験部分では、研究者らは 4 つの異なるカテゴリの画像に対して EditGAN の広範な評価を実施しました。

車(空間解像度384×512)

鳥 (512×512)

猫 (256×256)

顔(1024×1024)

顔の例の注釈の詳細は、以下の図 7 に示されています。

編集が最適化のみに基づいて行われる場合、または編集ベクトルを学習することによって行われる場合、研究者は通常、Adam を使用して 100 ステップの最適化を実行します。車、猫、顔については、DatasetGAN テスト セットの実際の画像を使用し、非 GAN トレーニング データからの画像を使用して編集機能を検証しました。鳥については、GAN で生成された画像の編集機能を実証しました。

定性的な結果

まず、ドメイン内の結果を見てみましょう。下の図 4 では、研究者は、以前に学習した編集ベクトルを新しい画像に適用し、30 ステップの最適化改良を実行したときの EditGAN フレームワークの画像編集効果を示しています。結果は、EditGAN を使用した編集操作により、すべてのカテゴリの画像で高画質が維持され、良好な分離が達成されることを示しています。

研究者らは、高画質と物体の同一性を維持しながら、EditGANほど複雑で高精度な編集を実現する方法はこれまでなかったと述べた。

下の図 8 に示すように、EditGAN を使用すると、研究者は車のスポークを回転させたり (左)、人の瞳孔を拡大したりする (右) など、非常に高精度の編集を実現できます。 EditGAN は、大規模な変更を実現しながら、非常に少ないピクセルでオブジェクトの意味部分を編集できます。

下の図 9 では、研究者は、セグメンテーション マスクを変更して最適化するだけで、自動車の屋根を取り外したり、ステーション ワゴンに変換したりできることを示しています。いくつかの編集操作によって生成された画像は、GAN トレーニング データに表示された画像とは異なることに注意してください。

2つ目は域外適用の結果です。研究者らは、MetFaces データセット上のドメイン外データに対する EditGAN の一般化能力を実証しました。彼らは、FFHQ でトレーニングされた EditGAN モデルを使用し、ドメイン内の実際の顔データを使用して編集ベクトルを作成しました。次に、ドメイン外の MetFaces ポートレートが埋め込まれ (100 ステップの最適化を使用)、編集されたベクトルが 30 ステップの最適化を使用して適用されました。結果は下の図 6 に示されています。この研究による編集は、非常に異なるドメイン外の画像例にシームレスに転送されます。

定量的な結果

EditGAN の画像編集機能の定量的な評価結果を示すために、研究者らは MaskGAN によって導入されたスマイル編集ベンチマークを使用しました。無表情の顔は笑顔に変換され、次の 3 つの指標を使用してパフォーマンスが測定されます。

意味の正確さ

配信レベルの画像品質

個人情報の保護

研究者らは、EditGAN を 3 つの強力なベースライン手法、つまり MaskGAN2、LocalEditing、InterFaceGAN と比較し、最後に StyleGAN2 蒸留と比較しました。結果は下の表 2 に示されています。EditGAN は 3 つの指標すべてにおいて他の方法よりも優れています。さらに、EditGAN は、アイデンティティ保存と属性分類の精度の点でも InterFaceGAN を上回っています。 StyleGAN2蒸留との比較では、EditGANも強力なパフォーマンスを示しています。

下の図 11 では、研究者らは、0 から 2 までの異なるスケーリング係数を持つスマイリー フェイス編集ベクトルが適用された InterFaceGAN との比較の詳細を示しています。編集ベクトルのスケールが小さい場合、同一性スコアは高くなりますが、笑顔属性スコアは低くなります。これは、元の画像への変更を最小限に抑えることによって発生します。彼らは、編集ベクトルを使用したリアルタイム編集によって InterFaceGAN と同等の結果を達成できることを発見しました。

最後に、実行時間についてお話ししましょう。研究者らは、NVIDIA Tesla V100 GPU 上で EditGAN の実行時間を注意深く記録しました。編集されたセグメンテーションマスクが与えられた場合、条件付き最適化では30(60)の最適化ステップを完了するのに11.4(18.9)秒かかります。この操作により、編集ベクトルが提供されます。さらに、編集ベクトルの適用はほぼ瞬時に行われ、わずか 0.4 秒しかかからないため、複雑でリアルタイムのインタラクティブな編集が可能になります。 10(30)ステップの自己教師付き改良を完了するには、さらに4.2(9.5)秒かかります。

<<:  予測分析の 4 つの業界における用途

>>:  漫画は爆発的な効果でAIに変身し、サーバーが何度も圧倒された

ブログ    
ブログ    

推薦する

...

...

...

...

たった1ミリ低くなれば時間が遅くなります!科学者が初めてミリメートルスケールで一般相対性理論を検証

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

偽の動画や画像の拡散に対する懸念は世界中で高まっており、Adobe もその懸念を共有していると述べて...

人工知能とビッグデータ: ビジネス価値に関するデータの洞察を発見

デジタル時代において、ビッグデータと人工知能はビジネス界の重要な原動力となっています。大量のデータが...

マルチモーダルディープラーニング:ディープラーニングを用いてさまざまな情報を統合する

ディープラーニングを使用して、さまざまなソースからの情報を統合します。マルチモーダルデータ私たちの世...

AIツールはリモートワーク中のチームの生産性向上に役立ちます

[[385429]]人工知能は、自宅からリモートで仕事をしながら生産性を維持したい労働者にとって重要...

...

機械学習では自然言語理解を解決できない

経験とデータに基づく革命統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代...

人工知能の急速な発展により、どのようなビジネス分野に浸透しているのでしょうか?テレマーケティングの将来はどうなるのでしょうか?

最近、人工知能の開発はますます激しくなってきています。ますます多くの新製品が私たちの生活に入ってきて...

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...

自動運転車の実現はAIと人間のゲームである

「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...