従来のGANを解釈可能に修正し、畳み込みカーネルの解釈可能性と生成された画像の真正性が保証される

従来のGANを解釈可能に修正し、畳み込みカーネルの解釈可能性と生成された画像の真正性が保証される

  • 論文アドレス: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
  • 著者所属機関: 中国科学院計算技術研究所、上海交通大学、志江実験室

研究の背景と研究課題

生成的敵対的ネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。

この分野では、GAN に分離した表現を学習させる方法が依然として大きな課題となっています。 GAN のいわゆる分離表現とは、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN 分離表現に関するこれまでの研究では、さまざまな視点に焦点が当てられてきました。

たとえば、下の図 1 では、方法 1 によって画像の構造とスタイルが分離されています。方法 2 は、画像内のローカル オブジェクトの特徴を学習します。方法 3 は、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、GAN におけるさまざまな視覚概念 (顔の目、鼻、口などの部分) の明確で象徴的な表現を提供できませんでした。

図1: 他のGAN分離表現手法との視覚的な比較

この目的のために、研究者らは、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案しました。これにより、ジェネレーターの中間層の畳み込みカーネルが分離されたローカル視覚概念を学習できるようになります。具体的には、以下の図 2 に示すように、従来の GAN と比較して、説明可能な GAN の中間層の各畳み込みカーネルは、異なる画像を生成するときに常に特定の視覚概念を表し、異なる畳み込みカーネルは異なる視覚概念を表します。

図2: 解釈可能なGANと従来のGANエンコーディング表現の視覚的な比較

モデリングアプローチ

説明可能な GAN の学習は、畳み込みカーネルの解釈可能性生成された画像の信憑性という 2 つの目標を満たす必要があります

  • 畳み込みカーネルの解釈可能性: 研究者は、中間層の畳み込みカーネルが、視覚概念を手動でラベル付けする必要なく、意味のある視覚概念を自動的に学習できることを期待しています。具体的には、各畳み込みカーネルは、異なる画像を生成するときに、同じ視覚概念に対応する画像領域を安定して生成する必要があります。異なる畳み込みカーネルは、異なる視覚概念に対応する画像領域を生成する必要があります。
  • 生成された画像のリアリティ: ExplainableGAN のジェネレーターは、依然としてリアルな画像を生成できます。

ターゲット レイヤーの畳み込みカーネルの解釈可能性を確保するために、研究者は、複数の畳み込みカーネルが視覚概念に対応する類似の領域を生成する場合、通常、それらのカーネルは共同でこの視覚概念を表すことに気付きました。

したがって、特定の視覚概念を共同で表現するために畳み込みカーネルのセットを使用し、異なる視覚概念を個別に表現するために異なる畳み込みカーネルのセットを使用します。

同時に生成された画像の信憑性を保証するために、研究者らは以下の損失関数を設計し、従来の GAN を解釈可能な GAN に修正しました。

  • 従来の GAN 損失: この損失は、生成された画像の信頼性を確保するために使用されます。
  • 畳み込みカーネルの分割損失: ジェネレーターが与えられた場合、この損失は、同じグループ内のカーネルが同様の画像領域を生成するように畳み込みカーネルを分割する方法を見つけるために使用されます。具体的には、ガウス混合モデル (GMM) を使用して、畳み込みカーネルを分割して、各グループの畳み込みカーネルの特徴マップが同様の神経活性化を持つようにする方法を学習しました。
  • エネルギー モデルの信頼性の損失: ターゲット レイヤーの畳み込みカーネルが分割される方法を考えると、同じグループ内の各畳み込みカーネルに同じ視覚概念を生成するように強制すると、生成される画像の品質が低下する可能性があります。生成された画像の真正性をさらに保証するために、エネルギーモデルを使用してターゲットレイヤーの特徴マップの真正性確率を出力し、最大尤度推定を採用してエネルギーモデルのパラメータを学習しました。
  • 畳み込みカーネルの解釈可能性損失: ターゲット レイヤーの畳み込みカーネル分割方法を考慮すると、この損失は畳み込みカーネルの解釈可能性をさらに向上させるために使用されます。具体的には、この損失により、同じグループ内の各畳み込みカーネルは同じ画像領域を一意に生成しますが、異なるグループ内の畳み込みカーネルは異なる画像領域を生成します。

実験結果

実験では、研究者らは解釈可能な GAN を定性的にも定量的にも評価しました。

定性分析では、各畳み込みカーネルの特徴マップを視覚化し、異なる画像間で畳み込みカーネルによって表される視覚概念の一貫性を評価しました。下の図 3 に示すように、説明可能な GAN では、各畳み込みカーネルは異なる画像を生成するときに常に同じ視覚概念に対応する画像領域を生成しますが、異なる畳み込みカーネルは異なる視覚概念に対応する画像領域を生成します。

図3: 解釈可能なGANにおける特徴マップの視覚化

実験では、図4(a)に示すように、各畳み込みカーネルのグループのグループ中心と畳み込みカーネル間の受容野の違いも比較しました。図4(b)は、説明可能なGANにおけるさまざまな視覚概念に対応する畳み込みカーネルの数の比率を示しています。図 4 (c) は、異なる数の畳み込みカーネル グループを選択した場合、解釈可能な GAN のグループ数が増えるほど、学習される視覚概念がより詳細になることを示しています。

図4: 説明可能なGANの定性評価

説明可能な GAN は、生成された画像上の特定の視覚概念の変更もサポートします。たとえば、解釈可能なレイヤー内の対応する特徴マップを交換することで、画像間の特定の視覚概念の相互作用を実現できます。つまり、ローカル/グローバルの顔の交換を完了できます。

下の図 5 は、画像のペア間で口、髪、鼻を入れ替えた結果を示しています。最後の列には、変更された画像と元の画像の違いが表示されます。この結果は、私たちの方法が他の無関係な領域を変更せずに、局所的な視覚概念のみを変更することを示しています。

図5: 生成された画像と特定の視覚概念の交換

さらに、下の図6は、顔全体を交換した場合の彼らの方法の効果も示しています

図6: 生成された画像の面全体を交換

定量分析のために、研究者らは顔認証実験を用いて顔交換結果の精度を評価した。具体的には、顔画像のペアが与えられた場合、元の画像の顔がソース画像の顔に置き換えられ、変更された画像が生成されます。次に、変更された画像の顔がソース画像の顔と同じ ID を持つかどうかをテストします。

下の表 1 は、さまざまな方法による顔認証結果の精度を示しています。この方法は、アイデンティティ保存の点で他の顔スワッピング方法よりも優れています。

表1: 顔交換の精度評価

さらに、特定の視覚概念を変更する際の私たちの方法の局所性が実験で評価されます。具体的には、研究者らは、RGB空間における元の画像と修正された画像の間の平均二乗誤差(MSE)を計算し、特定の視覚概念について、領域外のMSEと領域内のMSEの比率を局所性評価の実験指標として使用しました。

結果は下の表2に示されています。研究者の修正方法は局所性が優れており、修正された視覚概念の外側の画像領域の変化が少なくなっています。

表2: 修正された視覚概念のローカル評価

さらなる実験結果については論文をご覧ください。

要約する

この研究では、視覚的な概念を手動で注釈付けする必要なく、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案します。説明可能な GAN では、ジェネレーターの中間層にある各畳み込みカーネルは、異なる画像を生成するときに同じ視覚概念を安定して生成できます。

実験では、説明可能な GAN によって、生成された画像上の特定の視覚概念を変更できるようになることが示されており、GAN で生成された画像の制御可能な編集方法に新たな視点がもたらされています。

<<:  ヘルスケア AI が有用であることをどうやって保証するのでしょうか?

>>:  最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」

ブログ    
ブログ    
ブログ    

推薦する

人工知能を活用した診断・治療の現状と戦略に関する研究

1. はじめにわが国では毎年、さまざまな医療機関における診察や治療の総回数が70億回を超えており、医...

世界モデルが大きな貢献を果たしました! 20以上の自動運転シナリオの偽データがリアルすぎる…

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Google の具現化された知能に関する新たな研究: RT-H が登場、RT-2 より優れている

GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出...

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました!

[[220982]]人工知能とロボットはどちらも破壊的であり、人類社会の発展の新たな時代を導くでし...

ChatGPTのトラフィックが減少しており、学生が夏休みに入っているためだと推測する人もいる

7月16日、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ユーザーと自然言語で会...

過去1年間、世界は人工知能の倫理について次のような考えを抱いてきた。

1月下旬に終了したCES 2019で、LGの社長兼最高技術責任者であるIP Park氏が、AIがど...

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

[[283218]] [51CTO.com クイック翻訳] 実際、人工知能技術は私たちの生活を日々...

高速ドローンは森の中を自律的に飛行し、旅の間中独自のルートを計画し、最高時速40キロメートルで飛行する。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープラーニング可視化ツールの包括的なレビュー(リソース付き)

ディープネットワークは機械学習の研究・応用分野に大きな影響を与えてきましたが、同時にディープネットワ...

人工知能が悪性脳腫瘍の発症予測にどのように役立つか

[51CTO.com クイック翻訳] 人工知能の発展に伴い、人々の日常生活に密接に関係する多くの分野...

機械学習における正規化とはどういう意味ですか?

[[279210]]正則化はさまざまな記事や資料でよく見られます。たとえば、一般的な目的関数には次...

製品の価格については心配しないでください。AI が教えてくれます!

[[341780]] ▲写真:ゲッティベインが 1,700 人以上のビジネス リーダーを対象に実施...

...

人工知能はすべての未来でしょうか?

画期的なテクノロジーの年である 2023 年が終わりを迎えるにあたり、AI、特に生成 AI は変革の...

百度研究所が2020年のAI技術トレンド予測トップ10を発表

一歩前進、そしてまた一歩前進し、2019年が終わりました。 12月24日、百度研究所は2020年のト...