研究の背景と研究課題生成的敵対的ネットワーク (GAN) は高解像度画像の生成に大きな成功を収めており、その解釈可能性に関する研究も近年広く注目を集めています。 この分野では、GAN に分離した表現を学習させる方法が依然として大きな課題となっています。 GAN のいわゆる分離表現とは、表現の各部分が生成された画像の特定の側面にのみ影響を与えることを意味します。 GAN 分離表現に関するこれまでの研究では、さまざまな視点に焦点が当てられてきました。 たとえば、下の図 1 では、方法 1 によって画像の構造とスタイルが分離されています。方法 2 は、画像内のローカル オブジェクトの特徴を学習します。方法 3 は、顔画像の年齢属性や性別属性など、画像内の属性の分離された特徴を学習します。しかし、これらの研究では、GAN におけるさまざまな視覚概念 (顔の目、鼻、口などの部分) の明確で象徴的な表現を提供できませんでした。 図1: 他のGAN分離表現手法との視覚的な比較 この目的のために、研究者らは、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案しました。これにより、ジェネレーターの中間層の畳み込みカーネルが分離されたローカル視覚概念を学習できるようになります。具体的には、以下の図 2 に示すように、従来の GAN と比較して、説明可能な GAN の中間層の各畳み込みカーネルは、異なる画像を生成するときに常に特定の視覚概念を表し、異なる畳み込みカーネルは異なる視覚概念を表します。 図2: 解釈可能なGANと従来のGANエンコーディング表現の視覚的な比較 モデリングアプローチ説明可能な GAN の学習は、畳み込みカーネルの解釈可能性と生成された画像の信憑性という 2 つの目標を満たす必要があります。
ターゲット レイヤーの畳み込みカーネルの解釈可能性を確保するために、研究者は、複数の畳み込みカーネルが視覚概念に対応する類似の領域を生成する場合、通常、それらのカーネルは共同でこの視覚概念を表すことに気付きました。 したがって、特定の視覚概念を共同で表現するために畳み込みカーネルのセットを使用し、異なる視覚概念を個別に表現するために異なる畳み込みカーネルのセットを使用します。 同時に生成された画像の信憑性を保証するために、研究者らは以下の損失関数を設計し、従来の GAN を解釈可能な GAN に修正しました。
実験結果実験では、研究者らは解釈可能な GAN を定性的にも定量的にも評価しました。 定性分析では、各畳み込みカーネルの特徴マップを視覚化し、異なる画像間で畳み込みカーネルによって表される視覚概念の一貫性を評価しました。下の図 3 に示すように、説明可能な GAN では、各畳み込みカーネルは異なる画像を生成するときに常に同じ視覚概念に対応する画像領域を生成しますが、異なる畳み込みカーネルは異なる視覚概念に対応する画像領域を生成します。 図3: 解釈可能なGANにおける特徴マップの視覚化 実験では、図4(a)に示すように、各畳み込みカーネルのグループのグループ中心と畳み込みカーネル間の受容野の違いも比較しました。図4(b)は、説明可能なGANにおけるさまざまな視覚概念に対応する畳み込みカーネルの数の比率を示しています。図 4 (c) は、異なる数の畳み込みカーネル グループを選択した場合、解釈可能な GAN のグループ数が増えるほど、学習される視覚概念がより詳細になることを示しています。 図4: 説明可能なGANの定性評価 説明可能な GAN は、生成された画像上の特定の視覚概念の変更もサポートします。たとえば、解釈可能なレイヤー内の対応する特徴マップを交換することで、画像間の特定の視覚概念の相互作用を実現できます。つまり、ローカル/グローバルの顔の交換を完了できます。 下の図 5 は、画像のペア間で口、髪、鼻を入れ替えた結果を示しています。最後の列には、変更された画像と元の画像の違いが表示されます。この結果は、私たちの方法が他の無関係な領域を変更せずに、局所的な視覚概念のみを変更することを示しています。 図5: 生成された画像と特定の視覚概念の交換 さらに、下の図6は、顔全体を交換した場合の彼らの方法の効果も示しています。 図6: 生成された画像の面全体を交換 定量分析のために、研究者らは顔認証実験を用いて顔交換結果の精度を評価した。具体的には、顔画像のペアが与えられた場合、元の画像の顔がソース画像の顔に置き換えられ、変更された画像が生成されます。次に、変更された画像の顔がソース画像の顔と同じ ID を持つかどうかをテストします。 下の表 1 は、さまざまな方法による顔認証結果の精度を示しています。この方法は、アイデンティティ保存の点で他の顔スワッピング方法よりも優れています。 表1: 顔交換の精度評価 さらに、特定の視覚概念を変更する際の私たちの方法の局所性が実験で評価されます。具体的には、研究者らは、RGB空間における元の画像と修正された画像の間の平均二乗誤差(MSE)を計算し、特定の視覚概念について、領域外のMSEと領域内のMSEの比率を局所性評価の実験指標として使用しました。 結果は下の表2に示されています。研究者の修正方法は局所性が優れており、修正された視覚概念の外側の画像領域の変化が少なくなっています。 表2: 修正された視覚概念のローカル評価 さらなる実験結果については論文をご覧ください。 要約するこの研究では、視覚的な概念を手動で注釈付けする必要なく、従来の GAN を解釈可能な GAN に変更する一般的な方法を提案します。説明可能な GAN では、ジェネレーターの中間層にある各畳み込みカーネルは、異なる画像を生成するときに同じ視覚概念を安定して生成できます。 実験では、説明可能な GAN によって、生成された画像上の特定の視覚概念を変更できるようになることが示されており、GAN で生成された画像の制御可能な編集方法に新たな視点がもたらされています。 |
<<: ヘルスケア AI が有用であることをどうやって保証するのでしょうか?
>>: 最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[433811]]みなさんこんにちは。私は Python の専門家です。驚きましたか?先週、この...
この記事は、JVM の世代別ガベージ コレクション プロセスを紹介し、さまざまなガベージ コレクショ...
今のところ、AI とブロックチェーン技術がもたらす可能性について聞いたことも、気付いていないのであれ...
2005 年には画期的な著作「The Graph Neural Network Model」が出版さ...
[[385597]]中国時報(www.chinatimes.net.cn)記者の翟延安が北京から報告...
データ分析は現代社会において常に重要なツールであり、本質を理解し、パターンを発見し、意思決定を導くの...
GPT-4に次ぐ、李開復のYi-34B-Chatの最新成果が発表されました——アルパカ認定モデル部門...
ここでは、機械学習の問題を 2 種類の統計学習に簡略化します。 教師なし学習には明確な定義がないと思...
[[209419]]オートエンコーダーは、入力データを効率的にエンコードする方法を学習するために使用...
[[389356]]今日、人工知能技術は急速に発展しており、イノベーションのペースは加速しています。...