生成的敵対ネットワーク (GAN) の未解決の 7 つの謎

いくつかの指標によれば、生成的敵対的ネットワーク (GAN) の研究は過去 2 年間で大きな進歩を遂げました。画像合成モデルの実際の改善（下記参照）は、追いつけないほど速いです。

しかし、他の指標から見ると、研究はあまり進歩していない。たとえば、GAN を評価する方法については、依然として意見の相違が広く存在します。画像合成ベンチマークはある程度飽和状態にあると思われるため、このサブフィールドの研究目標について検討する時期が来ています。

この記事では、研究における 7 つの未解決の疑問を列挙します。これらの未解決の謎が近い将来に解明されることを願っています。

GAN と他の生成モデルとの間のトレードオフは何ですか?

GAN に加えて、フローモデルと自己回帰モデルという 2 つの一般的な生成モデルがあります。大まかに言えば、フローモデルは、観測データの対数尤度を計算するために、一連の可逆変換を事前サンプルに適用します。一方、自己回帰モデルは、観測データの分布を条件付き分布に因数分解し、一度に 1 つの観測コンポーネントを処理します (画像の場合、モデルは一度に 1 ピクセルを処理できます)。

最近の研究では、これらのモデルには異なるパフォーマンス特性とトレードオフがあることが示されています。興味深い未解決の疑問は、これらのトレードオフを正確に特徴づけ、それがこれらのモデルの基本的な特性であるかどうかを判断するにはどうすればよいかということです。

具体的には、GAN とフローモデルの計算コストの違いに少し焦点を当ててみましょう。一見すると、流体モデルを使用すると GAN の存在が不要になるように見えるかもしれません。その理由の 1 つは、流体モデルでは正確な対数尤度計算と正確な推論も可能になるからです。したがって、流体モデルのトレーニングと GAN の計算コストが同じであれば、GAN はあまり役に立たない可能性があります。 GAN のトレーニングには多大な労力が費やされてきたため、流体モデルによって GAN が時代遅れになるかどうかについて、より懸念すべきであると思われます。

しかし、GAN と流体モデルのトレーニングの計算コストには大きな差があるようです。このギャップの大きさを推定するために、顔のデータセットでトレーニングされた 2 つのモデルを参照することができます。

GLOW モデルは、約 2 億のパラメータを含む 2 週間にわたって 40 個の GPU を使用して 256 x 256 の有名人の顔を生成するようにトレーニングされました。比較すると、漸進的に進化する GAN は、約 4,600 万のパラメータを使用して、8 つの GPU を 4 日間連続で使用して 1024 x 1024 の画像を生成するようにトレーニングされました。

大まかに言えば、フローモデルでは GPU 日数が 17 倍かかり、4 倍のパラメーターを使用して、生成されるピクセル数が 16 倍少なくなります。この比較は厳密ではありませんが、それでも何らかの参考になります。

フローモデルの効率が低いのはなぜでしょうか。考えられる理由は 2 つあります。まず、最大尤度トレーニングは敵対的トレーニングよりも計算上困難です。特に、トレーニングセットのいずれかの要素に生成モデルによってゼロの確率が割り当てられると、非常に厳しいペナルティが課せられます。一方、GAN ジェネレーターは、トレーニングセットの要素にゼロの確率を割り当てたことに対して間接的にのみペナルティが課せられ、このペナルティはそれほど厳しくありません。第二に、正規化プロセスは、一部の関数を表現するには非効率的な方法となる可能性があります。

GAN とフローモデル間のトレードオフについて説明しましたが、自己回帰モデルのトレードオフは何でしょうか? 自己回帰モデルは、並列化不可能なフローモデルとして表現できることがわかります (両方とも可逆であるため)。結果はまた、自己回帰モデルがフローモデルよりも時間とパラメータの点で効率的であることを示しています。一般的に、GAN は効率的で並列ですが可逆的ではありません。フローモデルは可逆的で並列ですが効率的ではありません。自己回帰モデルは可逆的で効率的ですが並列ではありません。

これにより、次のような未解決の疑問が生じます。

質問 1: GAN と他の生成モデルとの間の基本的なトレードオフは何ですか? 特に、可逆性、並列性、およびパラメータ/時間効率について、ある種の CAP 定理型の記述を行うことができますか?

この問題に対処する 1 つの方法は、より多くのモデルを混合したモデルの混合を研究することです。このアプローチはハイブリッド GAN とフローモデルで検討されてきましたが、まだ十分に調査されていません。

また、最大尤度トレーニングが必ずしも GAN トレーニングよりも難しいかどうかもわかりません。 GAN トレーニング損失の場合、トレーニングデータポイントにゼロの重みを設定することが明示的に禁止されていないのは事実ですが、ジェネレーターがこれを行う場合、十分に強力な識別器はこれよりも優れた結果を得ることができます。しかし、実際には GAN は低サポート分布を学習しているように見えます。フローモデルは、基本的に任意のデコーダー関数よりも各パラメーターの表現力が低いと思われますが、これは特定の仮定の下で証明可能です。

GAN はどのような分布をモデル化できますか?

GAN 研究のほとんどは画像合成に焦点を当てており、具体的には、MNIST、CIFAR-10、STL-10、CelebA、Imagenet など、いくつかの標準的な (ディープラーニングコミュニティの) 画像データセットで GAN をトレーニングしています。

どのデータセットが最も簡単にモデル化できるかについては、非公式の知恵がいくつかあります。たとえば、MNIST と CelebA は「非常に規則的」であるため、Imagenet、CIFAR-10、STL-10 よりもモデル化しやすいと考えられています。「クラス数が多いため、ImageNet での画像合成は GAN にとって非常に困難である」と指摘する人もいます。これらの観察は、CelebA の画像合成モデルによって生成された画像が Imagenet の画像よりも説得力があるように見えるという経験的事実によって裏付けられています。

しかし、この時間がかかり、面倒で、議論の多いプロセスでは、ますます大規模で複雑なデータセットで GAN をトレーニングして結論に達する必要があります。このプロセスでは主に、オブジェクト認識用に存在するデータセットに対して GAN がどのように機能するかを研究します。

他の科学と同様に、私たちは実験観察を説明する単純な理論を望んでいます。理想的には、データセットを見て、実際にモデルをトレーニングすることなく必要な計算を実行し、「このデータセットは GAN では簡単にモデル化できますが、VAE ではそうではありません」と言うことができるはずです。この点についてはある程度の進歩がありましたが、次の疑問が残っています。

質問 2: 分布が与えられた場合、GAN を使用してその分布をモデル化するのはどの程度難しいでしょうか?

「分布をモデル化する」とはどういう意味ですか? 低サポート表現で満足ですか、それとも真の密度モデルが必要ですか? GAN が学習できない分布をモデル化する方法はありますか? ある程度リソースを集中的に使用するモデルの場合、原理的には GAN で学習できるが、効率的に学習できない分布はありますか? これらの質問に対する答えは、GAN の場合と他の生成モデルの場合で異なりますか?

これらの質問に答えるには 2 つの戦略があります。

合成データセット: 合成データセットを調査して、学習可能性に影響を与える特徴を探ります。たとえば、著者らは合成三角形のデータセットを作成しました。この分野はまだ十分に研究されていません。体系的な研究を可能にするために、合成データセットは、接続性や滑らかさなどの関心のある量によってパラメータ化することもできます。このようなデータセットは、他のタイプの生成モデルの研究にも使用できます。
既存の理論的結果の修正: 既存の理論的結果と仮定を修正する試みにより、異なる特性を持つデータセットが生成されます。たとえば、単峰性分布が与えられたデータに GAN を適用した結果を取得し、データ分布が多峰性になった場合に何が起こるかを理解できます。

GAN を画像合成を超えて拡張するにはどうすればよいでしょうか?

画像間の変換やドメイン適応などのアプリケーションに加えて、GAN の最も成功したアプリケーションは画像合成です。 GAN の画像以外のアプリケーションは、主に次の 3 つの領域に集中しています。

テキスト: テキストの離散的な性質により、GAN の適用が困難になります。これは、GAN が、生成されたコンテンツを介して識別器からジェネレーターへの信号の逆伝播に依存しているためです。この問題を解決するには2つの方法があります。まず、GAN は以下に示すように、離散データの連続表現に対してのみ機能します。 2 つ目は、実際の離散モデルを使用し、勾配推定を使用して GAN をトレーニングしてみることです。他にもより洗練されたアプローチはありますが、私たちの知る限り、尤度ベースの言語モデルと競合する（困惑度に関して）結果を生み出すものはありません。
構造化データ: グラフなどの他の非ユークリッド構造化データとは何ですか? このタイプのデータの研究は、幾何学的ディープラーニングと呼ばれます。 GAN はこの点で限られた成功しか収めていませんが、他のディープラーニング技術も同様に成功しているため、その重要性を解明するのは困難です。この分野では、ジェネレーターがソースイメージからサンプリングされたランダムウォークに類似したランダムウォークを生成 (および識別器が「判断」) する GAN を使用する試みが行われてきました。
オーディオ: オーディオは、GAN が画像の合成に最も成功した分野です。著者らは、オーディオ上で動作する GAN に関してさまざまな特別な考慮事項を定めています。最近の研究では、GAN はいくつかの知覚指標において自己回帰モデルよりも優れていることが示されています。こうした試みにもかかわらず、画像は依然として GAN が処理する最も簡単な領域です。これが3番目の質問につながります。

質問 3: 画像データ以外で GAN のパフォーマンスを向上するにはどうすればよいでしょうか? GAN を他のドメインに拡張するには、新しいトレーニング手法が必要ですか? それとも、ドメインごとに暗黙的な事前確率を向上させるだけでよいのでしょうか?

GAN は最終的には他の連続データでも画像合成レベルの成功を達成できるようになると予想されますが、そのためにはより優れた暗黙の事前確率が必要になります。これらの事前確率を見つけるには、特定のドメインで何が意味があり計算可能であるかについて慎重に考える必要があります。

構造化データと非連続データの境界はあいまいであり、1 つのアプローチとして、ジェネレーターとディスクリミネーターを使用して強化学習トレーニングを実行することが考えられます。このアプローチを効果的にするには、大規模なコンピューティングリソースが必要になる場合があります。この問題を解決するには、基礎研究のみが必要になるかもしれません。

GAN トレーニングのグローバル収束をどのように説明すればよいでしょうか?

GAN トレーニングは、ターゲットに対して生成モデルと識別モデルを交互に最適化する点で、他のニューラルネットワークトレーニングとは異なります。特定の仮定の下では、この交互最適化は徐々に局所的な安定性に到達します。

しかし、全体的には証明するのが難しい興味深い事柄もあります。これは、識別モデル/生成モデルのパラメータが非凸損失関数であるためです。ただし、これはすべてのニューラルネットワークに共通する問題です。交互最適化によって生じる問題の解決に重点を置ける方法を実現したいと考えています。そこで次のような疑問が生じます。

質問 4: GAN がグローバル収束を持つことはいつ証明できますか? どのニューラルネットワーク収束結果を GAN に適用できますか?

上記の問題に関してはかなりの進歩がありました。一般的に言えば、現在、有望な結果を達成している技術は 3 つありますが、これら 3 つの技術に関する研究はまだ完了していません。

仮定の単純化 – 1 つの戦略は、生成モデルと識別モデルの両方について仮定を単純化することです。たとえば、特定の特殊な手法と条件付きの仮定による最適化の後、簡略化された LGQ GAN (L は線形生成モデル、G はガウス分布を満たすデータ、Q は二次判別モデルを表す) は、グローバル収束を示すことができます。こうした仮定を徐々に捨て去り、結果を観察することは有望であるように思われます。たとえば、単峰性の分布は避けてください。「モード崩壊」は標準的な GAN 異常であるため、単峰性分布は自然な緩和です。
従来のニューラルネットワーク技術の使用 - 2 番目の戦略は、従来のニューラルネットワーク (非凸) を分析する技術を適用して、GAN の収束に関する質問に答えることです。たとえば、「多層ネットワークの損失面」という論文では、損失関数の低品質の局所最小値の数はニューラルネットワークが拡大するにつれて指数関数的に減少するため、ディープニューラルネットワークの非凸性は問題ではないと提案されています。この分析は「GAN に適用可能」でしょうか? 実際、分類器として使用されるディープニューラルネットワークを分析し、それが GAN に適用できるかどうかを確認する場合、このヒューリスティックはうまく機能することが多いようです。
ゲーム理論 — 1 つの戦略は、ゲーム理論の原則に基づいて GAN をトレーニングすることです。これらの手法は、ナッシュ均衡に近いある点に収束することが検証可能なトレーニングステップを生成し、これはリソース制約の下で実行されます。次のステップは、リソースの制約を可能な限り減らすことです。

GAN はどのように評価されるべきであり、いつ使用すべきでしょうか?

GAN を評価する方法は数多くありますが、まだ合意には至っていません。これらの方法には次のものが含まれます。

インセプションスコアと FID (フレシェ距離) — どちらも事前トレーニング済みの画像分類器を使用しており、どちらも既知の問題があります。さらに、どちらも「サンプルの品質」を測定しますが、「サンプルの多様性」を真に捉えていないため、しばしば批判されます。
MS-SSIM — この方法では MS-SSIM のみを使用して多様性を評価できますが、この手法にはまだいくつかの問題があり、あまり普及していません。
AIS — この方法では、GAN の出力後にガウス観測モデルを連結し、アニールされた重要度サンプリングコードを使用して、このモデルでの対数尤度値を推定することを提案します。しかし、GAN 生成モデルもフローモデルであるため、この計算方法は正確ではありません。
幾何学的スコア - この方法では、生成されたデータマニホールドの幾何学的特性を計算し、これらの特性を実際のデータと比較することを提案します。
精度と再現率 — この方法では、GAN の「精度」と「再現率」を測定することを提案します。
スキルレベル - この方法では、トレーニングされた GAN 識別モデルに、評価に使用できる有用な情報が含まれていることが示されています。

これらは、考えられる GAN 評価シナリオのほんの一部です。 Inception Score と FID は比較的人気がありますが、GAN 評価にどの方法を使用するかについては明らかにコンセンサスがありません。 GAN を評価する方法がわからないのは、いつ GAN を使用するかがわからないことに起因していると主張します。したがって、これら 2 つの質問は質問 5 にまとめられます。

質問 5: 他の生成モデルの代わりに GAN を使用する必要があるのはどのような場合ですか? このような状況で GAN のパフォーマンスをどのように評価できますか?

GAN を何に使用するか? 真の密度モデルを取得するには、GAN は適切な選択ではない可能性があります。実験により、GAN はターゲットデータセットの「低サポート」表現を学習することが示されています。つまり、GAN はテストセット内のほとんどのデータに (暗黙的に) ゼロの尤度を割り当てる可能性があります。

GAN 研究は、サポートセットが問題にならず、役立つ可能性のあるタスクに集中します。 GAN は、画像合成、画像変換、画像塗りつぶしなどの知覚タイプのタスクや、属性操作などのグラフィックスアプリケーションに適している可能性があります。

GAN がこれらの知覚タスクでどの程度のパフォーマンスを発揮するかをどのように評価するのでしょうか? 理想的には、人間の判断を利用できますが、コストがかかります。低コストのプロキシサーバーは、分類器が本物のサンプルと偽物のサンプルを区別できるかどうかを確認できます。このプロセスは、分類器 2 サンプルテスト (C2ST) と呼ばれます。このテストの主な問題は、サンプル全体にわたって体系的な生成モデルに小さな欠陥があっても、評価結果に決定的な影響を与えることです。

理想的には、全体的な評価は単一の要素によって左右されません。考えられるアプローチの 1 つは、明示的な欠陥を無視する批評を導入することです。しかし、いったんこれが行われると、他の欠陥が目立つようになり、別の批評家が必要となり、このプロセスが繰り返されることになります。反復的なアプローチを取れば、「批評家のためのグラム・シュミット手順」を取得し、最も重要な欠陥とそれを無視できる批評家の順序付けられたリストを作成できます。おそらく、これは批評家の活性化に対して PCA (主成分分析) を実行し、分散の大きい成分を徐々に破棄することによって実行できるでしょう。

トレードオフがあるにもかかわらず、人間を評価することは可能です。これにより、私たちが本当に気にかけていることを測定できるようになります。このアプローチのコストは、人間の回答を予測し、予測が不確実な場合にのみ実際の人間と対話することで削減できます。

GAN トレーニングではバッチサイズはどのように変更されますか?

大きなミニバッチは画像分類のスケーリングに役立つことが知られていますが、GAN のスケーリングにも役立つのでしょうか? 大きなミニバッチは、高度に並列化されたハードウェアアクセラレータを効果的に使用する上で重要な役割を果たす可能性があります。

一見すると、答えは「はい」のように思えます。結局のところ、ほとんどの GAN の識別モデルは、単なる画像分類器にすぎません。勾配ノイズのボトルネックが発生した場合は、ミニバッチを大きくするとトレーニングプロセスを高速化できます。ただし、GAN には分類器にはない特別なボトルネックがあり、2 つのトレーニングプロセスが異なる可能性があります。したがって、私たちは次の質問をします。

質問 6: GAN をトレーニングするとき、バッチサイズはどのように決定されますか? 勾配ノイズは GAN トレーニングでどの程度の役割を果たしますか? GAN トレーニングを変更して、バッチサイズの変更にさらに応答するようにすることはできますか?

ミニバッチのサイズを大きくすると量子化結果が改善され、トレーニング時間が短縮されるという証拠があります。この現象が常に存在する場合、勾配ノイズが支配的な要因であることを示します。しかし、これについては体系的に研究されていないため、この問題は未解決のままであると考えられます。

交互トレーニング手順では、大きなバッチサイズをより有効に活用できますか? 理論的には、Transfer GAN はバニラ GAN よりも収束性が高くなりますが、Transfer GAN ではバッチサンプルをトレーニングデータに合わせる必要があるため、より大きなバッチサイズが必要になります。したがって、Transfer GAN は、GAN バッチを非常に大きなサイズに拡張するために使用できる可能性があります。

非同期 SGD アルゴリズム (非同期確率的勾配降下法) は、新しいハードウェアを活用するのに適した選択肢です。この設定では、制限要因は多くの場合、パラメータの「古い」コピーに対する更新勾配の計算になります。しかし実際には、GAN は過去のパラメータのスナップショットでのトレーニングから本当に恩恵を受けているように見えるので、非同期 SGD が GAN トレーニングと特別な方法で相互作用するのではないかと疑問に思うかもしれません。

GAN と敵対的サンプルの関係は何ですか?

敵対的サンプルが画像分類器に影響を及ぼす可能性があることはよく知られています。人間には知覚できない摂動により、画像が追加されたときに分類器が誤った結果を出力する可能性があります。一部の分類問題は通常、効果的に学習できますが、堅牢に学習するのは非常に困難です。

GAN 識別モデルは画像分類器であるため、敵対的サンプルの影響を受けるのではないかと心配されるかもしれません。 GAN と敵対的サンプルに関する文献は膨大にありますが、この 2 つがどのように関連しているかについての文献ははるかに少ないです。したがって、次のような疑問が生じます。

質問 7: 識別モデルの敵対的堅牢性は GAN トレーニングにどのように影響しますか?

この問題はどこから始めればよいでしょうか? 識別モデル D が与えられた場合、生成されたサンプル G(z) が偽のサンプルとして正しく識別され、小さな摂動 p によって G(z)+p が真のサンプルとして識別されるなら、D には敵対的サンプルがあります。 GAN の場合、生成モデルの勾配更新によって新しいジェネレータ G' (G'(z) = G(z) + p) が生成されると考えられます。

この問題は現実的でしょうか? 生成モデルの敵対的例は、生成モデルに対する意図的な脅威が機能することを示しています。こうした予期せぬ脅威が発生する可能性は低いと信じる理由があります。まず、生成モデルは識別モデルが再度更新される前に 1 回の勾配更新しか実行できませんが、現在の敵対的脅威では通常、数十回の反復が必要になります。第二に、事前分布とは異なる勾配を持つサンプルの一部を与えることで、生成モデルを最適化できます。この最適化プロセスは、生成モデルのパラメーター空間（ピクセル空間ではない）で実行されます。しかし、これらの議論のいずれも、生成モデルが敵対的サンプルを作成する可能性を完全に排除するものではありません。したがって、このトピックをさらに調査すると有益である可能性があります。

<<: 教科書では学べない機械学習に関する12の「民間伝承」

>>: マイクロソフト、解釈可能な機械学習ツールキット「InterpretML」をオープンソース化