サポートベクターマシンとニューラルネットワークが出会うとき: SVMとGANの距離の関係

SVM は機械学習の分野における古典的なアルゴリズムの 1 つです。 SVM をニューラルネットワークに一般化すると何が起こるでしょうか?

サポートベクターマシン (SVM) は、ほとんどの AI 実践者がよく知っている概念です。これは、分類および回帰分析でデータを分析するための教師あり学習モデルと関連学習アルゴリズムです。それぞれが 2 つのカテゴリのいずれかに属するようにラベル付けされた一連のトレーニングインスタンスが与えられると、SVM トレーニングアルゴリズムは、新しいインスタンスを 2 つのカテゴリのいずれかに割り当てるモデルを作成し、非確率的なバイナリ線形分類器を作成します。 SVM モデルはインスタンスを空間内の点として表現し、別々のクラスのインスタンスが可能な限り広い明確なマージンで分離されるようにマッピングします。次に、新しいインスタンスが同じ空間にマッピングされ、間隔のどちら側に位置するかに基づいてカテゴリが予測されます。

SVM は線形分類の実行に加えて、いわゆるカーネルトリックを使用して非線形分類を効率的に実行し、入力を高次元の特徴空間に暗黙的にマッピングすることもできます。

この記事では、モントリオール大学の論文「SVM、ワッサースタイン距離、および勾配ペナルティ付き GAN の関係」を紹介します。この論文では、研究者らは、同じフレームワークから SVM と勾配ペナルティ付き GAN を取得する方法を説明しています。

論文の筆頭著者によると、この研究の着想は博士課程の資格試験から生まれたという。準備の過程で、彼女は SVM について学び、「SVM をニューラルネットワークに拡張したらどうなるだろうか」という疑問について考えました。この考えに従って、研究者は SVM、GAN、およびワッサースタイン距離の関係を発見しました。

論文アドレス: https://arxiv.org/abs/1910.06922

コードアドレス: https://github.com/AlexiaJM/MaximumMarginGANs

この研究では、最大マージン分類器 (MMC) の概念を任意のノルムと非線形関数に拡張します。サポートベクターマシンは MMC の特殊なケースです。研究者らは、MMC は積分確率メトリック (IPM) または何らかの形の勾配ノルムペナルティを備えた分類器として形式化できることを発見しました。これは、勾配ペナルティ付き GAN との直接的な関連を示唆しています。

この研究では、Wasserstein GAN、標準 GAN、最小二乗 GAN、勾配ペナルティ付き Hinge GAN の識別器はすべて MMC であることが示され、GAN におけるマージンの最大化の役割が説明されています。研究者らは、L^∞ノルムペナルティとヒンジ損失によって生成されたGANは、L^2ノルムペナルティによって生成されたGANよりも優れているという仮説を立て、実験を通じてそれを検証した。さらに、この研究では、相対的ペア (Rp) および平均 (Ra) GAN のマージンも導出されました。

この論文はいくつかの部分から構成されています。第 2 章では、研究者が SVM と GAN をレビューします。第 3 章では、研究者が最大マージン分類器 (MMC) の概念を概説します。第 4 章では、研究者が勾配ペナルティを使用して MMC と GAN の関係を説明します。このうち、4.1 では、1-Lipschitz を強制することは、境界付き勾配を仮定することと同等であり、これは Wasserstein 距離を MMC 式を使用して近似できることを意味します。4.2 では、GAN で MMC を使用する利点について説明します。4.3 では、L1 ノルム間隔により、より堅牢な分類器が得られると仮定します。4.4 では、相対的ペア GAN と相対的平均 GAN の間隔を導出します。最後に、第 5 章では、この記事の仮説を裏付ける実験結果を示します。

SVM は MMC の特殊なケースです。 MMC はマージンを最大化する分類器です (マージンとは、決定境界とデータポイント間の距離を指します)。決定境界は、サンプルのクラス（f(x)=0となるすべてのx）を区別できない領域です。

Soft-SVM は、最小の L2 ノルムマージンを最大化する特殊なケースです。次の図は、Soft-SVM の動作を示しています。

この結果を解釈する前に、重要な要素を理解する必要があります。「間隔」には多くの定義があります。

（１）サンプルと境界との間の最小距離

（２）境界に最も近い点と境界との間の最小距離。

定義（2）の方が一般的に使われます。しかし、この定義を使用すると、SVM の文献でいわゆる「機能マージン」と「幾何学的マージン」はマージンとは見なされなくなります。これは非常に混乱を招く可能性があります。

違いを理解するためのより良い方法は次のとおりです。

（１）を「サンプル間隔」として考える。

（２）を「データセットの区間」として考えてみましょう。

ただし、2 つの状況を明確に区別するために、この記事では前者を「マージン」、後者を「最小マージン」と呼びます。

ハード SVM (元の形式) は、最小マージンを最大化する問題を解決します。 Soft-SVM は、期待されるソフトマージンを最大化する (期待されるヒンジ損失を最小化する) という、もう 1 つのより単純な問題を解決します。この問題は簡単に修正できます。ヒンジ損失により、境界から遠いサンプルが Hard-SVM 効果を誤って複製する試みに影響を与えないことが保証されます。

この観点から、最小マージンを最大化するのではなく、期待マージンを最大化すると、依然として最大マージン分類器が得られますが、分類器は境界から遠く離れたポイントの影響を受ける可能性があります (ヒンジ損失が使用されていない場合)。したがって、期待マージンを最大化するということは、任意のサンプル (つまり、データポイント) と決定境界間の平均距離を最大化することを意味します。このような方法の一例としては、最大マージン分類器 (MMC) があります。

可能な限り一般化するために、本研究では MMC の損失関数を導出するためのフレームワークを設計しました。研究者らは、このフレームワークが勾配ペナルティを伴う区間ベースの目的関数を導出できることを観察しました（目的関数 F は F(yf(x)) の形式です）。つまり、標準 GAN、最小二乗 GAN、WGAN、または HingeGAN-GP はすべて MMC です。これらすべての方法 (WGAN-GP のような L2 勾配ノルムペナルティを使用する場合) は、期待される L2 ノルムマージンを最大化します。

研究者らはまた、1-Lipschitz を仮定することは制限付き勾配を仮定することと同等であるため (したがって、勾配ペナルティの形式として使用できる)、Lipschitz-1 識別器を使用するほとんどの GAN (スペクトル正規化 HingeGAN、WGAN、WGAN-GP など) は MMC として表現できることを示しました。

重要なのは、最も成功した GAN (BigGAN、StyleGAN) を MMC として見ることができるということです。 Lipschitz-1 識別器が優れた GAN を実現するための鍵であると考えられていることを考えると、マージンを最大化する識別器と相対論的識別器が必要になる可能性があります。この研究では、疑似生成されたサンプルにより多くの勾配信号をもたらすという事実に基づいて、MMC 識別器の利点を説明しています。

この時点で、あなたはこう思うかもしれません。「ある間隔は他の間隔よりも優れているのか？もしそうなら、より優れた GAN を作ることができるのか？」

どちらの質問に対する答えも「はい」です。 L1 ノルムを最小化する損失関数は、L2 ノルムを最小化する損失関数よりも外れ値に対して堅牢です。この事実に基づいて、研究者は、L1 ノルム間隔がより堅牢な分類器につながるかどうか、また生成された GAN が L2 ノルム間隔よりも優れている可能性があるかどうか疑問視しています。

重要なのは、L1 ノルム区間は L∞ 勾配ノルムペナルティを課し、L2 ノルム区間は L2 勾配ノルムペナルティを課すことです。この研究では、L∞勾配ノルムペナルティ（L1マージンの使用によるもの）がGANのパフォーマンスを向上させることを示すいくつかの実験が行われました。

さらに、実験では、HingeGAN-GP は一般に WGAN-GP よりも性能が優れており (ヒンジ損失は境界から離れた外れ値に対して堅牢であるため、これは理にかなっています)、1 より大きい勾配ノルムのみをペナルティすることで (WGAN-GP のようにすべての勾配ノルムを 1 に近づけるのではなく) より効果的に機能することが示されています。したがって、これは理論的な研究であったにもかかわらず、研究者たちは GAN を改善するための非常に有用なアイデアをいくつか発見しました。

このフレームワークを使用して、研究者は、相対的ペア (Rp) GAN と相対的平均 (Ra) GAN の決定境界とマージンを定義することができました。 RpGAN が RaGAN ほどパフォーマンスが良くないのはなぜかとよく疑問に思う人がいますが、この論文では研究者がその理由を説明しています。

L1 ノルム間隔を使用するという考えは、氷山の一角にすぎません。このフレームワークは、より堅牢な間隔を通じてより優れた GAN を設計することもできます (したがって、より優れた勾配ペナルティまたは「スペクトル」正規化手法が提供されます)。最後に、この研究では、Wasserstein 距離を推定しない GAN に対して勾配ペナルティや 1-Lipschitz がなぜ効果的であるかという明確な理論的根拠も提供しています。詳細については、元の論文を参照してください。

<<: 機械にあなたのことをもっと理解させるにはどうすればいいでしょうか? NLPについて学ぶ時が来ました

>>: 2.5 ～ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?