一般化の危機！ LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]

長い間、テストセットで優れたパフォーマンスを発揮するモデルは、一般化のパフォーマンスも優れているはずだという見方がありましたが、これは本当にそうでしょうか? LeCun 氏のチームは最近、高次元空間ではテストセットとトレーニングセットに関係がなく、モデルは外挿のみを実行して内挿を実行しなかったことを実験によって証明した論文を発表しました。つまり、トレーニングセットでのモデルのパフォーマンスはテストセットのパフォーマンスとはまったく関係がないということです。この場合、チャートをスワイプしても意味がないのではないでしょうか？

補間と外挿は、機械学習と関数近似における 2 つの重要な概念です。

機械学習では、テストサンプルの入力がトレーニングセットの入力の範囲内にある場合のモデル予測処理を「内挿」と呼び、範囲外にある場合のモデル予測処理を「外挿」と呼びます。

ディープラーニングの研究は常に 2 つの概念に依存してきました。

最先端のアルゴリズムが非常にうまく機能する理由は、トレーニングデータを正しく補間できるためです。
タスクとデータセット間では内挿のみが行われ、外挿は行われません。

しかし、受賞歴のある Yann LeCun 氏のチームは、これら 2 つの概念が間違っていることを公然と疑問視する論文を arxiv に投稿しました。

彼らの論文では、理論的にも経験的にも、合成データと実データの両方において、データ多様体の基本的な固有次元に関係なく、高次元空間 (> 100) では補間が発生しないことがほぼ確実であることを示しています。

内在次元とは、次元削減またはデータ圧縮中にデータの特性を最大限に保持するために保持する必要がある最小限の特徴を指します。また、データをどの程度圧縮できるかも示します。そのため、どの特徴がデータセットに最も大きな影響を与えるかを理解する必要があります。

現在の計算能力で処理できる実際のデータ量を考慮すると、新たに観測されたサンプルがこのデータセットの凸包に含まれる可能性は極めて低いと言えます。したがって、彼らは2つの結論に達しました。

現在使用され研究されているモデルは基本的に外挿です。
これらのモデルによって達成される超人的なパフォーマンスを考えると、外挿メカニズムは必ずしも避けるべきではありませんが、これは一般化パフォーマンスの指標でもありません。

私たちの研究の第一段階は、環境の次元の役割（つまり、データが存在する空間の次元）、基礎となるデータ多様体の固有の次元の役割（つまり、データの最小表現に必要な変数の数）、およびすべてのデータ多様体を含む最小のアフィン部分空間の次元を理解することです。

画像のようなデータは低次元多様体上に存在する可能性が高いため、高次元の周囲空間に関係なく補間が行われると直感的かつ経験的に想定できると主張する人もいるかもしれません。しかし、この直感は誤解を招くものであり、実際には、1 次元多様体のような極端な場合でも、基礎となる多様体の次元は変化しません。

上の図は、補間された領域に新しいサンプルがある確率の変化を説明する際に、対数スケールで見られるデータセットサイズの増加と、500,000 回の試行のモンテカルロ推定に基づくさまざまな環境空間次元 (d) を示しています。左の図はガウス密度 N(0, Id) からデータをサンプリングし、中央の図は固有次元 1 の非線形連続多様体からデータをサンプリングし、右の図は環境次元が増加しているときに、定数次元 4 のガウス密度のアフィンサブスペースからデータをサンプリングします。

これらの図から、補間領域で一定の確率を維持するためには、基礎となる固有多様体の次元に関係なく、トレーニングセットのサイズが d とともに指数関数的に増加する必要があることがわかります。ここで、d は、データ多様体全体を含む最低次元のアフィンサブスペースの次元です。

いずれの場合も、このデータセットの固有次元は 1 であり、多様体は連続的、非線形、区分的に滑らかであり、単体の走査に対応します。

したがって、補間領域内にある確率を高めるためには、多様体基底次元と周囲空間次元を制御するのではなく、d を制御する必要があると結論付けることができます。

ピクセル空間でのテストセットの外挿を研究する際、研究者はまず、MNIST、CIFAR、および Imagenet シーケンスセット内のテストセットのうち補間された状態にあるものの割合を研究しました。

データの次元の影響を把握するために、2 つの戦略から得られた異なる数の次元を使用して比率を計算します。最初の戦略では、画像の中心から特定の数の次元のみを保持します。限られた数の次元のみを考慮しながら、多様体のジオメトリを保持できるという利点があります。2 番目の戦略では、画像を平滑化してサブサンプリングします。多様体の全体的なジオメトリを保持しながら、高周波構造 (画像の詳細) を削除し、情報をより少ない次元に圧縮できるという利点があります。

どちらの場合も、自然画像のデータ多様体ジオメトリにもかかわらず、補間領域内のサンプルを見つけることは、データの次元 d に比べて非常に困難であることがわかります。

次元削減空間でのテストセット外挿を研究する場合、一連の実験では、非線形または線形の次元削減手法を使用して高次元データセットを視覚化します。使用された次元削減技術が補間情報または外挿情報を保持するかどうかを明確に理解するために、研究者は、d=8,12 の d 次元ハイパーキューブの 2D 頂点で構成されるデータセットを作成しました。

これらのデータセットは、任意のサンプルが他のサンプルと比較して外挿されるという意味で特定的です。そして、これらの頂点を 2 次元で表現するために、8 つの異なる一般的な次元削減手法が使用されます。次元削減法では、補間/外挿情報が失われ、明らかに補間に偏った視覚的な誤解を招くことがわかります。

内挿と外挿は、データセットが与えられた場合に新しいサンプルの位置の直感的な幾何学的特徴付けを提供し、これらの用語は、未知のサンプルに対するモデルのパフォーマンスを予測するための幾何学的プロキシとしてよく使用されます。過去の経験に基づくと、モデルの一般化パフォーマンスはモデルの補間方法に依存するという結論が出ているようです。この記事では、この誤解を実験的に証明します。

また研究者たちは、一般化パフォーマンスの指標として補間と外挿を使用することに特に反対しており、既存の理論的結果と徹底的な実験から、新しいサンプルの補間を維持するためには、データセットのサイズがデータ次元に対して指数関数的に増加する必要があることを示しています。つまり、新しい例はほぼ確実に凸包の外側にあるため、トレーニングセット内でのモデルの動作は、モデルの一般化の程度にほとんど影響を与えません。

この観察は、元のデータ空間を考慮するか、埋め込みを考慮するかに関係なく当てはまります。研究者たちは、これらの観察が、特に高次元データの場合に、一般化特性と一致する、より適切な内挿と外挿の幾何学的定義を構築する扉を開くと考えています。

<<: 商用アプリケーション向けディープラーニング画像キャプション技術

>>: 5300億！巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か？