一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]

長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォーマンスも優れているはずだという見方がありましたが、これは本当にそうでしょうか? LeCun 氏のチームは最近、高次元空間ではテスト セットとトレーニング セットに関係がなく、モデルは外挿のみを実行して内挿を実行しなかったことを実験によって証明した論文を発表しました。つまり、トレーニング セットでのモデルのパフォーマンスはテスト セットのパフォーマンスとはまったく関係がないということです。この場合、チャートをスワイプしても意味がないのではないでしょうか?

補間と外挿は、機械学習と関数近似における 2 つの重要な概念です。

機械学習では、テストサンプルの入力がトレーニングセットの入力の範囲内にある場合のモデル予測処理を「内挿」と呼び、範囲外にある場合のモデル予測処理を「外挿」と呼びます。

ディープラーニングの研究は常に 2 つの概念に依存してきました。

  1. 最先端のアルゴリズムが非常にうまく機能する理由は、トレーニング データを正しく補間できるためです。
  2. タスクとデータセット間では内挿のみが行われ、外挿は行われません。

しかし、受賞歴のある Yann LeCun 氏のチームは、これら 2 つの概念が間違っていることを公然と疑問視する論文を arxiv に投稿しました。

彼らの論文では、理論的にも経験的にも、合成データと実データの両方において、データ多様体の基本的な固有次元に関係なく、高次元空間 (> 100) では補間が発生しないことがほぼ確実であることを示しています。

内在次元とは、次元削減またはデータ圧縮中にデータの特性を最大限に保持するために保持する必要がある最小限の特徴を指します。また、データをどの程度圧縮できるかも示します。そのため、どの特徴がデータ セットに最も大きな影響を与えるかを理解する必要があります。

現在の計算能力で処理できる実際のデータ量を考慮すると、新たに観測されたサンプルがこのデータセットの凸包に含まれる可能性は極めて低いと言えます。したがって、彼らは2つの結論に達しました。

  1. 現在使用され研究されているモデルは基本的に外挿です。
  2. これらのモデルによって達成される超人的なパフォーマンスを考えると、外挿メカニズムは必ずしも避けるべきではありませんが、これは一般化パフォーマンスの指標でもありません。

私たちの研究の第一段階は、環境の次元の役割(つまり、データが存在する空間の次元)、基礎となるデータ多様体の固有の次元の役割(つまり、データの最小表現に必要な変数の数)、およびすべてのデータ多様体を含む最小のアフィン部分空間の次元を理解することです。

画像のようなデータは低次元多様体上に存在する可能性が高いため、高次元の周囲空間に関係なく補間が行われると直感的かつ経験的に想定できると主張する人もいるかもしれません。しかし、この直感は誤解を招くものであり、実際には、1 次元多様体のような極端な場合でも、基礎となる多様体の次元は変化しません。

上の図は、補間された領域に新しいサンプルがある確率の変化を説明する際に、対数スケールで見られるデータセット サイズの増加と、500,000 回の試行のモンテ カルロ推定に基づくさまざまな環境空間次元 (d) を示しています。左の図はガウス密度 N(0, Id) からデータをサンプリングし、中央の図は固有次元 1 の非線形連続多様体からデータをサンプリングし、右の図は環境次元が増加しているときに、定数次元 4 のガウス密度のアフィン サブスペースからデータをサンプリングします。

これらの図から、補間領域で一定の確率を維持するためには、基礎となる固有多様体の次元に関係なく、トレーニング セットのサイズが d とともに指数関数的に増加する必要があることがわかります。ここで、d は、データ多様体全体を含む最低次元のアフィン サブスペースの次元です。

いずれの場合も、このデータセットの固有次元は 1 であり、多様体は連続的、非線形、区分的に滑らかであり、単体の走査に対応します。

したがって、補間領域内にある確率を高めるためには、多様体基底次元と周囲空間次元を制御するのではなく、d を制御する必要があると結論付けることができます。

ピクセル空間でのテスト セットの外挿を研究する際、研究者はまず、MNIST、CIFAR、および Imagenet シーケンス セット内のテスト セットのうち補間された状態にあるものの割合を研究しました。

データの次元の影響を把握するために、2 つの戦略から得られた異なる数の次元を使用して比率を計算します。最初の戦略では、画像の中心から特定の数の次元のみを保持します。限られた数の次元のみを考慮しながら、多様体のジオメトリを保持できるという利点があります。2 番目の戦略では、画像を平滑化してサブサンプリングします。多様体の全体的なジオメトリを保持しながら、高周波構造 (画像の詳細) を削除し、情報をより少ない次元に圧縮できるという利点があります。

どちらの場合も、自然画像のデータ多様体ジオメトリにもかかわらず、補間領域内のサンプルを見つけることは、データの次元 d に比べて非常に困難であることがわかります。

次元削減空間でのテスト セット外挿を研究する場合、一連の実験では、非線形または線形の次元削減手法を使用して高次元データセットを視覚化します。使用された次元削減技術が補間情報または外挿情報を保持するかどうかを明確に理解するために、研究者は、d=8,12 の d 次元ハイパーキューブの 2D 頂点で構成されるデータセットを作成しました。

これらのデータセットは、任意のサンプルが他のサンプルと比較して外挿されるという意味で特定的です。そして、これらの頂点を 2 次元で表現するために、8 つの異なる一般的な次元削減手法が使用されます。次元削減法では、補間/外挿情報が失われ、明らかに補間に偏った視覚的な誤解を招くことがわかります。

内挿と外挿は、データセットが与えられた場合に新しいサンプルの位置の直感的な幾何学的特徴付けを提供し、これらの用語は、未知のサンプルに対するモデルのパフォーマンスを予測するための幾何学的プロキシとしてよく使用されます。過去の経験に基づくと、モデルの一般化パフォーマンスはモデルの補間方法に依存するという結論が出ているようです。この記事では、この誤解を実験的に証明します。

また研究者たちは、一般化パフォーマンスの指標として補間と外挿を使用することに特に反対しており、既存の理論的結果と徹底的な実験から、新しいサンプルの補間を維持するためには、データセットのサイズがデータ次元に対して指数関数的に増加する必要があることを示しています。つまり、新しい例はほぼ確実に凸包の外側にあるため、トレーニング セット内でのモデルの動作は、モデルの一般化の程度にほとんど影響を与えません。

この観察は、元のデータ空間を考慮するか、埋め込みを考慮するかに関係なく当てはまります。研究者たちは、これらの観察が、特に高次元データの場合に、一般化特性と一致する、より適切な内挿と外挿の幾何学的定義を構築する扉を開くと考えています。

<<:  商用アプリケーション向けディープラーニング画像キャプション技術

>>:  5300億!巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か?

ブログ    
ブログ    
ブログ    

推薦する

AI導入によるエッジインテリジェンスの強化

エッジに AI を導入すると、強力なリアルタイム分析と処理を実現できる可能性があります。使用例には、...

ビッグデータアルゴリズムのジレンマ

2013年、米国で窃盗罪で有罪判決を受けた男性がウィスコンシン州の裁判所に訴訟を起こしたという物議を...

...

...

AI分野におけるNVIDIA NeMoフレームワークの包括的な応用と利点の概要

1. NeMoフレームワークの紹介NVIDIA NeMo は、PyTorch と PyTorch L...

2018年世界大学AIランキングが発表、中国の大学が好成績!

この記事では、CSranking の計算に基づいて、コンピューターサイエンスの分野システムと学部の観...

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

人工知能の発展は日々変化しており、特に生成型人工知能はテクノロジー業界で話題になっています。しかし、...

データ汚染:次の大きな脅威

人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポ...

...

...

Ant Marketingの推奨シナリオにおける因果修正法

1. 因果修正の背景1. 逸脱の発生推奨システムは、収集されたデータに基づいて推奨モデルをトレーニン...

会員数3億人、商品数4億点、大規模電子商取引の商品推奨にディープラーニングを応用!

電子商取引業界では、ユーザーに対する商品の推奨は常に非常にホットで重要なトピックです。比較的成熟した...

人工知能のコスト問題をどう解決するか?顔認識によって情報セキュリティはどのように確保されるのでしょうか?

[[422539]] 9月7日午後、第19回「海南省科学技術会議」に新たに追加されたホットトピック...

...