ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明：堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研究者の目標は、ネットワークにより多くのパラメータ、より多くのトレーニングデータ、より多様なトレーニングタスクを与えるようになったようです。

もちろん、この対策は確かに効果的です。ニューラルネットワークがどんどん大きくなるにつれて、モデルはより多くのデータを理解し、習得し、特定のタスクでは人間を超えています。

しかし、数学的には、現代のニューラルネットワークのサイズは実際には少し肥大化しすぎており、パラメーターの数は予測タスクの要件をはるかに超えることが多く、これは過剰パラメーター化とも呼ばれます。

この現象についての新たな説明が最近、NeurIPS に掲載された論文で提案されました。彼らは、予想よりも大きなこのニューラルネットワークは、特定の基本的な問題を回避するために必要であると信じており、この論文の調査結果は、この問題に対するより一般的な洞察も提供します。

論文アドレス: https://arxiv.org/abs/2105.12806

この記事の筆頭著者である Sébastien Bubeck 氏は、MSR Redmond の Machine Learning Foundation Research Group を管理しており、機械学習と理論コンピュータサイエンスの交差点でさまざまなトピックの研究を行っています。

ニューラルネットワークはこれくらいの大きさであるべきだ

ニューラルネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。

このタスクを実行できるネットワークを作成するために、研究者はまず、多数の画像とそれに対応するオブジェクトラベルを入力し、それらの相関関係を学習するようにトレーニングしました。その後、ネットワークは見た画像内のオブジェクトを正しく識別します。

つまり、トレーニングプロセスにより、ニューラルネットワークはこのデータを記憶することになります。

そして、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのない物体のラベルをさまざまな精度で予測することも可能になります。このプロセスは一般化と呼ばれます。

ネットワークのサイズによって、記憶できる量が決まります。

グラフィカルな空間を使って理解することができます。 2 つのデータポイントがあり、それらを XY 平面上に配置した場合、これらのポイントを、線の傾きと垂直軸と交差する高さという 2 つのパラメーターで記述される線で接続できます。他の誰かが線のパラメータと、元のデータポイントの 1 つの X 座標も知っていれば、線を見て (またはパラメータを使用して) 対応する Y 座標を計算できます。

つまり、ラインはこれら 2 つのデータポイントを記憶しており、ニューラルネットワークも同様のことを行います。

たとえば、画像は各ピクセルに 1 つずつ、数百または数千の数値で記述されます。この多数の自由値の集合は、数学的には高次元空間内の点の座標と同等です。座標の数は次元とも呼ばれます。

従来の数学的結論によれば、曲線を n 個のデータポイントに当てはめるには、n 個のパラメータを持つ関数が必要です。たとえば、線の例では、2 つの点は 2 つのパラメータを持つ曲線によって表されます。

ニューラルネットワークが 1980 年代に新しいモデルとして初めて登場したとき、研究者は、データの次元に関係なく、n 個のデータポイントを適合させるには n 個のパラメーターのみが必要であると信じていました。

テキサス大学オースティン校のアレックス・ディマキス氏は、もはやそうではないと述べている。ニューラルネットワークのパラメータの数はトレーニングサンプルの数をはるかに上回っており、教科書の内容を書き直し、改訂する必要があることを意味している。

研究者たちは、ニューラルネットワークの堅牢性、つまり小さな変化を処理する能力を研究しています。たとえば、堅牢でないネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていないバージョンをスナネズミとして誤って分類する可能性があります。

2019年、ブーベック氏とその同僚はこの問題に関する定理を証明しようとしていたところ、問題がネットワークのサイズに関連していることに気づきました。

研究者らは新たな証明の中で、ネットワークの堅牢性には過剰パラメータ化が必要であることを示している。彼らは、堅牢性に相当する数学的特性を持つ曲線にデータポイントを適合させるために必要なパラメーターの数を示すために、滑らかさを提案しました。

これを理解するには、x 座標がピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線をもう一度想像してください。

曲線は滑らかなので、ピクセルの色をわずかに変更し、曲線に沿って少し移動しても、対応する予測値はわずかにしか変化しません。一方、ギザギザの曲線では、X 座標 (色) の小さな変化が Y 座標 (画像ラベル) の大きな変化につながり、キリンがスナネズミに変わってしまう可能性があります。

Bubeck と Sellke は論文の中で、高次元データポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n×d 個のパラメータが必要であることを示しています。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。

言い換えれば、ネットワークにトレーニングデータを確実に記憶させたい場合、過剰パラメータ化は役立つだけでなく、必要不可欠です。この証明は、高次元幾何学に関する事実に基づいています。球面上にランダムに分布する点は、ほぼ常に互いに直径 1 つ分離れており、点間の間隔が非常に大きいため、滑らかな曲線で点をフィッティングするには、多くの追加パラメータが必要になります。

イェール大学のアミン・カルバシ氏は、この論文の証明が非常に簡潔で、数式をあまり使わず、非常に一般的なことを述べていると称賛した。

この結果は、ニューラルネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新たな方法も提供します。

他の研究では、過剰パラメータ化が役立つ他の理由が明らかになっています。たとえば、トレーニングプロセスをより効率的にし、ネットワークの一般化能力を向上させることもできます。

堅牢性には過剰パラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどの程度必要であるかは明らかではありません。しかし、これを過剰パラメータ化と関連付けることで、新たな証拠は、堅牢性が人々が考えていたよりも重要である可能性があることを示唆しており、大規模モデルの利点を説明する他の研究への道を開く可能性もある。

堅牢性は、一般化の前提条件です。システムを構築し、ほんの少しの混乱でシステムがおかしくなったら、それは一体どのようなシステムなのでしょうか。明らかにそれは無理だ。

したがって、Bubeck 氏は、これは非常に基本的かつ根本的な要件であると考えています。

<<: 「Singularity」AIコンピューティングプラットフォームの詳細を公開！それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

>>: 人工知能分野における神話を再考する