ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研究者の目標は、ネットワークにより多くのパラメータ、より多くのトレーニングデータ、より多様なトレーニングタスクを与えるようになったようです。

もちろん、この対策は確かに効果的です。ニューラル ネットワークがどんどん大きくなるにつれて、モデルはより多くのデータを理解し、習得し、特定のタスクでは人間を超えています。

しかし、数学的には、現代のニューラル ネットワークのサイズは実際には少し肥大化しすぎており、パラメーターの数は予測タスクの要件をはるかに超えることが多く、これは過剰パラメーター化とも呼ばれます。

この現象についての新たな説明が最近、NeurIPS に掲載された論文で提案されました。彼らは、予想よりも大きなこのニューラル ネットワークは、特定の基本的な問題を回避するために必要であると信じており、この論文の調査結果は、この問題に対するより一般的な洞察も提供します。

論文アドレス: https://arxiv.org/abs/2105.12806

この記事の筆頭著者である Sébastien Bubeck 氏は、MSR Redmond の Machine Learning Foundation Research Group を管理しており、機械学習と理論コンピュータサイエンスの交差点でさまざまなトピックの研究を行っています。

ニューラルネットワークはこれくらいの大きさであるべきだ

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。

このタスクを実行できるネットワークを作成するために、研究者はまず、多数の画像とそれに対応するオブジェクト ラベルを入力し、それらの相関関係を学習するようにトレーニングしました。その後、ネットワークは見た画像内のオブジェクトを正しく識別します。

つまり、トレーニング プロセスにより、ニューラル ネットワークはこのデータを記憶することになります。

そして、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのない物体のラベルをさまざまな精度で予測することも可能になります。このプロセスは一般化と呼ばれます。

ネットワークのサイズによって、記憶できる量が決まります。

グラフィカルな空間を使って理解することができます。 2 つのデータ ポイントがあり、それらを XY 平面上に配置した場合、これらのポイントを、線の傾きと垂直軸と交差する高さという 2 つのパラメーターで記述される線で接続できます。他の誰かが線のパラメータと、元のデータ ポイントの 1 つの X 座標も知っていれば、線を見て (またはパラメータを使用して) 対応する Y 座標を計算できます。

つまり、ラインはこれら 2 つのデータ ポイントを記憶しており、ニューラル ネットワークも同様のことを行います。

たとえば、画像は各ピクセルに 1 つずつ、数百または数千の数値で記述されます。この多数の自由値の集合は、数学的には高次元空間内の点の座標と同等です。座標の数は次元とも呼ばれます。

従来の数学的結論によれば、曲線を n 個のデータ ポイントに当てはめるには、n 個のパラメータを持つ関数が必要です。たとえば、線の例では、2 つの点は 2 つのパラメータを持つ曲線によって表されます。

ニューラル ネットワークが 1980 年代に新しいモデルとして初めて登場したとき、研究者は、データの次元に関係なく、n 個のデータ ポイントを適合させるには n 個のパラメーターのみが必要であると信じていました。

テキサス大学オースティン校のアレックス・ディマキス氏は、もはやそうではないと述べている。ニューラルネットワークのパラメータの数はトレーニングサンプルの数をはるかに上回っており、教科書の内容を書き直し、改訂する必要があることを意味している。

研究者たちは、ニューラル ネットワークの堅牢性、つまり小さな変化を処理する能力を研究しています。たとえば、堅牢でないネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていないバージョンをスナネズミとして誤って分類する可能性があります。

2019年、ブーベック氏とその同僚はこの問題に関する定理を証明しようとしていたところ、問題がネットワークのサイズに関連していることに気づきました。

研究者らは新たな証明の中で、ネットワークの堅牢性には過剰パラメータ化が必要であることを示している。彼らは、堅牢性に相当する数学的特性を持つ曲線にデータ ポイントを適合させるために必要なパラメーターの数を示すために、滑らかさを提案しました。

これを理解するには、x 座標がピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線をもう一度想像してください。

曲線は滑らかなので、ピクセルの色をわずかに変更し、曲線に沿って少し移動しても、対応する予測値はわずかにしか変化しません。一方、ギザギザの曲線では、X 座標 (色) の小さな変化が Y 座標 (画像ラベル) の大きな変化につながり、キリンがスナネズミに変わってしまう可能性があります。

Bubeck と Sellke は論文の中で、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n×d 個のパラメータが必要であることを示しています。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。

言い換えれば、ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は役立つだけでなく、必要不可欠です。この証明は、高次元幾何学に関する事実に基づいています。球面上にランダムに分布する点は、ほぼ常に互いに直径 1 つ分離れており、点間の間隔が非常に大きいため、滑らかな曲線で点をフィッティングするには、多くの追加パラメータが必要になります。

イェール大学のアミン・カルバシ氏は、この論文の証明が非常に簡潔で、数式をあまり使わず、非常に一般的なことを述べていると称賛した。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新たな方法も提供します。

他の研究では、過剰パラメータ化が役立つ他の理由が明らかになっています。たとえば、トレーニング プロセスをより効率的にし、ネットワークの一般化能力を向上させることもできます。

堅牢性には過剰パラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどの程度必要であるかは明らかではありません。しかし、これを過剰パラメータ化と関連付けることで、新たな証拠は、堅牢性が人々が考えていたよりも重要である可能性があることを示唆しており、大規模モデルの利点を説明する他の研究への道を開く可能性もある。

堅牢性は、一般化の前提条件です。システムを構築し、ほんの少しの混乱でシステムがおかしくなったら、それは一体どのようなシステムなのでしょうか。明らかにそれは無理だ。

したがって、Bubeck 氏は、これは非常に基本的かつ根本的な要件であると考えています。

<<:  「Singularity」AIコンピューティングプラットフォームの詳細を公開!それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した

>>:  人工知能分野における神話を再考する

ブログ    

推薦する

...

...

...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

LK99最新ニュース:完全停止の難しさ、韓国の著者は「超伝導が唯一の可能な説明」と述べ、インドチームは3回の失敗で断念

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転車が「すべての人を助ける」ことができるようになるには、15の課題を乗り越える必要がある

[[251351]]自動運転車の将来は、交通手段に革命を起こすと予測されていた電動スクーターの歴史と...

人工知能と機械学習の違いは何ですか?

[[210283]]人工知能 (AI) と機械学習 (ML) は、現在非常に注目されている流行語で...

懸念にもかかわらず、CIOはAIGCの利点を探求し、活用し続けています。

OpenAIは2022年11月にChatGPTをリリースし、その後Microsoftから100億ド...

「Painted Skin」の悪夢が現実に? 「人間の皮膚」で覆われたこのロボットはCell誌に掲載された。

指が背中をゆっくりと優しくなぞり、背骨に沿って上へ移動し、そしてゆっくりと止まるところを想像してくだ...

Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

馬氏は数日前にAIを使って宇宙の本質を探究することを目的としたAI企業xAIを発表したばかりだ。幸運...

技術者がAIを活用してキャリアを守る方法

「自動化」や「人工知能(AI)」などの「技術革新」がビジネスや仕事の本質を変えていることは間違いあり...

「アルゴリズムとデータ構造」二分木の美しさ

[[349809]]序文今回レビューする内容は、データ構造トピックの「ツリー」です。ツリーなどのデー...

ラマ2 ビッグバン!バークレーは実機テストで8位、iPhoneでローカル実行可能、多数のアプリが無料でプレイ可能、ルカンも夢中

昨日、Meta は Llama 2 の無料商用バージョンをリリースし、再びオープンソース コミュニテ...

回答 2024: 生成 AI は「スーパー アプリ」になるか?

ゲスト: 陳斌、黄文馨ホスト | ユン・チャオノア著制作:51CTO テクノロジースタック(WeCh...

すごい...正義のために親族を殺す? Google AI、米国の月面着陸写真は偽物だと判定

1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...