ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデータを補間します。しかし、ディープラーニングにおける不可解な現象は、この古典的な理論が示唆するよりもはるかに多くのパラメータを使用してモデルがトレーニングされることです。

人間のようなタスクを実行するための主要な AI システムであるディープラーニングでは、さまざまな大規模なニューラル ネットワークが頻繁に登場します。パラメータが大きくなるにつれて、ニューラル ネットワークはさまざまなタスクを実行できるようになりました。数学理論によれば、ニューラル ネットワークはタスクを実行するためにそれほど大きくする必要はありません。たとえば、直線 y=2x の場合、この直線を決定するために必要なパラメーターはそれほど多くありません。しかし、現代のニューラル ネットワークは予測要件をはるかに超えて拡張されることが多く、この状態は過剰パラメータ化と呼ばれます

昨年 12 月に NeurIPS に選ばれた論文「等視野測定による堅牢性の普遍法則」の中で、Microsoft Research の Sébastien Bubeck 氏とスタンフォード大学の Mark Sellke 氏は、ニューラル ネットワークの成功した拡張の背後にある謎について新たな説明を行いました。彼らは、特定の基本的な問題を回避するには、ニューラル ネットワークを従来予想されていたよりもはるかに大きくする必要があることを示しています。この調査結果は、数十年来の疑問に対する一般的な洞察を提供するものである。


論文リンク: https://arxiv.org/abs/2105.12806

マーク・セルケとセバスチャン・ブベック

スイス連邦工科大学ローザンヌ校のレンカ・ズデボロヴァ氏は「彼らの研究はコンピューターサイエンスの核心に触れるものだ」と語った。ニューラル ネットワークのサイズの測定基準は、ニューラル ネットワークがデータをどれだけ適切に記憶するかを分析することで得られます。しかし、データメモリを理解するには、まずネットワークの役割を理解する必要があります。

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。このネットワークを作成するには、研究者はまずデータ画像とその注釈を提供し、次に関連するパラメータを学習するようにトレーニングする必要があります。その後、モデルは画像内のオブジェクトを正しく識別できるようになります。つまり、トレーニングによってネットワークにデータを記憶させるのです。さらに注目すべきは、ネットワークが十分なトレーニング データを記憶すると、これまで見たことのないオブジェクトをさまざまな精度で予測できるようになることです。このプロセスは一般化と呼ばれます

ネットワークのサイズによって、記憶できる量が決まります。これは、xy 平面上に配置された 2 つのデータ ポイントを想像することでグラフィカルに理解できます。これら 2 つのポイントは、2 つのパラメータで記述された線で接続できます。この線上の点の座標と元のデータ ポイントの x 座標がわかっている場合は、線を見るだけで (またはパラメーターを使用して) 対応する y 座標を計算できます。なぜなら、ラインはこれら 2 つのデータ ポイントを記憶しているからです。

ニューラルネットワークも同様に動作します。たとえば、画像は数百または数千の値(ピクセルごとに 1 つの値)で表されます。これらの値は数学的には高次元空間における点の座標と同等であり、座標の数は次元と呼ばれます

古い数学的結果によれば、n 個のデータ ポイントを曲線に当てはめるには、n 個のパラメータを持つ関数が必要です。ニューラル ネットワークが 1980 年代に初めて影響力を持つものとして登場したとき、研究者たちは同じ考えを持ち、データの次元に関係なく、ニューラル ネットワークには n 個のデータ ポイントを適合させるのに必要な n 個のパラメーターのみが必要であると主張しました。

「研究が変化した現在では、トレーニング例よりも多くのパラメータを持つニューラルネットワークを作成することがよくあります」とテキサス大学オースティン校のアレックス・ディマキス氏は言う。「つまり、本を書き直す必要があるのです。」

ブーベック氏とセルケ氏は、何かを書き直すつもりはなかった。彼らは、ニューラル ネットワークに欠けている、堅牢性、つまりネットワークが小さな変化を処理する能力と呼ばれる別の特性を調査しています。たとえば、堅牢性の低いネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていない画像をスナネズミとして誤って分類する可能性があります。これがネットワークの堅牢性の効果です。

2019年、ブーベック氏とその同僚は、この問題に関する定理を証明しようとしていたところ、それがネットワークのサイズに関係していることに気づいた。新しい研究によると、ネットワークの堅牢性には過剰パラメータ化が必要であることが示されています。これは、堅牢性と数学的に同等の滑らかさを持つ曲線を使用して、データ ポイントを目的のパラメーターにフィッティングすることによって行われます。

これを確認するには、x 座標が単一のピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線を再度想像してください。曲線は滑らかなので、曲線に沿ってピクセルを少し移動させて色をわずかに変更しても、対応する予測はごくわずかにしか変化しません。一方、極端にギザギザした曲線の場合、x 座標 (色) の小さな変化が y 座標 (画像ラベル) の大幅な変化につながる可能性があり、当初キリンとして識別された画像がスナネズミになる可能性があります。

Bubeck と Sellke は、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n × d 個のパラメータが必要であることを示しました。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。言い換えれば、ニューラル ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は単に役立つだけでなく、絶対に役立ちます。この証明は、高次元幾何学に関する興味深い事実、つまり球面上にランダムに分布する点が、ほぼ常に互いに直径分離れているという事実に基づいています。ポイント間の間隔が大きいということは、ポイントを滑らかな曲線に合わせるには多くの追加パラメータが必要になることを意味します。

「証明は非常に基本的なもので、難しい数学を必要とせず、非常に一般的なことを示している」とイェール大学のアミン・カルバシ氏は語った。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新しい方法を提供します。一方、他の研究では、過剰パラメータ化がトレーニング プロセスの効率やネットワークの一般化能力を向上させるなど、過剰パラメータ化が役立つ理由がさらに明らかになっています。

堅牢性にはオーバーパラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどれほど必要であるかは明らかではありません。これを過剰パラメータ化と関連付けると、新たな証拠は、堅牢性が考えられていたよりも重要であり、多くの利点をもたらす重要な要素である可能性があることを示唆しているようです。

「堅牢性は一般化の前提条件であるようだ」とブベック氏は語った。 「もしシステムがあって、それを少し乱しただけで制御不能に陥るとしたら、それは一体何のシステムなのでしょうか?それは受け入れられませんし、非常に基本的かつ根本的な要件です。」

<<:  AIが自動化に適した日常的なITタスク3つ

>>:  AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

推薦する

11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

導入データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私は...

暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明

[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...

自動運転ユニコーンは詐欺的すぎて、ルカン氏でさえ確信している

これは普通の自動運転ビデオだと思いますか?写真いいえ、いいえ、いいえ...これは実際には AI によ...

ソフトウェアが自動車を飲み込んでいる、伝統的な自動車産業は消滅の危機に瀕しているのでしょうか?

[[440100]]半導体チップの継続的な不足が世界の自動車生産の減少につながるとの予測が高まって...

MITの人工知能研究室で1年間働いて学んだ5つのこと

Mike Ferguson は、MIT 脳認知科学部 (MIT BCS) の研究ソフトウェア エンジ...

...

...

Raspberry Pi の「リス対策アーティファクト」が Reddit で人気に。13 行のコードで AI があなたの代わりに食べ物を守れる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2020年のサイバーセキュリティの転換点: 人工知能

先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する:オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習は2021年にこれらの5つの業界を変革するだろう

機械学習は、COVID-19 によって揺さぶられた世界におけるスムーズな移行を可能にしています。機械...

Javaの組み込みソートアルゴリズムをどうやって克服したか

Java 8 では、組み込みのソート アルゴリズムが大幅に最適化されました。整数やその他のプリミティ...

人力資源社会保障省は、人工知能トレーナーを含む16の新しい職業を最終候補者に発表する予定である。

Chinanews.com 1月2日(李金磊)人力資源・社会保障部の承認を得て、中国就業訓練技術指...

ディープラーニングの次に来るものは何でしょうか?

[[343995]]ビッグデータダイジェスト制作出典: datasciencecentral編集者...