ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデータを補間します。しかし、ディープラーニングにおける不可解な現象は、この古典的な理論が示唆するよりもはるかに多くのパラメータを使用してモデルがトレーニングされることです。

人間のようなタスクを実行するための主要な AI システムであるディープラーニングでは、さまざまな大規模なニューラル ネットワークが頻繁に登場します。パラメータが大きくなるにつれて、ニューラル ネットワークはさまざまなタスクを実行できるようになりました。数学理論によれば、ニューラル ネットワークはタスクを実行するためにそれほど大きくする必要はありません。たとえば、直線 y=2x の場合、この直線を決定するために必要なパラメーターはそれほど多くありません。しかし、現代のニューラル ネットワークは予測要件をはるかに超えて拡張されることが多く、この状態は過剰パラメータ化と呼ばれます

昨年 12 月に NeurIPS に選ばれた論文「等視野測定による堅牢性の普遍法則」の中で、Microsoft Research の Sébastien Bubeck 氏とスタンフォード大学の Mark Sellke 氏は、ニューラル ネットワークの成功した拡張の背後にある謎について新たな説明を行いました。彼らは、特定の基本的な問題を回避するには、ニューラル ネットワークを従来予想されていたよりもはるかに大きくする必要があることを示しています。この調査結果は、数十年来の疑問に対する一般的な洞察を提供するものである。


論文リンク: https://arxiv.org/abs/2105.12806

マーク・セルケとセバスチャン・ブベック

スイス連邦工科大学ローザンヌ校のレンカ・ズデボロヴァ氏は「彼らの研究はコンピューターサイエンスの核心に触れるものだ」と語った。ニューラル ネットワークのサイズの測定基準は、ニューラル ネットワークがデータをどれだけ適切に記憶するかを分析することで得られます。しかし、データメモリを理解するには、まずネットワークの役割を理解する必要があります。

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。このネットワークを作成するには、研究者はまずデータ画像とその注釈を提供し、次に関連するパラメータを学習するようにトレーニングする必要があります。その後、モデルは画像内のオブジェクトを正しく識別できるようになります。つまり、トレーニングによってネットワークにデータを記憶させるのです。さらに注目すべきは、ネットワークが十分なトレーニング データを記憶すると、これまで見たことのないオブジェクトをさまざまな精度で予測できるようになることです。このプロセスは一般化と呼ばれます

ネットワークのサイズによって、記憶できる量が決まります。これは、xy 平面上に配置された 2 つのデータ ポイントを想像することでグラフィカルに理解できます。これら 2 つのポイントは、2 つのパラメータで記述された線で接続できます。この線上の点の座標と元のデータ ポイントの x 座標がわかっている場合は、線を見るだけで (またはパラメーターを使用して) 対応する y 座標を計算できます。なぜなら、ラインはこれら 2 つのデータ ポイントを記憶しているからです。

ニューラルネットワークも同様に動作します。たとえば、画像は数百または数千の値(ピクセルごとに 1 つの値)で表されます。これらの値は数学的には高次元空間における点の座標と同等であり、座標の数は次元と呼ばれます

古い数学的結果によれば、n 個のデータ ポイントを曲線に当てはめるには、n 個のパラメータを持つ関数が必要です。ニューラル ネットワークが 1980 年代に初めて影響力を持つものとして登場したとき、研究者たちは同じ考えを持ち、データの次元に関係なく、ニューラル ネットワークには n 個のデータ ポイントを適合させるのに必要な n 個のパラメーターのみが必要であると主張しました。

「研究が変化した現在では、トレーニング例よりも多くのパラメータを持つニューラルネットワークを作成することがよくあります」とテキサス大学オースティン校のアレックス・ディマキス氏は言う。「つまり、本を書き直す必要があるのです。」

ブーベック氏とセルケ氏は、何かを書き直すつもりはなかった。彼らは、ニューラル ネットワークに欠けている、堅牢性、つまりネットワークが小さな変化を処理する能力と呼ばれる別の特性を調査しています。たとえば、堅牢性の低いネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていない画像をスナネズミとして誤って分類する可能性があります。これがネットワークの堅牢性の効果です。

2019年、ブーベック氏とその同僚は、この問題に関する定理を証明しようとしていたところ、それがネットワークのサイズに関係していることに気づいた。新しい研究によると、ネットワークの堅牢性には過剰パラメータ化が必要であることが示されています。これは、堅牢性と数学的に同等の滑らかさを持つ曲線を使用して、データ ポイントを目的のパラメーターにフィッティングすることによって行われます。

これを確認するには、x 座標が単一のピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線を再度想像してください。曲線は滑らかなので、曲線に沿ってピクセルを少し移動させて色をわずかに変更しても、対応する予測はごくわずかにしか変化しません。一方、極端にギザギザした曲線の場合、x 座標 (色) の小さな変化が y 座標 (画像ラベル) の大幅な変化につながる可能性があり、当初キリンとして識別された画像がスナネズミになる可能性があります。

Bubeck と Sellke は、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n × d 個のパラメータが必要であることを示しました。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。言い換えれば、ニューラル ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は単に役立つだけでなく、絶対に役立ちます。この証明は、高次元幾何学に関する興味深い事実、つまり球面上にランダムに分布する点が、ほぼ常に互いに直径分離れているという事実に基づいています。ポイント間の間隔が大きいということは、ポイントを滑らかな曲線に合わせるには多くの追加パラメータが必要になることを意味します。

「証明は非常に基本的なもので、難しい数学を必要とせず、非常に一般的なことを示している」とイェール大学のアミン・カルバシ氏は語った。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新しい方法を提供します。一方、他の研究では、過剰パラメータ化がトレーニング プロセスの効率やネットワークの一般化能力を向上させるなど、過剰パラメータ化が役立つ理由がさらに明らかになっています。

堅牢性にはオーバーパラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどれほど必要であるかは明らかではありません。これを過剰パラメータ化と関連付けると、新たな証拠は、堅牢性が考えられていたよりも重要であり、多くの利点をもたらす重要な要素である可能性があることを示唆しているようです。

「堅牢性は一般化の前提条件であるようだ」とブベック氏は語った。 「もしシステムがあって、それを少し乱しただけで制御不能に陥るとしたら、それは一体何のシステムなのでしょうか?それは受け入れられませんし、非常に基本的かつ根本的な要件です。」

<<:  AIが自動化に適した日常的なITタスク3つ

>>:  AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

ブログ    
ブログ    

推薦する

ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

1. 背景1.1 ブースティングブースティング[1]は、アンサンブルモデルを訓練するための古典的な手...

...

AIを規制するための答えは何でしょうか?なぜこれが重要なのでしょうか?

AntWorks の共同創設者兼 CEO である Asheesh Mehra 氏が、AI を規制す...

AT&T Business: ゼロトラストは AI アプリケーションのリスクを軽減する万能薬

人工知能(AI)技術は、多くの業界の業務運営モデルを変えつつあります。AIは、多くの人材を面倒な事務...

Keras 対 PyTorch: どちらが「ナンバーワン」のディープラーニング フレームワークでしょうか?

「最初のディープラーニングフレームワークをどのように選択するか」は、初心者にとって常に頭痛の種でし...

...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

[[344160]] AIの実装が加速する中、AIデータのラベリングは人工知能産業の実装における重要...

ドーパミンが来る! Google が新しい強化学習フレームワーク Dopamine を発表

Google は、TensorFlow をベースとし、柔軟性、安定性、再現性、高速ベンチマークを提供...

自動運転データの閉鎖とエンジニアリングの詳細な分析

1 クローズドループコンセプトとR&Dクローズドループ私たちは毎日、クローズドループを扱って...

...

アルゴリズムは偏っているか?他の人よりも優れていればいいのです!

[[241158]]ビッグデータダイジェスト制作編集者: Ni Ni、Chen Tongxue、A...

...