ニューラルネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデータを補間します。しかし、ディープラーニングにおける不可解な現象は、この古典的な理論が示唆するよりもはるかに多くのパラメータを使用してモデルがトレーニングされることです。

人間のようなタスクを実行するための主要な AI システムであるディープラーニングでは、さまざまな大規模なニューラルネットワークが頻繁に登場します。パラメータが大きくなるにつれて、ニューラルネットワークはさまざまなタスクを実行できるようになりました。数学理論によれば、ニューラルネットワークはタスクを実行するためにそれほど大きくする必要はありません。たとえば、直線 y=2x の場合、この直線を決定するために必要なパラメーターはそれほど多くありません。しかし、現代のニューラルネットワークは予測要件をはるかに超えて拡張されることが多く、この状態は過剰パラメータ化と呼ばれます。

昨年 12 月に NeurIPS に選ばれた論文「等視野測定による堅牢性の普遍法則」の中で、Microsoft Research の Sébastien Bubeck 氏とスタンフォード大学の Mark Sellke 氏は、ニューラルネットワークの成功した拡張の背後にある謎について新たな説明を行いました。彼らは、特定の基本的な問題を回避するには、ニューラルネットワークを従来予想されていたよりもはるかに大きくする必要があることを示しています。この調査結果は、数十年来の疑問に対する一般的な洞察を提供するものである。

論文リンク: https://arxiv.org/abs/2105.12806

マーク・セルケとセバスチャン・ブベック

スイス連邦工科大学ローザンヌ校のレンカ・ズデボロヴァ氏は「彼らの研究はコンピューターサイエンスの核心に触れるものだ」と語った。ニューラルネットワークのサイズの測定基準は、ニューラルネットワークがデータをどれだけ適切に記憶するかを分析することで得られます。しかし、データメモリを理解するには、まずネットワークの役割を理解する必要があります。

ニューラルネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。このネットワークを作成するには、研究者はまずデータ画像とその注釈を提供し、次に関連するパラメータを学習するようにトレーニングする必要があります。その後、モデルは画像内のオブジェクトを正しく識別できるようになります。つまり、トレーニングによってネットワークにデータを記憶させるのです。さらに注目すべきは、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのないオブジェクトをさまざまな精度で予測できるようになることです。このプロセスは一般化と呼ばれます。

ネットワークのサイズによって、記憶できる量が決まります。これは、xy 平面上に配置された 2 つのデータポイントを想像することでグラフィカルに理解できます。これら 2 つのポイントは、2 つのパラメータで記述された線で接続できます。この線上の点の座標と元のデータポイントの x 座標がわかっている場合は、線を見るだけで (またはパラメーターを使用して) 対応する y 座標を計算できます。なぜなら、ラインはこれら 2 つのデータポイントを記憶しているからです。

ニューラルネットワークも同様に動作します。たとえば、画像は数百または数千の値（ピクセルごとに 1 つの値）で表されます。これらの値は数学的には高次元空間における点の座標と同等であり、座標の数は次元と呼ばれます。

古い数学的結果によれば、n 個のデータポイントを曲線に当てはめるには、n 個のパラメータを持つ関数が必要です。ニューラルネットワークが 1980 年代に初めて影響力を持つものとして登場したとき、研究者たちは同じ考えを持ち、データの次元に関係なく、ニューラルネットワークには n 個のデータポイントを適合させるのに必要な n 個のパラメーターのみが必要であると主張しました。

「研究が変化した現在では、トレーニング例よりも多くのパラメータを持つニューラルネットワークを作成することがよくあります」とテキサス大学オースティン校のアレックス・ディマキス氏は言う。「つまり、本を書き直す必要があるのです。」

ブーベック氏とセルケ氏は、何かを書き直すつもりはなかった。彼らは、ニューラルネットワークに欠けている、堅牢性、つまりネットワークが小さな変化を処理する能力と呼ばれる別の特性を調査しています。たとえば、堅牢性の低いネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていない画像をスナネズミとして誤って分類する可能性があります。これがネットワークの堅牢性の効果です。

2019年、ブーベック氏とその同僚は、この問題に関する定理を証明しようとしていたところ、それがネットワークのサイズに関係していることに気づいた。新しい研究によると、ネットワークの堅牢性には過剰パラメータ化が必要であることが示されています。これは、堅牢性と数学的に同等の滑らかさを持つ曲線を使用して、データポイントを目的のパラメーターにフィッティングすることによって行われます。

これを確認するには、x 座標が単一のピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線を再度想像してください。曲線は滑らかなので、曲線に沿ってピクセルを少し移動させて色をわずかに変更しても、対応する予測はごくわずかにしか変化しません。一方、極端にギザギザした曲線の場合、x 座標 (色) の小さな変化が y 座標 (画像ラベル) の大幅な変化につながる可能性があり、当初キリンとして識別された画像がスナネズミになる可能性があります。

Bubeck と Sellke は、高次元データポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n × d 個のパラメータが必要であることを示しました。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。言い換えれば、ニューラルネットワークにトレーニングデータを確実に記憶させたい場合、過剰パラメータ化は単に役立つだけでなく、絶対に役立ちます。この証明は、高次元幾何学に関する興味深い事実、つまり球面上にランダムに分布する点が、ほぼ常に互いに直径分離れているという事実に基づいています。ポイント間の間隔が大きいということは、ポイントを滑らかな曲線に合わせるには多くの追加パラメータが必要になることを意味します。

「証明は非常に基本的なもので、難しい数学を必要とせず、非常に一般的なことを示している」とイェール大学のアミン・カルバシ氏は語った。

この結果は、ニューラルネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新しい方法を提供します。一方、他の研究では、過剰パラメータ化がトレーニングプロセスの効率やネットワークの一般化能力を向上させるなど、過剰パラメータ化が役立つ理由がさらに明らかになっています。

堅牢性にはオーバーパラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどれほど必要であるかは明らかではありません。これを過剰パラメータ化と関連付けると、新たな証拠は、堅牢性が考えられていたよりも重要であり、多くの利点をもたらす重要な要素である可能性があることを示唆しているようです。

「堅牢性は一般化の前提条件であるようだ」とブベック氏は語った。「もしシステムがあって、それを少し乱しただけで制御不能に陥るとしたら、それは一体何のシステムなのでしょうか？それは受け入れられませんし、非常に基本的かつ根本的な要件です。」

<<: AIが自動化に適した日常的なITタスク3つ

>>: AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

ニューラルネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

機械学習エンジニアに必要な 5 つのソフトスキル

ブロックチェーン技術は人工知能の欠点をどのように解決できるのでしょうか?

WeiboにおけるSparkベースの大規模機械学習の応用

プロセス産業におけるグリーン製造における人工知能の機会と課題

神州太悦：インテリジェントセマンティック産業プラットフォームが正式に開始、無料かつオープンなセマンティック基本サービス

テンセント・ロボティクス・ラボの第一人者が起業、ヒューマノイドロボット業界に新たな重鎮が加わる

ディープラーニングの3つの主なステップ！

推薦する

2017 年に注目すべき人工知能の 7 つのホットなトレンド

機械学習の実践: Spark と Python を組み合わせるには?

5G時代には人工知能が人を殺し始めるのでしょうか？

マスク氏は5年以内に人間の言語を無意味にするだろうと言っているが、今回は狂気ではないかもしれない

OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

2020 年に注目すべき 4 つのエンタープライズ AR トレンド

米メディア予測：2021年の人工知能の4大トレンド

2019 年のトップ 5 ディープラーニングコース

ソフトウェア開発者の生産性を測定する価値はあるでしょうか?

自動運転車におけるサイバーセキュリティの役割

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

人工知能の開発を加速するための9つのヒント

マイクロソフトは下書きを数秒でアプリに変換し、Mac Miniのようなミニデスクトップコンピューターを発売

サイバーセキュリティにおける AI に関する 3 つの誤解