ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデータを補間します。しかし、ディープラーニングにおける不可解な現象は、この古典的な理論が示唆するよりもはるかに多くのパラメータを使用してモデルがトレーニングされることです。

人間のようなタスクを実行するための主要な AI システムであるディープラーニングでは、さまざまな大規模なニューラル ネットワークが頻繁に登場します。パラメータが大きくなるにつれて、ニューラル ネットワークはさまざまなタスクを実行できるようになりました。数学理論によれば、ニューラル ネットワークはタスクを実行するためにそれほど大きくする必要はありません。たとえば、直線 y=2x の場合、この直線を決定するために必要なパラメーターはそれほど多くありません。しかし、現代のニューラル ネットワークは予測要件をはるかに超えて拡張されることが多く、この状態は過剰パラメータ化と呼ばれます

昨年 12 月に NeurIPS に選ばれた論文「等視野測定による堅牢性の普遍法則」の中で、Microsoft Research の Sébastien Bubeck 氏とスタンフォード大学の Mark Sellke 氏は、ニューラル ネットワークの成功した拡張の背後にある謎について新たな説明を行いました。彼らは、特定の基本的な問題を回避するには、ニューラル ネットワークを従来予想されていたよりもはるかに大きくする必要があることを示しています。この調査結果は、数十年来の疑問に対する一般的な洞察を提供するものである。


論文リンク: https://arxiv.org/abs/2105.12806

マーク・セルケとセバスチャン・ブベック

スイス連邦工科大学ローザンヌ校のレンカ・ズデボロヴァ氏は「彼らの研究はコンピューターサイエンスの核心に触れるものだ」と語った。ニューラル ネットワークのサイズの測定基準は、ニューラル ネットワークがデータをどれだけ適切に記憶するかを分析することで得られます。しかし、データメモリを理解するには、まずネットワークの役割を理解する必要があります。

ニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。このネットワークを作成するには、研究者はまずデータ画像とその注釈を提供し、次に関連するパラメータを学習するようにトレーニングする必要があります。その後、モデルは画像内のオブジェクトを正しく識別できるようになります。つまり、トレーニングによってネットワークにデータを記憶させるのです。さらに注目すべきは、ネットワークが十分なトレーニング データを記憶すると、これまで見たことのないオブジェクトをさまざまな精度で予測できるようになることです。このプロセスは一般化と呼ばれます

ネットワークのサイズによって、記憶できる量が決まります。これは、xy 平面上に配置された 2 つのデータ ポイントを想像することでグラフィカルに理解できます。これら 2 つのポイントは、2 つのパラメータで記述された線で接続できます。この線上の点の座標と元のデータ ポイントの x 座標がわかっている場合は、線を見るだけで (またはパラメーターを使用して) 対応する y 座標を計算できます。なぜなら、ラインはこれら 2 つのデータ ポイントを記憶しているからです。

ニューラルネットワークも同様に動作します。たとえば、画像は数百または数千の値(ピクセルごとに 1 つの値)で表されます。これらの値は数学的には高次元空間における点の座標と同等であり、座標の数は次元と呼ばれます

古い数学的結果によれば、n 個のデータ ポイントを曲線に当てはめるには、n 個のパラメータを持つ関数が必要です。ニューラル ネットワークが 1980 年代に初めて影響力を持つものとして登場したとき、研究者たちは同じ考えを持ち、データの次元に関係なく、ニューラル ネットワークには n 個のデータ ポイントを適合させるのに必要な n 個のパラメーターのみが必要であると主張しました。

「研究が変化した現在では、トレーニング例よりも多くのパラメータを持つニューラルネットワークを作成することがよくあります」とテキサス大学オースティン校のアレックス・ディマキス氏は言う。「つまり、本を書き直す必要があるのです。」

ブーベック氏とセルケ氏は、何かを書き直すつもりはなかった。彼らは、ニューラル ネットワークに欠けている、堅牢性、つまりネットワークが小さな変化を処理する能力と呼ばれる別の特性を調査しています。たとえば、堅牢性の低いネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていない画像をスナネズミとして誤って分類する可能性があります。これがネットワークの堅牢性の効果です。

2019年、ブーベック氏とその同僚は、この問題に関する定理を証明しようとしていたところ、それがネットワークのサイズに関係していることに気づいた。新しい研究によると、ネットワークの堅牢性には過剰パラメータ化が必要であることが示されています。これは、堅牢性と数学的に同等の滑らかさを持つ曲線を使用して、データ ポイントを目的のパラメーターにフィッティングすることによって行われます。

これを確認するには、x 座標が単一のピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線を再度想像してください。曲線は滑らかなので、曲線に沿ってピクセルを少し移動させて色をわずかに変更しても、対応する予測はごくわずかにしか変化しません。一方、極端にギザギザした曲線の場合、x 座標 (色) の小さな変化が y 座標 (画像ラベル) の大幅な変化につながる可能性があり、当初キリンとして識別された画像がスナネズミになる可能性があります。

Bubeck と Sellke は、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n × d 個のパラメータが必要であることを示しました。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。言い換えれば、ニューラル ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は単に役立つだけでなく、絶対に役立ちます。この証明は、高次元幾何学に関する興味深い事実、つまり球面上にランダムに分布する点が、ほぼ常に互いに直径分離れているという事実に基づいています。ポイント間の間隔が大きいということは、ポイントを滑らかな曲線に合わせるには多くの追加パラメータが必要になることを意味します。

「証明は非常に基本的なもので、難しい数学を必要とせず、非常に一般的なことを示している」とイェール大学のアミン・カルバシ氏は語った。

この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新しい方法を提供します。一方、他の研究では、過剰パラメータ化がトレーニング プロセスの効率やネットワークの一般化能力を向上させるなど、過剰パラメータ化が役立つ理由がさらに明らかになっています。

堅牢性にはオーバーパラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどれほど必要であるかは明らかではありません。これを過剰パラメータ化と関連付けると、新たな証拠は、堅牢性が考えられていたよりも重要であり、多くの利点をもたらす重要な要素である可能性があることを示唆しているようです。

「堅牢性は一般化の前提条件であるようだ」とブベック氏は語った。 「もしシステムがあって、それを少し乱しただけで制御不能に陥るとしたら、それは一体何のシステムなのでしょうか?それは受け入れられませんし、非常に基本的かつ根本的な要件です。」

<<:  AIが自動化に適した日常的なITタスク3つ

>>:  AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

ブログ    
ブログ    

推薦する

2017 年に注目すべき人工知能の 7 つのホットなトレンド

海外メディアの報道によると、今年の人工知能(AI)の注目トレンドは何でしょうか?業界アナリストの意見...

機械学習の実践: Spark と Python を組み合わせるには?

Apache Sparkはビッグデータの処理や活用に最も広く使われているフレームワークの一つであり...

5G時代には人工知能が人を殺し始めるのでしょうか?

映画やテレビ作品では、人工知能による殺人はごく普通のことのように思えますが、結局のところ、それは人間...

マスク氏は5年以内に人間の言語を無意味にするだろうと言っているが、今回は狂気ではないかもしれない

イーロン・マスク氏は、わずか5年で人間の言語を無意味にすることができる技術に取り組んでいると述べてい...

OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

2023年末、ニューヨーク・タイムズはマイクロソフトとOpenAIを訴えるための強力な証拠を提示し...

2020 年に注目すべき 4 つのエンタープライズ AR トレンド

AR テクノロジーは消費者向け分野ではそれほど優れた成果を上げていませんが、ビジネス界では好まれてい...

米メディア予測:2021年の人工知能の4大トレンド

9月21日、米フォーブス隔週刊ウェブサイトは「2021年の人工知能の4大トレンド」と題するレポートを...

2019 年のトップ 5 ディープラーニング コース

現在、ディープラーニングはデータサイエンスの分野で最も人気のあるスキルとなっています。ディープラーニ...

...

ソフトウェア開発者の生産性を測定する価値はあるでしょうか?

ほとんどの企業はデジタル戦略に取り組んでおり、従業員の生産性を向上させる方法を模索していますが、同時...

自動運転車におけるサイバーセキュリティの役割

自動車業界は、安全性、持続可能性、接続性、全体的なユーザーエクスペリエンスを向上させるソフトウェアの...

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ...

人工知能の開発を加速するための9つのヒント

現在、多くの企業が AI テクノロジーで一定の成功を収めており、IT チームは AI プロジェクトを...

マイクロソフトは下書きを数秒でアプリに変換し、Mac Miniのようなミニデスクトップコンピューターを発売

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

サイバーセキュリティにおける AI に関する 3 つの誤解

フィクションでも映画でも、人工知能は何十年にもわたって魅力的なテーマであり続けています。フィリップ・...