ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研究者の目標は、ネットワークにより多くのパラメータ、より多くのトレーニングデータ、より多様なトレーニングタスクを与えるようになったようです。 もちろん、この対策は確かに効果的です。ニューラル ネットワークがどんどん大きくなるにつれて、モデルはより多くのデータを理解し、習得し、特定のタスクでは人間を超えています。 しかし、数学的には、現代のニューラル ネットワークのサイズは実際には少し肥大化しすぎており、パラメーターの数は予測タスクの要件をはるかに超えることが多く、これは過剰パラメーター化とも呼ばれます。 この現象についての新たな説明が最近、NeurIPS に掲載された論文で提案されました。彼らは、予想よりも大きなこのニューラル ネットワークは、特定の基本的な問題を回避するために必要であると信じており、この論文の調査結果は、この問題に対するより一般的な洞察も提供します。 論文アドレス: https://arxiv.org/abs/2105.12806 この記事の筆頭著者である Sébastien Bubeck 氏は、MSR Redmond の Machine Learning Foundation Research Group を管理しており、機械学習と理論コンピュータサイエンスの交差点でさまざまなトピックの研究を行っています。 ニューラルネットワークはこれくらいの大きさであるべきだニューラル ネットワークの一般的なタスクは、画像内のオブジェクトを認識することです。 このタスクを実行できるネットワークを作成するために、研究者はまず、多数の画像とそれに対応するオブジェクト ラベルを入力し、それらの相関関係を学習するようにトレーニングしました。その後、ネットワークは見た画像内のオブジェクトを正しく識別します。 つまり、トレーニング プロセスにより、ニューラル ネットワークはこのデータを記憶することになります。 そして、ネットワークが十分なトレーニングデータを記憶すると、これまで見たことのない物体のラベルをさまざまな精度で予測することも可能になります。このプロセスは一般化と呼ばれます。 ネットワークのサイズによって、記憶できる量が決まります。 グラフィカルな空間を使って理解することができます。 2 つのデータ ポイントがあり、それらを XY 平面上に配置した場合、これらのポイントを、線の傾きと垂直軸と交差する高さという 2 つのパラメーターで記述される線で接続できます。他の誰かが線のパラメータと、元のデータ ポイントの 1 つの X 座標も知っていれば、線を見て (またはパラメータを使用して) 対応する Y 座標を計算できます。 つまり、ラインはこれら 2 つのデータ ポイントを記憶しており、ニューラル ネットワークも同様のことを行います。 たとえば、画像は各ピクセルに 1 つずつ、数百または数千の数値で記述されます。この多数の自由値の集合は、数学的には高次元空間内の点の座標と同等です。座標の数は次元とも呼ばれます。 従来の数学的結論によれば、曲線を n 個のデータ ポイントに当てはめるには、n 個のパラメータを持つ関数が必要です。たとえば、線の例では、2 つの点は 2 つのパラメータを持つ曲線によって表されます。 ニューラル ネットワークが 1980 年代に新しいモデルとして初めて登場したとき、研究者は、データの次元に関係なく、n 個のデータ ポイントを適合させるには n 個のパラメーターのみが必要であると信じていました。 テキサス大学オースティン校のアレックス・ディマキス氏は、もはやそうではないと述べている。ニューラルネットワークのパラメータの数はトレーニングサンプルの数をはるかに上回っており、教科書の内容を書き直し、改訂する必要があることを意味している。 研究者たちは、ニューラル ネットワークの堅牢性、つまり小さな変化を処理する能力を研究しています。たとえば、堅牢でないネットワークはキリンを認識するように学習したかもしれませんが、ほとんど変更されていないバージョンをスナネズミとして誤って分類する可能性があります。 2019年、ブーベック氏とその同僚はこの問題に関する定理を証明しようとしていたところ、問題がネットワークのサイズに関連していることに気づきました。 研究者らは新たな証明の中で、ネットワークの堅牢性には過剰パラメータ化が必要であることを示している。彼らは、堅牢性に相当する数学的特性を持つ曲線にデータ ポイントを適合させるために必要なパラメーターの数を示すために、滑らかさを提案しました。 これを理解するには、x 座標がピクセルの色を表し、y 座標が画像ラベルを表す平面上の曲線をもう一度想像してください。 曲線は滑らかなので、ピクセルの色をわずかに変更し、曲線に沿って少し移動しても、対応する予測値はわずかにしか変化しません。一方、ギザギザの曲線では、X 座標 (色) の小さな変化が Y 座標 (画像ラベル) の大きな変化につながり、キリンがスナネズミに変わってしまう可能性があります。 Bubeck と Sellke は論文の中で、高次元データ ポイントのスムーズなフィッティングには n 個のパラメータだけでなく、n×d 個のパラメータが必要であることを示しています。ここで、d は入力の次元です (たとえば、784 ピクセルの画像の場合は 784)。 言い換えれば、ネットワークにトレーニング データを確実に記憶させたい場合、過剰パラメータ化は役立つだけでなく、必要不可欠です。この証明は、高次元幾何学に関する事実に基づいています。球面上にランダムに分布する点は、ほぼ常に互いに直径 1 つ分離れており、点間の間隔が非常に大きいため、滑らかな曲線で点をフィッティングするには、多くの追加パラメータが必要になります。 イェール大学のアミン・カルバシ氏は、この論文の証明が非常に簡潔で、数式をあまり使わず、非常に一般的なことを述べていると称賛した。 この結果は、ニューラル ネットワークをスケールアップするための単純な戦略がなぜそれほど効果的なのかを理解するための新たな方法も提供します。 他の研究では、過剰パラメータ化が役立つ他の理由が明らかになっています。たとえば、トレーニング プロセスをより効率的にし、ネットワークの一般化能力を向上させることもできます。 堅牢性には過剰パラメータ化が必要であることはわかっていますが、堅牢性が他の事柄にどの程度必要であるかは明らかではありません。しかし、これを過剰パラメータ化と関連付けることで、新たな証拠は、堅牢性が人々が考えていたよりも重要である可能性があることを示唆しており、大規模モデルの利点を説明する他の研究への道を開く可能性もある。 堅牢性は、一般化の前提条件です。システムを構築し、ほんの少しの混乱でシステムがおかしくなったら、それは一体どのようなシステムなのでしょうか。明らかにそれは無理だ。 したがって、Bubeck 氏は、これは非常に基本的かつ根本的な要件であると考えています。 |
<<: 「Singularity」AIコンピューティングプラットフォームの詳細を公開!それは4年前のマイクロソフトの古いプロジェクトの復活であることが判明した
AI がまた本を出版しました。今回は専門家向けの教科書です。科学技術系出版社のひとつ、ドイツのシュ...
近年、マシンビジョンの成熟度が増すにつれ、マシンビジョン評価やイメージング能力評価が徐々に導入されて...
[51CTO.com からのオリジナル記事] 入れ墨は、秦と漢の時代に広く使用されていた刑法の一種で...
将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...
感染予防・抑制の過程では、高リスクグループとスーパースプレッダーを迅速に特定し、感染の進行状況を正確...
[[381013]]人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、...
[[121078]]アルゴリズムは今日の私たちの生活にとって非常に重要なので、いくら強調してもし過ぎ...
テクノロジーへの関心と導入が多様化するにつれ、多くの企業が将来の進路を決める岐路に立たされています。...
教育は知識を伝える社会的活動として、国の人材育成システムや経済発展に影響を与え、国家の繁栄を促進しま...
人工知能により、認知能力は高いが表現能力が限られている人でも、自分の考えを表現したり、物語を創作した...
ブルームバーグとインテル研究所の研究者2人が、遺伝的アルゴリズムとチューリング完全な言語を使用して、...
Stable Diffusion は 11 か月前に誕生し、消費者向け GPU で実行できるという...
Python は画像やビデオから顔を検出して認識できます。顔の検出と認識は、コンピューター ビジョ...
[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...