普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]

以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏のツイートが多くのネットユーザーの間で議論を呼んだ。

ツイートの中で、ルカン氏はこう述べている。「ディープラーニングは、カーブフィッティングによって生成される補間に過ぎないので、皆さんが考えるほど素晴らしいものではありません。しかし、高次元空間では、補間というものは存在しません。高次元空間では、すべてが外挿なのです。」

ルカン氏が転送した内容は、ハーバード大学の認知科学者スティーブン・ピンカー氏のツイートから引用したもの。ピンカー氏は「普遍近似定理は、ニューラルネットワークがなぜ機能し、なぜ機能しないことが多いのかをうまく説明している。アンドレ・イエ氏の普遍近似定理を理解することによってのみ、ニューラルネットワークを理解できる」と述べた。

ピンカーが言及したアンドレ・イェは、次に紹介する論文「普遍近似定理を理解するまでニューラルネットワークを理解することはできない」の著者です。この記事は昨年のものですが、ニューラルネットワークを理解する上で非常に重要な役割を果たします。

人工ニューラルネットワークの数学的理論では、普遍近似定理 (または普遍近似定理) は、人工ニューラルネットワークが任意の関数を近似する能力を指摘しています。通常、この定理で参照されるニューラルネットワークはフィードフォワードニューラルネットワークであり、近似される目的関数は通常、入力と出力の両方がユークリッド空間にある連続関数です。ただし、この定理を畳み込みニューラルネットワーク、ラジアル基底関数ネットワーク、その他の特殊なニューラルネットワークなど、他の種類のニューラルネットワークに拡張する研究もあります。

この定理は、ニューラルネットワークを使用して任意の複雑な関数を近似し、任意の精度の近似を達成できることを意味します。しかし、近似したい目的関数を達成するためにニューラルネットワークパラメータ (重み、ニューロン数、ニューラル層数など) を選択する方法については説明されていません。

1989 年、ジョージ・サイベンコは、単一の隠れ層と任意の幅を持ち、活性化関数として S 関数を使用するフィードフォワードニューラルネットワークの普遍近似定理を初めて提案し、証明しました。 2 年後の 1991 年、Kurt Hornik は、活性化関数の選択が重要ではなく、フィードフォワードニューラルネットワークの多層ニューラル層とマルチニューロンアーキテクチャが、ニューラルネットワークを汎用近似器にするための鍵であることを発見しました。

最も重要なのは、この定理がニューラルネットワークがなぜそれほどインテリジェントに動作するように見えるのかを説明していることです。これを理解することは、ニューラルネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな（有限で閉じた）集合上の任意の連続関数は、区分関数によって近似できます。 -3 から 3 までの正弦波を例に挙げます。これは、下の図に示すように、2 つの二次関数と 1 つの一次関数の 3 つの関数で近似できます。

ただし、Cybenko はこの区分関数の記述についてより具体的に説明しています。これは、関数が定数になり、基本的にステップを通じて関数を適合できるからです。十分な定数領域 (ステップ) があれば、指定された範囲内で関数を適切に推定できます。

この近似に基づいて、ニューロンをステップとして使用してネットワークを構築できます。重みとバイアスを「ゲート」として使用して、どの入力が下がり、どのニューロンがアクティブになるかを決定すると、十分な数のニューロンを持つニューラルネットワークは、関数をいくつかの定数領域に分割して推定することができます。

ニューロンの下降部分に該当する入力信号の場合、重みをより大きな値に増幅すると、最終値は 1 に近くなります (シグモイド関数を使用して計算した場合)。そこに属さない場合、重みを負の無限大に向かって動かすと、最終結果はゼロに近くなります。ニューロンが存在する範囲を決定するためのプロセッサとしてシグモイド関数を使用すると、ニューロンの数が多い限り、任意の関数をほぼ完璧に近似できます。多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間のハイパーキューブを制御します。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を構築する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな、それほど複雑でない部分に分割し、各部分をニューロンで処理することです。

Cybenko の最初の証明以来、さまざまな活性化関数 (ReLU など) やさまざまなアーキテクチャ (再帰型ネットワーク、畳み込みネットワークなど) に対する普遍近似定理のテストなど、多くの新しい改善が行われてきました。

いずれにせよ、これらすべての研究は、ニューラルネットワークはニューロンの数によって強さを見出すという 1 つの考えを中心に展開しています。各ニューロンは特徴空間のパターンまたは領域を監視します。特徴空間のサイズはネットワーク内のニューロンの数によって決まります。ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。しかし、ニューロンの数が増えると、活性化関数が何であれ、多くの小さな部分をつなぎ合わせることであらゆる関数を構築できるようになります。

一般化と外挿

普遍近似定理は単純ではあるが、（少なくとも概念的には）少し単純化しすぎていると指摘する人もいるかもしれない。ニューラルネットワークは数字を区別したり、音楽を生成したりすることができ、一般的にはインテリジェントに動作しますが、実際には洗練された近似値にすぎません。

ニューラルネットワークは、特定のデータポイントに対して複雑な数学関数をモデル化するように設計されています。ニューラルネットワークは優れた近似値ですが、入力がトレーニングされた範囲外にある場合は役に立たなくなります。これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を適合させることができますが、その範囲を超えると適合できなくなります。

外挿、つまりトレーニングされた範囲外で合理的な予測を行う能力は、ニューラルネットワークが行うように設計されたものではありません。普遍近似定理から、ニューラルネットワークは実際にはインテリジェントなものではなく、2 次元または 3 次元では普通に見える多次元性を装った推定器であることがわかります。

定理の実際的意義

もちろん、普遍近似定理は、ニューロンを無限に追加し続けることができると仮定していますが、これは実際には実現可能ではありません。さらに、ニューラルネットワークのほぼ無限のパラメータの組み合わせを使用して、最もパフォーマンスの高い組み合わせを見つけることは非現実的です。ただし、この定理では、隠れ層が 1 つしかないことも想定されており、隠れ層が追加されるにつれて、複雑さと普遍的な近似の可能性は指数関数的に増大します。

代わりに、機械学習エンジニアは、直感と経験を活用して、与えられた問題に適したニューラルネットワークアーキテクチャを構築する方法を決定します。これにより、そのようなネットワークが存在することを認識しながらも、計算パフォーマンスのトレードオフも考慮して、多次元空間を適切に近似できるようになります。

<<: 人工知能デジタル技術の強化は現実予測において徐々にその力を発揮しつつある

>>: ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータモデルは GPT-3 よりも強力