普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠

文字通り、普遍近似定理はニューラルネットワークがどのように機能するかについての理論的基礎です。簡単に言えば、十分な数の有限のニューロンを含む 1 つの隠れ層を持つニューラルネットワークは、活性化関数に関する特定の条件 (つまり、活性化関数がシグモイド型でなければならない) の下で、任意の連続関数を妥当な精度で近似できることを示しています。

[[335995]]

1989 年に George Cybenko によってシグモイド曲線の活性化にのみ機能するように定式化され、1991 年に Kurt Hornik によってすべての活性化関数に機能することが証明されました (パフォーマンスの原動力となるのは関数の選択ではなく、ニューラルネットワークのアーキテクチャです)。この発見は、ニューラルネットワークが今日使用されている多数のアプリケーションへと刺激的に発展する上で重要な原動力となりました。

しかし、最も重要なのは、この定理が、ニューラルネットワークがなぜそれほどインテリジェントに動作するように見えるのかを驚くべきほど説明している点です。これを理解することは、ニューラルネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな（有界で閉じた）集合上の任意の連続関数は、区分関数によって近似できます。たとえば、-3 から 3 までの正弦波は、3 つの関数 (2 つの 2 次関数と 1 つの線形関数) で確実に近似できます。

> Desmos でグラフ化しました。

Cybenko は、この区分関数が定数になる可能性があり、基本的に関数に適合する複数のステップで構成されるため、この区分関数に特化しています。十分な定数領域（「ステップサイズ」）があれば、特定の範囲にわたって関数の適切な推定値を得ることができます。

> Desmos でグラフ化しました。

この近似に基づいて、各ニューロンを「ステップ」に委任することでネットワークを構築できます。重みとバイアスを「ゲート」として使用して、どの入力が下がるか、したがってどのニューロンがアクティブになるかを決定することで、十分な数のニューロンを持つニューラルネットワークは、関数をいくつかの定数領域に分割するだけで関数を推定できます。

ニューロンの委任領域に入る入力の場合、大きな値に重みを割り当てることで、最終値は 1 に近くなります (シグモイド関数を使用して評価した場合)。そのセクションに該当しない場合は、重みを負の無限大に向かって移動すると、最終結果は 0 に近くなります。ニューロンが存在する範囲を決定するための一種の「プロセッサ」としてシグモイド関数を使用すると、ニューロンが豊富にある場合、ほぼすべての関数を完璧に近似することが可能です。多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間ハイパーキューブを「制御」しました。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を作成する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな複雑度の低い部分に分割し、各部分をニューロンが取得できることです。

> 画像は著者によって作成されました。

Cybenko の最初の証明以来、ReLU、無制限 (片側)、またはさまざまなアーキテクチャ (再帰、畳み込みなど) などのさまざまな活性化関数に対する普遍近似定理のテストなど、他の多くの改善が行われてきました。

いずれにせよ、これらすべての探求は、ニューラルネットワークは数の力で強くなるという 1 つの考えを中心に展開されています。各ニューロンは特徴空間のパターンまたは領域を監視します。そのサイズはネットワーク内のニューロンの数によって異なります。ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。ただし、ニューロンの数が増えると、活性化関数に関係なく、任意の関数を多数の小さな断片と組み合わせることができます。

一般化と外挿

普遍近似定理は単純であるにもかかわらず、（少なくとも概念的には）少し単純すぎると指摘する人もいるかもしれません。強力なニューラルネットワークは、実際には、数字を分離したり、音楽を生成したり、全体的にインテリジェントに動作したりできる洗練された近似器になることができます。

ニューラルネットワークの目的は、データポイントのサンプリングに基づいて複雑な数学関数を一般化またはモデル化することです。これらは近似値としては優れていますが、トレーニングされた範囲外の入力値を要求するとすぐに、悲惨な結果になります。これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を説得力を持ってモデル化しますが、その範囲外ではカオスを生成します。

> Desmos でグラフ化しました。

特定のトレーニング範囲外で推定したり、妥当な予測を行ったりする機能は、ニューラルネットワークが設計されているものではありません。普遍近似定理から、ニューラルネットワークは実際にはまったくインテリジェントではなく、多次元の偽装に隠れた優れた推定器に過ぎず、そのため (2 次元または 3 次元では普通に見える) ニューラルネットワークの機能が印象的であることがわかります。

ニューラルネットワークがトレーニングされた範囲外で失敗しても問題はありません。それがニューラルネットワークの目標ではないからです。

定理の実際的な意味

与えられた問題に適したニューラルネットワークアーキテクチャを構築し、そのようなネットワークが存在することを認識しながら多次元空間を適切に近似し、計算コストの現実性とバランスをとることは、機械学習エンジニアの直感と経験にかかっています。はい。この定理により、機械学習エンジニアは必ず解決策が存在することを知ることができます。

<<: スーパー暗号解読：自動運転はこうして実現される

>>: AIの失敗例と今後の課題と機会