普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠

文字通り、普遍近似定理はニューラル ネットワークがどのように機能するかについての理論的基礎です。 簡単に言えば、十分な数の有限のニューロンを含む 1 つの隠れ層を持つニューラル ネットワークは、活性化関数に関する特定の条件 (つまり、活性化関数がシグモイド型でなければならない) の下で、任意の連続関数を妥当な精度で近似できることを示しています。

[[335995]]

1989 年に George Cybenko によってシグモイド曲線の活性化にのみ機能するように定式化され、1991 年に Kurt Hornik によってすべての活性化関数に機能することが証明されました (パフォーマンスの原動力となるのは関数の選択ではなく、ニューラル ネットワークのアーキテクチャです)。この発見は、ニューラル ネットワークが今日使用されている多数のアプリケーションへと刺激的に発展する上で重要な原動力となりました。

しかし、最も重要なのは、この定理が、ニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを驚くべきほど説明している点です。 これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな(有界で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 たとえば、-3 から 3 までの正弦波は、3 つの関数 (2 つの 2 次関数と 1 つの線形関数) で確実に近似できます。

> Desmos でグラフ化しました。

Cybenko は、この区分関数が定数になる可能性があり、基本的に関数に適合する複数のステップで構成されるため、この区分関数に特化しています。 十分な定数領域(「ステップ サイズ」)があれば、特定の範囲にわたって関数の適切な推定値を得ることができます。


> Desmos でグラフ化しました。

この近似に基づいて、各ニューロンを「ステップ」に委任することでネットワークを構築できます。 重みとバイアスを「ゲート」として使用して、どの入力が下がるか、したがってどのニューロンがアクティブになるかを決定することで、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割するだけで関数を推定できます。

ニューロンの委任領域に入る入力の場合、大きな値に重みを割り当てることで、最終値は 1 に近くなります (シグモイド関数を使用して評価した場合)。 そのセクションに該当しない場合は、重みを負の無限大に向かって移動すると、最終結果は 0 に近くなります。ニューロンが存在する範囲を決定するための一種の「プロセッサ」としてシグモイド関数を使用すると、ニューロンが豊富にある場合、ほぼすべての関数を完璧に近似することが可能です。 多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間ハイパーキューブを「制御」しました。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を作成する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな複雑度の低い部分に分割し、各部分をニューロンが取得できることです。

> 画像は著者によって作成されました。

Cybenko の最初の証明以来、ReLU、無制限 (片側)、またはさまざまなアーキテクチャ (再帰、畳み込みなど) などのさまざまな活性化関数に対する普遍近似定理のテストなど、他の多くの改善が行われてきました。

いずれにせよ、これらすべての探求は、ニューラル ネットワークは数の力で強くなるという 1 つの考えを中心に展開されています。 各ニューロンは特徴空間のパターンまたは領域を監視します。そのサイズはネットワーク内のニューロンの数によって異なります。 ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。 ただし、ニューロンの数が増えると、活性化関数に関係なく、任意の関数を多数の小さな断片と組み合わせることができます。

一般化と外挿

普遍近似定理は単純であるにもかかわらず、(少なくとも概念的には)少し単純すぎると指摘する人もいるかもしれません。 強力なニューラル ネットワークは、実際には、数字を分離したり、音楽を生成したり、全体的にインテリジェントに動作したりできる洗練された近似器になることができます。

ニューラル ネットワークの目的は、データ ポイントのサンプリングに基づいて複雑な数学関数を一般化またはモデル化することです。 これらは近似値としては優れていますが、トレーニングされた範囲外の入力値を要求するとすぐに、悲惨な結果になります。 これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を説得力を持ってモデル化しますが、その範囲外ではカオスを生成します。


> Desmos でグラフ化しました。

特定のトレーニング範囲外で推定したり、妥当な予測を行ったりする機能は、ニューラル ネットワークが設計されているものではありません。 普遍近似定理から、ニューラル ネットワークは実際にはまったくインテリジェントではなく、多次元の偽装に隠れた優れた推定器に過ぎず、そのため (2 次元または 3 次元では普通に見える) ニューラル ネットワークの機能が印象的であることがわかります。

ニューラル ネットワークがトレーニングされた範囲外で失敗しても問題はありません。それがニューラル ネットワークの目標ではないからです。

定理の実際的な意味

与えられた問題に適したニューラル ネットワーク アーキテクチャを構築し、そのようなネットワークが存在することを認識しながら多次元空間を適切に近似し、計算コストの現実性とバランスをとることは、機械学習エンジニアの直感と経験にかかっています。 はい。 この定理により、機械学習エンジニアは必ず解決策が存在することを知ることができます。

<<:  スーパー暗号解読:自動運転はこうして実現される

>>:  AIの失敗例と今後の課題と機会

ブログ    
ブログ    
ブログ    

推薦する

フォーカス分析: 動画向けAIと画像向けAIの違い

[51CTO.com クイック翻訳] 画像処理と比較すると、ビデオから洞察を抽出したり、AI 技術を...

大学における人工知能への熱意を「クール」に振り返る

大学は関連専攻を開設する際に、教授委員会と学術委員会を組織し、国の人材政策、業界の人材需要、国内外の...

...

フェイフェイ・リーのチームはディープラーニングの「遊び場」を作った。AIも独自に進化しており、考えてみると恐ろしいことだ。

[[427578]]動物の知能は、環境と相互作用するにつれて、その体の形に合わせて進化します。例え...

AIトレーニングの裏話を公開:専門家だけでなく、世界中の無数のオフィスワーカーもAIの進化に貢献している

要点: AI システムが学習する前に、入力されたデータにラベルを付ける作業が必要です。これは、自動運...

生死に関わる問題:病院のICU病棟で人工知能は何ができるのか?

病院の集中治療室 (ICU) では、重病の患者を一日中一連の機器に接続し、いつでもバイタルサインを監...

...

クラウド コンピューティングを超えて考える: インテリジェント エッジはコンピューティングと AI の未来です

インテリジェント エッジは、スマート デバイスとモノのインターネットをデータ収集ポイントから、組織に...

人工知能と新しい小売業が出会うと、どのような火花が散るでしょうか?

過去1年間、人間と機械の戦いは続き、人工知能への注目は最高潮に達し、あらゆる分野で人工知能が見られる...

GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

テキスト生成は、多くの自然言語処理アプリケーションにとって重要です。しかし、ニューラル言語モデルの最...

ビッグモデルの「錯覚」、この記事を読んでください

ビッグモデルの「幻想」がついに体系的にレビューされました! 49 ページの記事では、幻覚の定義、分類...

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

[[347640]] Facebookはまた失敗したのか?フェイスブックは昨日、自社の機械翻訳が画期...

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

[[185868]]スピーチの基本概念スピーチは複雑な現象です。それがどのように生成され、どのように...

テレンス・タオは数学の問題を解くために大規模なモデルを使用しています。コードの生成とLaTeXの数式の編集は非常に便利です。

過去数か月間、数学者のテレンス・タオ氏は、ChatGPT を使用して数学の問題を解くのに何度も試み、...