普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠

文字通り、普遍近似定理はニューラル ネットワークがどのように機能するかについての理論的基礎です。 簡単に言えば、十分な数の有限のニューロンを含む 1 つの隠れ層を持つニューラル ネットワークは、活性化関数に関する特定の条件 (つまり、活性化関数がシグモイド型でなければならない) の下で、任意の連続関数を妥当な精度で近似できることを示しています。

[[335995]]

1989 年に George Cybenko によってシグモイド曲線の活性化にのみ機能するように定式化され、1991 年に Kurt Hornik によってすべての活性化関数に機能することが証明されました (パフォーマンスの原動力となるのは関数の選択ではなく、ニューラル ネットワークのアーキテクチャです)。この発見は、ニューラル ネットワークが今日使用されている多数のアプリケーションへと刺激的に発展する上で重要な原動力となりました。

しかし、最も重要なのは、この定理が、ニューラル ネットワークがなぜそれほどインテリジェントに動作するように見えるのかを驚くべきほど説明している点です。 これを理解することは、ニューラル ネットワークを深く理解するための重要なステップです。

より深い探求

コンパクトな(有界で閉じた)集合上の任意の連続関数は、区分関数によって近似できます。 たとえば、-3 から 3 までの正弦波は、3 つの関数 (2 つの 2 次関数と 1 つの線形関数) で確実に近似できます。

> Desmos でグラフ化しました。

Cybenko は、この区分関数が定数になる可能性があり、基本的に関数に適合する複数のステップで構成されるため、この区分関数に特化しています。 十分な定数領域(「ステップ サイズ」)があれば、特定の範囲にわたって関数の適切な推定値を得ることができます。


> Desmos でグラフ化しました。

この近似に基づいて、各ニューロンを「ステップ」に委任することでネットワークを構築できます。 重みとバイアスを「ゲート」として使用して、どの入力が下がるか、したがってどのニューロンがアクティブになるかを決定することで、十分な数のニューロンを持つニューラル ネットワークは、関数をいくつかの定数領域に分割するだけで関数を推定できます。

ニューロンの委任領域に入る入力の場合、大きな値に重みを割り当てることで、最終値は 1 に近くなります (シグモイド関数を使用して評価した場合)。 そのセクションに該当しない場合は、重みを負の無限大に向かって移動すると、最終結果は 0 に近くなります。ニューロンが存在する範囲を決定するための一種の「プロセッサ」としてシグモイド関数を使用すると、ニューロンが豊富にある場合、ほぼすべての関数を完璧に近似することが可能です。 多次元空間では、サイベンコはこの考え方を一般化し、各ニューロンが多次元関数内の空間ハイパーキューブを「制御」しました。

普遍近似定理の鍵となるのは、入力と出力の間に複雑な数学的関係を作成する代わりに、単純な線形演算を使用して複雑な関数を多くの小さな複雑度の低い部分に分割し、各部分をニューロンが取得できることです。

> 画像は著者によって作成されました。

Cybenko の最初の証明以来、ReLU、無制限 (片側)、またはさまざまなアーキテクチャ (再帰、畳み込みなど) などのさまざまな活性化関数に対する普遍近似定理のテストなど、他の多くの改善が行われてきました。

いずれにせよ、これらすべての探求は、ニューラル ネットワークは数の力で強くなるという 1 つの考えを中心に展開されています。 各ニューロンは特徴空間のパターンまたは領域を監視します。そのサイズはネットワーク内のニューロンの数によって異なります。 ニューロンの数が少ないほど、各ニューロンが監視する必要があるスペースが大きくなるため、近似能力は低下します。 ただし、ニューロンの数が増えると、活性化関数に関係なく、任意の関数を多数の小さな断片と組み合わせることができます。

一般化と外挿

普遍近似定理は単純であるにもかかわらず、(少なくとも概念的には)少し単純すぎると指摘する人もいるかもしれません。 強力なニューラル ネットワークは、実際には、数字を分離したり、音楽を生成したり、全体的にインテリジェントに動作したりできる洗練された近似器になることができます。

ニューラル ネットワークの目的は、データ ポイントのサンプリングに基づいて複雑な数学関数を一般化またはモデル化することです。 これらは近似値としては優れていますが、トレーニングされた範囲外の入力値を要求するとすぐに、悲惨な結果になります。 これは有限テイラー級数近似に似ており、特定の範囲内では正弦波を説得力を持ってモデル化しますが、その範囲外ではカオスを生成します。


> Desmos でグラフ化しました。

特定のトレーニング範囲外で推定したり、妥当な予測を行ったりする機能は、ニューラル ネットワークが設計されているものではありません。 普遍近似定理から、ニューラル ネットワークは実際にはまったくインテリジェントではなく、多次元の偽装に隠れた優れた推定器に過ぎず、そのため (2 次元または 3 次元では普通に見える) ニューラル ネットワークの機能が印象的であることがわかります。

ニューラル ネットワークがトレーニングされた範囲外で失敗しても問題はありません。それがニューラル ネットワークの目標ではないからです。

定理の実際的な意味

与えられた問題に適したニューラル ネットワーク アーキテクチャを構築し、そのようなネットワークが存在することを認識しながら多次元空間を適切に近似し、計算コストの現実性とバランスをとることは、機械学習エンジニアの直感と経験にかかっています。 はい。 この定理により、機械学習エンジニアは必ず解決策が存在することを知ることができます。

<<:  スーパー暗号解読:自動運転はこうして実現される

>>:  AIの失敗例と今後の課題と機会

ブログ    

推薦する

ロボットが高齢者の在宅生活を変える

ほとんどの人がロボットについて考えるとき、映画に出てくる歩くロボット、掃除機、産業用ロボットなどを想...

マイクロソフトの英語音声評価機能がアメリカ英語一般版で開始され、教育業界に力を与える

発音は言語学習の重要な部分です。 Microsoft Azure Cognitive Service...

2019 年に注目すべき 11 の JavaScript 機械学習ライブラリ

ほとんどの機械学習は Python などの言語で行われますが、フロントエンドとバックエンドの両方にお...

...

...

IoTとAIのトレンドが今日のビジネスに及ぼす影響

IoT と AI の誇大宣伝サイクルは、企業が大きな価値を認識し始める段階まで進んでいます。 IoT...

...

ロボットも「感情カード」を切るが、人間の本性もアルゴリズムに変えられるのか?

[[228280]]画像出典: Visual Chinaもし人工知能がゆっくりと「感情を理解し」、...

...

ディープラーニング画像認識の未来:機会と課題が共存

人間にとって画像を認識するのは簡単ですが、機械がそれを実現するには長い時間がかかりました。コンピュー...

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

...

DDLは第一の生産力です。科学的な説明があります。ネットユーザー:ビッグモデルで試してみましょう

年末です。大学生は期末試験の週で、労働者は KPI の達成に急いでいます。期限のない年末(DDL)は...

2つのセッションの提案から見るロボット産業の5つの大きなトレンド

感染症の影響で延期されていた2020年全国人民代表大会と中国人民政治協商会議が5月21日に開幕した。...

マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...