ニューラルネットワークはなぜそれほど強力なのでしょうか?

ニューラルネットワークはなぜそれほど強力なのでしょうか?

普遍近似定理

ニューラル ネットワークは非常に強力であることが知られており、ほぼすべての統計学習問題を良好な結果で解決するために使用できます。 しかし、なぜそうなるのか考えたことがありますか? なぜこの方法は、ほとんどの場合、他の多くのアルゴリズムよりも強力なのでしょうか?

機械学習ではいつものことですが、これには正確な数学的理由があります。 つまり、ニューラル ネットワーク モデルによって記述される関数のセットは非常に大きいのです。 しかし、機能セットを記述するとはどういう意味でしょうか? 機能セットはどのくらいの大きさでしょうか? これらの概念は最初は理解するのが難しいように思えるかもしれませんが、適切に定義することで、一部のアルゴリズムが他のアルゴリズムよりも優れている理由が明らかになります。

関数近似としての機械学習

まず、機械学習の問題が何であるかを抽象的に見ることから始めましょう。 データセットがあるとする

ここで、x⁽ᵏ⁾ はデータ ポイントであり、y はデータ ポイントに関連付けられた観測値です。 観測値y⁽ᵏ⁾は実数でも確率分布(分類の場合)でもかまいません。 課題は、単にf(x⁽ᵏ⁾)がy⁽ᵏ⁾を近似する関数f(x)を見つけることです。

これを実現するために、パラメータ化された機能ファミリを事前に固定し、最適なパラメータ構成を選択しました。 例えば、線形回帰では関数群を使用する。

a と b をパラメータとして受け取る関数のファミリ。

x⁽ᵏ⁾とy⁽ᵏ⁾の関係を記述する真の基底関数g(x)が存在すると仮定すると、問題は関数近似問題として定式化できます。 これにより、近似理論テクノロジーの素晴らしい分野に足を踏み入れることができます。

近似理論入門

おそらく、あなたは人生の中で何度も指数関数に遭遇したことがあるでしょう。 その定義は

ここで、e は有名なオイラー数です。 これは超越関数であり、基本的には有限回の加算と乗算ではその値を計算することができないことを意味します。 ただし、それを計算機に入力すると、値が得られます。 この値は近似値に過ぎませんが、通常は目的には十分です。 実際、私たちは

これは多項式なので、その値を明示的に評価できます。 n が大きいほど、近似値は真の値に近くなります。

近似理論の中心的な問題は、これらの問題に数学的な枠組みを提供することです。 任意の関数 g(x) と、計算の観点からより扱いやすい関数のファミリがある場合、目標は g に十分近い「単純な」関数を見つけることです。 本質的に、近似理論は 3 つの中心的な質問に対する答えを探します。

  • 「十分に近い」とはどういう意味ですか?
  • 近似するにはどの関数ファミリを使用できますか (または使用する必要がありますか)?
  • 与えられた近似関数の族の中で、どの正確な関数が最も適合しますか?

少し抽象的に聞こえても心配しないでください。次はニューラル ネットワークの特殊なケースを見ていきます。

関数近似器としてのニューラルネットワーク

それで、質問をもう一度述べてみましょう。 データと観測値の関係を記述する関数 g(x) があります。 これは確実には分かっておらず、特定の値についてのみ

ここでg(x⁽ᵏ⁾)=y⁽ᵏ⁾です。 私たちの仕事はf(x)を見つけることです

  • データから知識を一般化する
  • そしてそれは計算的に実現可能です。

すべてのデータポイントがサブセットXにあると仮定すると、

待ってください、私たちは最も多くの基準を持つ関数を望んでいます

できるだけ小さく。 これらの関数をプロットし、グラフで囲まれた領域に色を付け、y 軸に沿って最大拡張の領域を計算することで、この量を視覚化できます。

g(x) の任意の値を評価することはできませんが、既知のデータポイント xₖ のみに f(x) を適合させるのではなく、常に広い意味でアプローチする必要があります。

そこで、質問が与えられます。 問題は、近似にどの関数セットを使用すればよいかということです。

単一の隠れ層を持つニューラルネットワーク

数学的に言えば、単一の隠れ層を持つニューラルネットワークは次のように定義されます。

ここでφはシグモイド関数のような非線形関数(活性化関数と呼ばれる)である。

そして

値xはデータに対応し、wᵢ、bᵢ、vᵢはパラメータです。 それは機能的な家族です

あらゆる合理的な関数を近似するのに十分でしょうか? 答えは「はい」です!

普遍近似定理

  • > 普遍近似定理の真骨頂 :) 出典: Cybenko, G. (1989)「シグモイド関数の重ね合わせによる近似」、Mathematics of Control, Signals, and Systems、2(4)、303–314。

1989 年の有名な結果は、普遍近似定理と呼ばれ、活性化関数がシグモイド形状で近似される関数が連続している限り、単一の隠れ層を持つニューラル ネットワークはそれを望みどおりに正確に近似できるというものです。 (機械学習の用語で言えば、学習です。)

正確な定理が難しそうに思えても心配しないでください。プロセス全体を詳しく説明します。 (実際、説明をより明確にするために、密度などの概念を意図的に省略しましたが、正確さは劣ります。)

ステップ1。 学習する関数が連続的なg(x)であると仮定します。 小さな ε を固定し、関数の周囲に ε 幅のストライプを描きます。 ε が小さいほど、結果は良くなります。

ステップ2。 (一番難しい部分です)表の機能を見つける

この定理は、そのような F(x) がストライプ内に完全に存在することを保証しており、この関数族は普遍近似関数と呼ばれます。 これがニューラル ネットワークの素晴らしい点であり、ニューラル ネットワークに真の力を与えます。

ただし、いくつか注意点があります。 たとえば、この定理では、隠れ層のニューロンの数 N については何も述べられていません。 ε が小さい場合、非常に大きくなる可能性があり、計算の観点からは不利になります。 できるだけ早く予測を計算したいのですが、100億の項の合計を計算するのは絶対に楽しいことではありません。

2 番目の問題は、定理が適切な近似関数の存在を保証しているにもかかわらず、それをどのように見つけるかが示されていないことです。 これは驚くかもしれませんが、数学では非常に典型的なことです。 特定のオブジェクトを明示的に構築することなく、その存在を推測するための非常に強力なツールがあります。 (普遍近似定理の本来の証明のような純粋な存在証明を拒否する構成主義と呼ばれる数学の学派があります。しかし、問題は根深いものです。非構成的証明を受け入れずに無限集合上の関数について話すことさえできません。)

しかし、大きな問題は、実際には基礎となる機能を完全に理解することはなく、観察したものだけを理解することだということです。

私たちのデータにぴったり合う可能性のある構成は無数にあります。 それらのほとんどは、新しいデータに対してひどく一般化されます。 あなたはきっとこの現象をご存知でしょう。それは恐ろしい過剰適合です。

権利には大きな責任が伴います。

それで、問題は次の通りです。 N 個の観測値がある場合、観測値に非常によく適合する N-1 次多項式を見つけることができます。 これは大したことではありません。ラグランジュ補間を使用してこの多項式を明示的に記述することもできます。 ただし、新しいデータには一般化されず、実際には一般化が非常に悪くなります。 下の図は、大きな多項式を小さなデータ セットに当てはめようとしたときに何が起こるかを示しています。

同じ現象がニューラルネットワークでも発生します。 これは大きな問題であり、普遍近似定理はそれを克服する方法について全くヒントを与えてくれません。

一般に、特徴ファミリーの表現力が豊かであればあるほど、過剰適合が発生しやすくなります。 権利には大きな責任が伴います。 これはバイアスと分散のトレードオフと呼ばれます。 ニューラル ネットワークの場合、重みの L1 正規化からドロップアウト レイヤーまで、これを軽減する方法は多数あります。 しかし、ニューラル ネットワークは非常に表現力に富んでいるため、この問題は常に背景に潜んでおり、常に注意を払う必要があります。

普遍近似定理を超えて

すでに述べたように、この定理はニューラル ネットワークのパラメータ構成を見つけるためのツールを提供しません。 実用的な観点から見ると、これは普遍近似特性とほぼ同じくらい重要です。 ニューラル ネットワークは、データに適合させるための計算効率の良い方法がなかったため、何十年もの間、好まれていませんでした。 これらの使用を可能にした重要な進歩は、バックプロパゲーションと汎用 GPU の 2 つです。 これら 2 つのツールを使用すると、大規模なニューラル ネットワークのトレーニングが簡単になります。 指一本動かすことなく、ノートブックを使用して最先端のモデルをトレーニングできます。 普遍近似定理以来、私たちはここまで来ました!

通常、これは標準的なディープラーニング コースの開始点となります。 ニューラル ネットワークの理論的基礎は、数学的に複雑なため、ここでは説明しません。 しかし、普遍近似定理(およびその証明に使用されるツール)は、ニューラル ネットワークがなぜそれほど強力であるのかについて非常に深い洞察を提供し、新しいアーキテクチャを設計するための基礎さえ提供します。 結局のところ、シグモイド関数と線形関数だけを組み合わせることができると誰が言ったのでしょうか?

<<:  2020 年のベスト AI ソフトウェア開発ツール

>>:  DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

金融分野における機械学習の4つの利点と5つの応用

[[198507]]誰の生活も金融から独立して存在することはできません。テクノロジーの発展により人々...

ロボット品質教育を普及させる時が来た

人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような...

ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界...

ロボティックプロセスオートメーションが人々の働き方をどのように変えているのか

[[422319]] RPA は人々の働き方をどのように変えるのでしょうか?今日、さまざまな業界の組...

ラブライブ!AI論文発表:生成モデルが楽譜を自動生成

有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...

人工知能における計算能力、アルゴリズム、データに関する簡単な説明

ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...

LLM幻覚問題の徹底レビュー! HITチームの50ページのレビューが公開された

幻覚だよ、古い友人よ。 LLM が私たちの視野に入って以来、錯覚の問題は常に無数の開発者を悩ませてき...

顔認識メイク落としはアリペイを認識できない:馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

「バン」デザインに加えて、指紋認証の代わりに顔認証を使用していることも、iPhone Xの不満点の1...

...

ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

大規模モデルの時代では、高品質なコード生成が驚くほど強力になりました。 HumEval のテストで ...

アンドリュー・ン氏の最新の予測: AIに関するこれらのことは今後10年間は​​変わらない

2024年にはAIの発展はどのように変化するのでしょうか?アンドリュー・ン氏は最新の手紙の中で、今後...

...

内部テスト中です! Word、Excel、Outlookに機械学習が搭載される

マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原...

スマート製造における AI: イノベーションと効率の推進

AI 技術の継続的な革新と発展により、人工知能 (AI) は多くの分野で大きな進歩を遂げており、その...