ニューラルネットワークはなぜそれほど強力なのでしょうか?

ニューラルネットワークはなぜそれほど強力なのでしょうか?

普遍近似定理

ニューラル ネットワークは非常に強力であることが知られており、ほぼすべての統計学習問題を良好な結果で解決するために使用できます。 しかし、なぜそうなるのか考えたことがありますか? なぜこの方法は、ほとんどの場合、他の多くのアルゴリズムよりも強力なのでしょうか?

機械学習ではいつものことですが、これには正確な数学的理由があります。 つまり、ニューラル ネットワーク モデルによって記述される関数のセットは非常に大きいのです。 しかし、機能セットを記述するとはどういう意味でしょうか? 機能セットはどのくらいの大きさでしょうか? これらの概念は最初は理解するのが難しいように思えるかもしれませんが、適切に定義することで、一部のアルゴリズムが他のアルゴリズムよりも優れている理由が明らかになります。

関数近似としての機械学習

まず、機械学習の問題が何であるかを抽象的に見ることから始めましょう。 データセットがあるとする

ここで、x⁽ᵏ⁾ はデータ ポイントであり、y はデータ ポイントに関連付けられた観測値です。 観測値y⁽ᵏ⁾は実数でも確率分布(分類の場合)でもかまいません。 課題は、単にf(x⁽ᵏ⁾)がy⁽ᵏ⁾を近似する関数f(x)を見つけることです。

これを実現するために、パラメータ化された機能ファミリを事前に固定し、最適なパラメータ構成を選択しました。 例えば、線形回帰では関数群を使用する。

a と b をパラメータとして受け取る関数のファミリ。

x⁽ᵏ⁾とy⁽ᵏ⁾の関係を記述する真の基底関数g(x)が存在すると仮定すると、問題は関数近似問題として定式化できます。 これにより、近似理論テクノロジーの素晴らしい分野に足を踏み入れることができます。

近似理論入門

おそらく、あなたは人生の中で何度も指数関数に遭遇したことがあるでしょう。 その定義は

ここで、e は有名なオイラー数です。 これは超越関数であり、基本的には有限回の加算と乗算ではその値を計算することができないことを意味します。 ただし、それを計算機に入力すると、値が得られます。 この値は近似値に過ぎませんが、通常は目的には十分です。 実際、私たちは

これは多項式なので、その値を明示的に評価できます。 n が大きいほど、近似値は真の値に近くなります。

近似理論の中心的な問題は、これらの問題に数学的な枠組みを提供することです。 任意の関数 g(x) と、計算の観点からより扱いやすい関数のファミリがある場合、目標は g に十分近い「単純な」関数を見つけることです。 本質的に、近似理論は 3 つの中心的な質問に対する答えを探します。

  • 「十分に近い」とはどういう意味ですか?
  • 近似するにはどの関数ファミリを使用できますか (または使用する必要がありますか)?
  • 与えられた近似関数の族の中で、どの正確な関数が最も適合しますか?

少し抽象的に聞こえても心配しないでください。次はニューラル ネットワークの特殊なケースを見ていきます。

関数近似器としてのニューラルネットワーク

それで、質問をもう一度述べてみましょう。 データと観測値の関係を記述する関数 g(x) があります。 これは確実には分かっておらず、特定の値についてのみ

ここでg(x⁽ᵏ⁾)=y⁽ᵏ⁾です。 私たちの仕事はf(x)を見つけることです

  • データから知識を一般化する
  • そしてそれは計算的に実現可能です。

すべてのデータポイントがサブセットXにあると仮定すると、

待ってください、私たちは最も多くの基準を持つ関数を望んでいます

できるだけ小さく。 これらの関数をプロットし、グラフで囲まれた領域に色を付け、y 軸に沿って最大拡張の領域を計算することで、この量を視覚化できます。

g(x) の任意の値を評価することはできませんが、既知のデータポイント xₖ のみに f(x) を適合させるのではなく、常に広い意味でアプローチする必要があります。

そこで、質問が与えられます。 問題は、近似にどの関数セットを使用すればよいかということです。

単一の隠れ層を持つニューラルネットワーク

数学的に言えば、単一の隠れ層を持つニューラルネットワークは次のように定義されます。

ここでφはシグモイド関数のような非線形関数(活性化関数と呼ばれる)である。

そして

値xはデータに対応し、wᵢ、bᵢ、vᵢはパラメータです。 それは機能的な家族です

あらゆる合理的な関数を近似するのに十分でしょうか? 答えは「はい」です!

普遍近似定理

  • > 普遍近似定理の真骨頂 :) 出典: Cybenko, G. (1989)「シグモイド関数の重ね合わせによる近似」、Mathematics of Control, Signals, and Systems、2(4)、303–314。

1989 年の有名な結果は、普遍近似定理と呼ばれ、活性化関数がシグモイド形状で近似される関数が連続している限り、単一の隠れ層を持つニューラル ネットワークはそれを望みどおりに正確に近似できるというものです。 (機械学習の用語で言えば、学習です。)

正確な定理が難しそうに思えても心配しないでください。プロセス全体を詳しく説明します。 (実際、説明をより明確にするために、密度などの概念を意図的に省略しましたが、正確さは劣ります。)

ステップ1。 学習する関数が連続的なg(x)であると仮定します。 小さな ε を固定し、関数の周囲に ε 幅のストライプを描きます。 ε が小さいほど、結果は良くなります。

ステップ2。 (一番難しい部分です)表の機能を見つける

この定理は、そのような F(x) がストライプ内に完全に存在することを保証しており、この関数族は普遍近似関数と呼ばれます。 これがニューラル ネットワークの素晴らしい点であり、ニューラル ネットワークに真の力を与えます。

ただし、いくつか注意点があります。 たとえば、この定理では、隠れ層のニューロンの数 N については何も述べられていません。 ε が小さい場合、非常に大きくなる可能性があり、計算の観点からは不利になります。 できるだけ早く予測を計算したいのですが、100億の項の合計を計算するのは絶対に楽しいことではありません。

2 番目の問題は、定理が適切な近似関数の存在を保証しているにもかかわらず、それをどのように見つけるかが示されていないことです。 これは驚くかもしれませんが、数学では非常に典型的なことです。 特定のオブジェクトを明示的に構築することなく、その存在を推測するための非常に強力なツールがあります。 (普遍近似定理の本来の証明のような純粋な存在証明を拒否する構成主義と呼ばれる数学の学派があります。しかし、問題は根深いものです。非構成的証明を受け入れずに無限集合上の関数について話すことさえできません。)

しかし、大きな問題は、実際には基礎となる機能を完全に理解することはなく、観察したものだけを理解することだということです。

私たちのデータにぴったり合う可能性のある構成は無数にあります。 それらのほとんどは、新しいデータに対してひどく一般化されます。 あなたはきっとこの現象をご存知でしょう。それは恐ろしい過剰適合です。

権利には大きな責任が伴います。

それで、問題は次の通りです。 N 個の観測値がある場合、観測値に非常によく適合する N-1 次多項式を見つけることができます。 これは大したことではありません。ラグランジュ補間を使用してこの多項式を明示的に記述することもできます。 ただし、新しいデータには一般化されず、実際には一般化が非常に悪くなります。 下の図は、大きな多項式を小さなデータ セットに当てはめようとしたときに何が起こるかを示しています。

同じ現象がニューラルネットワークでも発生します。 これは大きな問題であり、普遍近似定理はそれを克服する方法について全くヒントを与えてくれません。

一般に、特徴ファミリーの表現力が豊かであればあるほど、過剰適合が発生しやすくなります。 権利には大きな責任が伴います。 これはバイアスと分散のトレードオフと呼ばれます。 ニューラル ネットワークの場合、重みの L1 正規化からドロップアウト レイヤーまで、これを軽減する方法は多数あります。 しかし、ニューラル ネットワークは非常に表現力に富んでいるため、この問題は常に背景に潜んでおり、常に注意を払う必要があります。

普遍近似定理を超えて

すでに述べたように、この定理はニューラル ネットワークのパラメータ構成を見つけるためのツールを提供しません。 実用的な観点から見ると、これは普遍近似特性とほぼ同じくらい重要です。 ニューラル ネットワークは、データに適合させるための計算効率の良い方法がなかったため、何十年もの間、好まれていませんでした。 これらの使用を可能にした重要な進歩は、バックプロパゲーションと汎用 GPU の 2 つです。 これら 2 つのツールを使用すると、大規模なニューラル ネットワークのトレーニングが簡単になります。 指一本動かすことなく、ノートブックを使用して最先端のモデルをトレーニングできます。 普遍近似定理以来、私たちはここまで来ました!

通常、これは標準的なディープラーニング コースの開始点となります。 ニューラル ネットワークの理論的基礎は、数学的に複雑なため、ここでは説明しません。 しかし、普遍近似定理(およびその証明に使用されるツール)は、ニューラル ネットワークがなぜそれほど強力であるのかについて非常に深い洞察を提供し、新しいアーキテクチャを設計するための基礎さえ提供します。 結局のところ、シグモイド関数と線形関数だけを組み合わせることができると誰が言ったのでしょうか?

<<:  2020 年のベスト AI ソフトウェア開発ツール

>>:  DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

ブログ    
ブログ    
ブログ    

推薦する

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

WOT + ヒーローズ ギャザリング、2018 年に技術者が見逃せないお祭り

現在、デジタル変革の潮流に直面し、ビッグデータ、クラウドコンピューティング、ブロックチェーン、Dev...

...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

2億IoTエコシステム、人民教育新聞とAI教育で協力、天猫精霊プラットフォームレイアウトが収穫期に入る

9月25日、アリババ人工知能研究所は雲啓カンファレンスで、Tmall Genieは現在660以上のI...

ビッグデータと AI: 3 つの実際の使用例

ビッグデータと人工知能は、企業が新しい方法で顧客体験を向上させるのに役立ちます。 AIとビッグデータ...

エキサイティング!自動運転におけるGPT-4Vの予備研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

顔認識は数十億ドル規模のブルーオーシャンだが、まだ解決すべき問題が2つある

今日は顔をスキャンしましたか? [[373513]]人工知能の急速な発展により、知能の時代が静かに到...

AIとロボットはどこで使われていますか?お伝えしたいユースケースはたくさんあります

人工知能とロボット工学はテクノロジー分野に大きな変化をもたらしています。 20年前に人々が夢見ていた...

人工知能の歴史 - チューリングテストからビッグデータまで

[[194770]]私はずっと、人工知能がどのように提案されたのか、その背後にはどのような物語がある...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...

2021 年のテクノロジートレンドはどこに向かうのでしょうか? IEEEが答えを教えます

[[357471]]このほど、全人類に利益をもたらす科学技術の進歩を促進することに尽力している世界最...

人工知能の利点をどう生かすか

企業で人工知能が応用され、開発されるにつれて、ビジネスリーダーは市場競争力を向上させるためにクラウド...

Titanium Technology CEO、Li Shuhao氏:ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか?

2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...

石油探査のための AI: 石油産業のデジタル変革に向けた新しい考え方

石油は産業の血液であるだけでなく、私たちの日常生活にも深く関わっていることは周知の事実です。統計によ...