アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラルネットワークの作成とともに 1950 年代の初期の研究以来蓄積されてきました。ロジスティック回帰からサポートベクターマシンまで、新しいアルゴリズムが次々と登場しました。しかし、ニューラルネットワークがアルゴリズムの中のアルゴリズムであり、機械学習の頂点であることは明らかです。ニューラルネットワークは、単なる 1 つの試みではなく、機械学習の一般化であると言えます。

[[337856]]

このように、ニューラルネットワークは単純なアルゴリズムというよりも、フレームワークや概念です。これは、ニューラルネットワークの構築に多くの自由度があるため明らかです。たとえば、隠れ層とノードの数、アクティベーション関数、オプティマイザー、損失関数、ネットワークの種類 (畳み込みニューラルネットワーク、リカレントニューラルネットワークなど)、特殊層 (バッチ正規化、ランダムドロップアウトなど) などです。

ニューラルネットワークを厳密なアルゴリズムとしてではなく概念として考えると、興味深い結果が浮かび上がります。つまり、決定木であろうと k 近傍法であろうと、あらゆる機械学習アルゴリズムはニューラルネットワークで表現できるということです。直感的には、いくつかの例を通してこれを理解できますが、より厳密に言えば、この記述は数学的に証明することもできます。

まず、ニューラルネットワークとは何かを定義しましょう。ニューラルネットワークは、入力層、隠し層、出力層を含むアーキテクチャであり、各層のノードは相互に接続されています。情報は、線形変換（重みとバイアス）と非線形変換（活性化関数）を通じて入力層から出力層に変換されます。モデルのトレーニング可能なパラメータを更新する方法があります。

ロジスティック回帰は、各入力乗法係数と追加の切片がシグモイド関数を通過する標準的な回帰として簡単に定義されます。これは、隠れ層を含まないニューラルネットワークによってモデル化できます。結果は、シグモイド出力ニューロンを介した多変量回帰です。線形回帰は、出力ニューロン活性化関数を線形活性化関数に置き換えることによってもモデル化できます (線形活性化関数は、出力 f(x) = x を単にマッピングするだけであり、言い換えると、何もしません)。

サポートベクターマシン (SVM) アルゴリズムは、いわゆる「カーネルトリック」を通じてデータを新しい空間に投影することで、データの線形分離可能性を最適化しようとします。データ変換が完了すると、アルゴリズムはグループ境界に沿ってデータを最適に分離する超平面を描画します。超平面は、2 次元の線や 3 次元の平面のように、既存の次元の線形結合として簡単に定義されます。

このように、SVM アルゴリズムは、データを新しい空間に投影し、多変量回帰を実行するものと考えることができます。ニューラルネットワークの出力は、ある制限された出力関数を通じて確率的な結果を達成できます。

ノード間の接続を制限したり、特定のパラメータを修正するなど、いくつかの制限を設ける必要があるかもしれません。もちろん、これらの変更は「ニューラルネットワーク」ラベルの整合性には影響しません。サポートベクターマシンが現実と同じように動作するようにするには、おそらくさらにレイヤーを追加する必要があります。

決定木アルゴリズムなどのツリーベースのアルゴリズムはより複雑です。このようなニューラルネットワークを構築する方法は、独自の特徴空間をどのように分割するかにかかっています。トレーニングポイントが一連の分割ノードを通過すると、特徴空間は複数のハイパーキューブに分割されます。2 次元の例では、垂直線と水平線が正方形を形成します。

画像ソース: DataCamp コミュニティ

したがって、これらの線に沿って特徴空間を分割する同様の方法は、入力値が本質的に分割線であるステップ関数などのより厳密な活性化関数を使用してシミュレートできます。重みとバイアスの値を制限して、伸縮や配置によって分割線の方向を決めるためにのみ使用されるようにすることもできます。確率的な結果を得るために、結果を活性化関数に渡すことができます。

ニューラルネットワークのアルゴリズムの表現と実際のアルゴリズムの間には多くの技術的な違いがありますが、重要な点は、ニューラルネットワークは同じアイデアを表現し、同じ戦略を使用して問題を解決でき、そのパフォーマンスは実際のアルゴリズムと同じであるということです。

しかし、アルゴリズムをニューラルネットワーク形式に大まかに変換するだけでは満足できない人もいるかもしれません。また、各ケースの具体的な分析ではなく、k 近傍法やナイーブベイズ法などのより複雑なアルゴリズムの一般的な適用を望む人もいるかもしれません。

普遍近似定理はこの問題を解決します。これは、ニューラルネットワークの大きな成功の背後にある数学的な説明です。本質的には、十分に大きなニューラルネットワークは任意の関数を任意の精度でシミュレートできることを示しています。データを表す関数 f(x) があるとします。各データポイント (x, y) に対して、f(x) は常に y と等しいか、非常に近い値を返します。

モデリングの目的は、この代表的な関数または正しくラベル付けされた関数 f(x) を見つけ、p(x) を使用して予測を表現することです。すべての機械学習アルゴリズムは、このタスクに異なるアプローチを取り、異なる仮定を有効と見なし、最良の結果 p(x) を出します。 p(x) を作成するアルゴリズムを記述すると、条件のリストから純粋数学まで、さまざまな結果になる可能性があります。ターゲットを入力にマッピングする方法を記述する関数は、事実上あらゆる形式を取ることができます。

これらの関数は便利な場合もあれば、そうでない場合もあります。これらの関数は固定数の引数を取るため、使用するかどうかは検討が必要です。ただし、ニューラルネットワークによって、f(x) を見つけるためのアプローチが若干異なります。あらゆる関数は、多数のステップ状のセクションによって適切に近似することができ、ステップの数が多いほど、近似の精度が高まります。

各ステップはニューラルネットワークによって表されます。ニューラルネットワークは、本質的に確率ステップ関数であるシグモイド活性化関数を持つ隠し層内のノードです。本質的には、各ノードには f(x) の一部が「割り当て」られます。

次に、重みとバイアスのシステムを通じて、ネットワークはシグモイド関数の入力値が正の無限大（出力値は 1）に達するようにノードの存在を決定し、特定の入力値に対してニューロンをアクティブにする必要がある場合、出力値は負の無限大になります。ノードを使用してデータ関数の特定の部分を見つけるというこのパターンは、数値データだけでなく画像でも見られます。

普遍近似定理は、ReLU やニューラルネットワークタイプなどの他の活性化関数にも適用できるように一般化されていますが、ニューラルネットワークは完璧であるという原則は変わりません。

ニューラルネットワークは、複雑な数学方程式や関係のシステムに頼るのではなく、データ機能の一部に自身の一部を委任し、指定された領域内で一般化を機械的に記憶します。これらのノードが巨大なニューラルネットワークに集約されると、その結果はインテリジェントなモデルのように見えますが、実際には巧妙に設計された近似値になります。

ニューラルネットワークが、少なくとも理論上は、期待どおりの精度の関数を構築できる場合 (ノードの数が多いほど、近似値はより正確になりますが、もちろんオーバーフィッティングの技術的な側面は考慮されません)、正しく構築されたニューラルネットワークは、他のアルゴリズムの予測関数 p(x) をシミュレートできます。これは他の機械学習アルゴリズムでは不可能です。

ニューラルネットワークは、多項式曲線やノードシステムなどの既存のモデルの一部のパラメータを最適化するのではなく、独立したシステムを完全に活用するのではなく、データ関数を直接近似するという、データモデリングに関する特定の観点を使用します。私たちがよく知っているニューラルネットワークアーキテクチャは、単にこのアイデアをモデリングして表現したものにすぎません。

ニューラルネットワークの力と、深層学習という底なしの分野における継続的な研究により、ビデオ、サウンド、疫学データなど、あらゆるデータを前例のないレベルでモデル化できるようになります。ニューラルネットワークは、まさにアルゴリズムのためのアルゴリズムです。

この記事はWeChatの公開アカウント「Reading the Core」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、Duxinshu の公開アカウントにご連絡ください。

<<: AI チャットボットの 7 つの使い方

>>: 顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

ブログ

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

未来のスマートシティ: 必須のテクノロジー 10 選

「顔認証」と「指紋認証」どちらが安全でしょうか？多くの人が間違っていた

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

Lilith モバイルゲームにおける不正防止の設計と調査

たった1ミリ低くなれば時間が遅くなります!科学者が初めてミリメートルスケールで一般相対性理論を検証

調査レポート：世界中の企業の75％が職場でのChatGPTの使用を禁止または禁止を検討中

推薦する

自動化はウエスタン証券のデジタル従業員にとっての出発点

ビジネスインテリジェンスの歴史と発展についてお話ししましょう

現代の製造業におけるマシンビジョンと人工知能の重要な役割

データサイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

専門家：TikTokのアルゴリズムはユニークではないが、購入者はそれを自ら開発することを待ちきれない

デアデビルが来た！バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

2020 年に注目すべき機械学習とデータサイエンスのウェブサイトトップ 20