ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。

  • これらの機械学習アルゴリズムが理解できません。
  • アルゴリズムの仕組みは理解していますが、それがどのように機能するかはわかりません。

この記事では、アルゴリズムの仕組みを説明するだけでなく、アルゴリズムの仕組みを直感的に理解して「なるほど!」という瞬間を提供することを目指しています。

[[348334]]

決定木

決定木は、水平線と垂直線を使用して特徴空間を分割します。 たとえば、次の非常に単純な決定木を考えてみましょう。この決定木には、条件ノードが 1 つと、条件と、その条件を満たすトレーニング ポイントがどのクラスに属するかを示すクラス ノードが 2 つあります。


各色のラベルが付けられたフィールドと、その領域内で実際にその色であるデータ ポイント、つまり (おおよそ) エントロピーとの間には多くの重複があることに注意してください。 エントロピーを最小化するための決定木を構築します。 この場合、複雑さのレイヤーを追加できます。 別の条件を追加すると、x が 6 未満で y が 6 より大きい場合、その領域内の点を赤で指定できます。 このアクションによりエントロピーが減少します。


各ステップで、決定木アルゴリズムはエントロピーが最小になるようにツリーを構築する方法を見つけようとします。 エントロピーをより正式には、特定のセパレーター (状態) が持つ「カオス」または「無秩序」、およびセパレーターがモデルに追加する情報と洞察の量である「情報ゲイン」の反対として考えます。 情報ゲインが最も高く (エントロピーが最も低く) なる特徴分割が上部に表示されます。


この条件は、その 1 次元特性を次の形式に分解できます。


条件 1 では明確な分離があるため、エントロピーは低く、情報ゲインは高いことに注意してください。 条件 3 については同じことは言えないため、条件 3 は決定木の下部近くに配置されています。 この木の構造により、木が可能な限り軽量に保たれます。

エントロピーと、決定木やニューラル ネットワーク (損失関数としてのクロス エントロピー) におけるその使用法の詳細については、こちらをご覧ください。

ランダムフォレスト

ランダム フォレストは、決定木のバッグ化 (ブートストラップ) バージョンです。 主なアイデアは、データのサブセットごとに複数の決定木をトレーニングすることです。 次に、入力は各モデルに渡され、その出力は平均のような関数を通じて集約され、最終的な出力が生成されます。 バギングは組み合わせ学習の一種です。


次のレストランを決める必要があります。 誰かにレストランを勧めるには、どのレストランに行くべきかを相手が決められるように、さまざまな「はい/いいえ」の質問に答える必要があります。

1 人の友人にだけ尋ねて、または複数の友人に尋ねて、方法や一般的な合意を見つけますか?

友達が一人しかいない限り、ほとんどの人は2番目の答えをするでしょう。 この類推によって得られる洞察は、それぞれの木は異なるデータでトレーニングされ、したがって異なる「経験」を持っているため、一定の「思考の多様性」を持っているということです。

この例えは、簡潔でシンプルですが、私にとってはまったく目立たないものでした。 現実世界では、1 人の友人のオプションはすべての友人よりも経験が少なくなりますが、機械学習では、決定木モデルとランダム フォレスト モデルは同じデータでトレーニングされるため、同じ経験を持ちます。 アンサンブル モデルは実際には新しい情報を受け取りません。 もし、すべてを知っている友人にアドバイスできるなら、私は反対しないだろう。

人工的な「多様性」をシミュレートするためにデータのサブセットをランダムにサンプリングする同じデータでトレーニングされたモデルは、データ全体でトレーニングされたモデルよりもパフォーマンスが優れているのはなぜですか?

正規分布したノイズを多く含む正弦波を取ります。 これは単一の決定木分類器であり、当然ながら高分散モデルです。

100 個の「近似値」が選択されます。 これらの近似器は、データのサブセットで決定木をトレーニングするのと同じように、正弦波に沿ってランダムにポイントを選択し、正弦波の近似を生成します。 これらの適合値は平均化されて、バッグされた曲線が形成されました。 結果は? - より滑らかな曲線。


バギングが機能する理由は、モデルの分散を減らし、モデルを人工的に「信頼できる」ものにすることで一般化を向上させるためです。 これが、ロジスティック回帰のような低分散モデルではバギングがうまく機能しない理由です。

この直感についての詳細は、こちらで読むことができます。また、バギングの成功に関するより厳密な証明については、こちらで読むことができます。

サポートベクターマシン

サポート ベクター マシンは、「サポート ベクター」の概念を利用して 2 つのクラス間の距離を最大化し、データを最適に分割できる超平面を見つけようとします。

残念ながら、ほとんどのデータセットはそれほど簡単に分離できるものではなく、分離できる場合でも、SVM はそれを処理するための最適なアルゴリズムではない可能性があります。 この 1 次元の分離タスクについて考えてみましょう。分離を行うと、2 つの別々のクラスが同じクラスとしてグループ化されるため、適切な分離器は存在しません。

> 分割の提案が1つあります。

SVM は、いわゆる「カーネル トリック」を使用してデータを新しい次元に投影し、分離タスクを簡素化することで、このような問題を解決するのに強力です。 たとえば、単純に x² (x は元の次元) として定義される新しい次元を作成しましょう。


ここで、データを新しい次元に投影すると(各データ ポイントは 2 つの次元で (x, x²) として表されます)、データは明確に分離されます。

さまざまなカーネル (最も一般的なものは多項式カーネル、シグモイド カーネル、RBF カーネル) を使用して、カーネル トリックは、分離タスクを容易にする変換された空間を作成するという大変な作業を実行します。

ニューラルネットワーク

ニューラルネットワークは機械学習の頂点です。 彼らの発見と、それに基づく無限のバリエーションと改良により、ディープラーニングは独自の分野として定着しました。 確かに、ニューラル ネットワークの成功はまだ不完全です (「ニューラル ネットワークは、誰も理解できない行列の乗算です」) が、それを説明する最も簡単な方法は、普遍近似定理 (UAT) を使用することです。

本質的に、すべての教師ありアルゴリズムは、データの基本的な機能をモデル化しようとします。 通常、これは回帰平面または特徴境界です。 いくつかの水平ステップで任意の精度にモデル化できる関数 y = x² を考えてみましょう。


これが本質的にニューラル ネットワークが実行できることです。 水平ステップ サイズを除けば、モデルの関係はもう少し複雑になる可能性があります (以下の 2 次曲線や線形線など) が、ニューラル ネットワークの本質は区分関数近似値です。


各ノードはセグメンテーション機能の一部に委任されており、ネットワークは特徴空間の一部を担当する特定のニューロンをアクティブにすることを目的としています。 たとえば、ひげのある男性の画像とひげのない男性の画像を分類する場合は、ひげが頻繁に現れるピクセル位置にいくつかのノードを割り当てる必要があります。 これらのノードは、多次元空間内の特定の場所にある値の範囲を表します。

「ニューラル ネットワークはなぜ機能するのか」という疑問は未だに答えが出ていないことに再度注意してください。 UAT はこの質問には答えませんが、ニューラル ネットワークは、人間による解釈があれば、あらゆる機能をモデル化できると指摘しています。 活性化最大化や感度分析などの方法を通じてこれらの質問に答えるために、説明可能/解釈可能な AI の分野が登場しています。

より詳しい説明と普遍近似定理の視覚化については、こちらをご覧ください。

これら 4 つのアルゴリズムすべて、および他の多くのアルゴリズムでは、低次元では非常に単純に見えます。 機械学習の重要な認識は、AI に見られると主張する「魔法」や「知性」の多くは、実際には高次元の仮面の下に隠れている単純なアルゴリズムであるということです。

領域を正方形に分割する決定木は簡単ですが、高次元空間をハイパーキューブに分割する決定木はそれほど簡単ではありません。 SVM がカーネル トリックを実行して 1 次元から 2 次元への分離性を向上させることは理解できますが、SVM が何百もの大規模な次元データセットに対して同じことを実行するのは、ほとんど魔法のようです。

機械学習に対する私たちの賞賛と混乱は、高次元空間に対する理解の欠如に基づいています。 高次元の問題を解決する方法を学び、ネイティブ空間でアルゴリズムを理解することは、直感的な理解に役立ちます。

<<:  アルゴリズム図: 2 つのスタックを持つキューを実装するにはどうすればよいでしょうか?

>>:  顔認識はより便利で安全になるべきだ

ブログ    
ブログ    

推薦する

AIエンタープライズアプリケーションは成熟しつつある

デロイトは最新の「企業における AI の現状」レポートで、AI 実践の成功を特徴付ける共通点と、達成...

...

LiDARとTexas Instrumentsチップを搭載した最新のL3自動運転アーキテクチャの分析

画像出典: インターネット来年発売されるヒュンダイG90とGV80は、ヒュンダイのL3自動運転モデル...

「5つの一般的なアルゴリズム」分岐アルゴリズムとアイデアを図解で紹介

[[355166]]この記事はWeChatの公開アカウント「bigsai」から転載したもので、著者は...

機械学習にはどのプログラミング言語を選択すればよいでしょうか?

機械学習やデータサイエンスの分野で仕事を得るために、開発者はどのプログラミング言語を学ぶべきでしょう...

AI の透明性とは何ですか? また、なぜそれが必要なのですか?

AI テクノロジーを利用する組織はますます増えていますが、多くの企業はまだ AI テクノロジーの仕...

人工知能で最前線の医療従事者を守る

私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...

...

最新の機械学習ツール

コンテクストデータ サイエンスは急速に進化しており、機械学習の役割は、データ サイエンスのハイブリッ...

「顔スキャン」のリスクについてどれくらい知っていますか?

情報化の急速な発展に伴い、顔認証や指紋認証などの技術が徐々に普及しつつあります。技術の進歩によっても...

ネットワークセキュリティ運用保守サービスにおける人工知能の応用

近年、国内外のサイバーセキュリティ情勢はますます複雑化しており、従来のモデルでは国民経済の生命線に関...

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、よ...

...

...

デジタルヒューマンがアジア競技大会の聖火を灯す:ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

9月23日夜、杭州アジア競技大会の開会式でメイントーチに火が灯されると、数億人のオンラインデジタル聖...