最もよく使われる機械学習アルゴリズムのトップ10を簡単に理解する

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや複雑な理論的導出はなく、これらのアルゴリズムが何であるか、どのように適用されるかを知るための図表だけです。例は主に分類問題です。

私は各アルゴリズムのビデオをいくつか視聴し、科学を普及させる目的で、最も明確で簡潔で興味深いものを選びました。

後で各アルゴリズムの詳細な分析を行う時間があります。

今日のアルゴリズムは次のとおりです。

決定木
ランダムフォレストアルゴリズム
ロジスティック回帰
SVM
ナイーブベイズ
K近傍法アルゴリズム
K平均法アルゴリズム
アダブーストアルゴリズム
ニューラルネットワーク
マルコフ

1. 決定木

いくつかの特徴に従って分類し、各ノードで質問し、判断によってデータを 2 つのカテゴリに分割し、質問を続けます。これらの質問は既存のデータに基づいて学習され、新しいデータが入力されると、ツリー上の質問に応じて適切な葉にデータが分割されます。

2. ランダムフォレスト

ソースデータからデータをランダムに選択して複数のサブセットを形成する

S行列はソースデータであり、1-Nデータ、ABCは特徴、最後の列Cはカテゴリです。

SからM個のサブ行列をランダムに生成する

これらのM個のサブセットはM個の決定木を生成する。

新しいデータをこれらの M 個のツリーに入れて、M 個の分類結果を取得します。どのカテゴリに最も多くの予測があるかを数え、このカテゴリを最終的な予測結果として採用します。

3. ロジスティック回帰

予測対象が確率の場合、値の範囲は 0 以上 1 以下である必要があります。このとき、ドメインが一定の範囲内にない場合、値の範囲も指定された間隔を超えてしまうため、単純な線形モデルでは実現できません。

だから、この形のモデルをこの時点で用意しておいた方が良いでしょう

では、どうすればそのようなモデルが得られるのでしょうか?

このモデルは、0以上かつ1以下の2つの条件を満たす必要があります。

0 以上のモデルの場合、絶対値または二乗値を選択できます。ここでは、0 より大きい必要がある指数関数を使用します。

1以下割り算をします。分子は分子自身、分母は分子自身に1を加えた値なので、1未満でなければなりません。

さらに変換すると、ロジスティック回帰モデルが得られる。

対応する係数は、ソースデータを計算することによって取得できます。

最後に、ロジスティックグラフが得られる。

4. SVM

サポートベクターマシン

2 つのカテゴリを分離するには、超平面を取得する必要があります。最適な超平面は、2 つのカテゴリ間のマージンが最大となるものです。マージンとは、超平面とそれに最も近い点との間の距離です。下の図に示すように、Z2>Z1 なので、緑の超平面の方が優れています。

この超平面を線形方程式として表します。線の上のカテゴリは 1 以上であり、他のカテゴリは -1 以下です。

点から面までの距離は図の式に従って計算されます。

したがって、総マージンの式は次のようになります。目標はこのマージンを最大化することなので、分母を最小化する必要があり、これは最適化問題になります。

例えば、3点の場合、最適な超平面を見つけ、重みベクトル = (2, 3) - (1, 1) を定義します。

重みベクトルは (a, 2a) です。2 つの点を方程式に代入します。(2, 3) を代入してその値 = 1 とし、(1, 1) を代入してその値 = -1 とします。a の値と切片 w0 を解いて、超平面の式を取得します。

aが見つかったら、(a, 2a)を代入してサポートベクトルを取得します。

超平面の方程式にaとw0を代入すると、サポートベクターマシンが得られる。

5. ナイーブベイズ

NLPのアプリケーションの例を見てみましょう

テキストが与えられた場合、そのテキストの態度が肯定的か否定的かという感情分類を返します。

この問題を解決するには、いくつかの単語だけに注目すればよい。

このテキストはいくつかの単語とその数だけで表現されます

元々の質問は、「文が与えられた場合、その文はどのカテゴリに属するか？」です。

ベイズの定理により、これは比較的単純で簡単に解決できる問題となる。

問題は、この文がこのカテゴリに現れる確率はどれくらいか、ということになる。もちろん、式中の他の2つの確率も忘れてはいけない。

たとえば、「love」という単語は、肯定的な場合には確率が 0.1 で、否定的な場合には確率が 0.001 になります。

6. K 最近傍点

k 最も近い隣人

新しいデータが与えられると、そのデータは、それに最も近い k 個のポイントの中で最も多くのカテゴリを持つカテゴリに属します。

例: 猫と犬を区別するには、爪と音の特徴を使って円と三角形のカテゴリを判断できます。では、星はどのカテゴリを表しているでしょうか?

k=3 の場合、3 本の線で結ばれた点は最も近い 3 つの点なので、円の数が多くなり、この星は猫のものです。

7. K平均法

データセットを3つのカテゴリに分割したい。ピンクの値は大きく、黄色の値は小さい

まずは初期化し、各タイプの初期値として最も単純な3、2、1を選択します。

残りのデータについては、それぞれ3つの初期値からどれだけ離れているかを計算し、それに最も近い初期値のカテゴリに分類します。

分類後、各カテゴリーの平均値を新しいラウンドの中心点として計算します。

数ラウンド後にはグループ分けが変わらなくなるので、そこで止めてもいい。

8. アダブースト

Adaboostはブースティング方法の1つです

ボスティングとは、分類効果の低い複数の分類器を組み合わせて、より良い結果をもたらす分類器を得ることです。

下の図では、左右の 2 つの決定木を個別に見るとうまく機能しませんが、同じデータを入れて 2 つの結果を加算すると、信頼性が高まります。

たとえば、手書き認識では、開始点の方向、開始点と終了点の間の距離など、描画ボード上の多くの特徴をキャプチャできます。

トレーニング中に、各特徴の重みを取得します。たとえば、2 と 3 の始まりは非常に似ています。この特徴は分類で小さな役割を果たすため、重みは小さくなります。

アルファ角は認識能力が強いため、この特徴の重みは大きくなります。最終的な予測結果は、これらの特徴を総合的に考慮した結果です。

9. ニューラルネットワーク

ニューラルネットワークは、少なくとも2つのカテゴリに分類される入力に適しています。

NNは複数のニューロン層とそれらの間の接続から構成される

最初の層は入力層で、最後の層は出力層です。

隠れ層と出力層の両方に独自の分類器がある

入力はネットワークに送られ、アクティブ化され、計算されたスコアが次の層に渡され、次のニューラル層がアクティブ化されます。最終的に、出力層のノード上のスコアは、各クラスに属するスコアを表します。以下の例の分類結果はクラス 1 です。

同じ入力が異なるノードに送信され、異なる結果が得られる理由は、各ノードが異なる重みとバイアスを持っているためです。

これは順方向伝播である

10. マルコフ

マルコフ連鎖は状態と遷移から構成される

例えば、「素早いポウンキツネは怠け者の犬を飛び越える」という文では、マルコフ連鎖が得られる。

ステップ 1: まず各単語を状態に設定し、次に状態間の遷移の確率を計算します。

これは文に対して計算された確率です。大量のテキストを使用して統計を行うと、the の後に接続できる単語や対応する確率など、より大きな状態遷移行列が得られます。

現実世界では、キーボード入力方法の代替結果は同じ原理に基づいており、モデルはさらに進歩しています。

[編集者：seeker TEL: (010) 68476606]

<<: 最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

>>: 機械学習から学習する機械まで、データ分析アルゴリズムにも優れた管理者が必要だ

最もよく使われる機械学習アルゴリズムのトップ10を簡単に理解する

メタバースにおける責任ある AI: なぜ優先されるべきなのか?

人工知能は間違いに気づくのでしょうか？

あなたが私に言うと思いますよ！「私は数え切れないほどの映画を見てきました」ChatGPT、数分で私の記憶の奥深くにある映画を推測してください！

Huggingfaceによる大規模モデル進化ガイド：GPT-4を完全に再現する必要はない

2021年チューリング賞発表：高性能コンピューティングの先駆者であり、TOP500スーパーコンピューティングリストの共同創設者であるジャック・ドンガラが受賞

クラウドベースの生成 AI システムを実行するためのベストプラクティス

AIチップ畳み込みニューラルネットワークの原理

ビジネスコミュニケーションで機械学習を活用する9つの方法

データだけ？ 2018 年の AI 予測トップ 5

推薦する

機械学習を使って株価を予測する非常に簡単な方法

ソラは人間の代わりにはなれない！アマゾンのエンジニアは主張：実際の仕事上の対立はAIでは解決できない

人工知能が企業発展の原動力となる

機械学習の実践者が直面する8つの大きな課題

アルゴリズム学習実践ガイド

人工知能の成長がデータセンターの再設計を促している

中国のパフォーマンスがVLMの最高級GPT-4Vを上回り、アリ・クウェン-VLスーパーカップが期間限定で無料に！写真を見てプログラミングスキルを数秒で習得。視覚的な問題を一目で特定

AI時代の企業の変革とイノベーション

ChatGPT が 1 周年を迎えました: 革新、論争、AI のブレークスルーの 1 年

米メディア：人工知能（AI）は、人間の推論の欠点を伴わずにコンピューティングの利点を実現する

AIが消費者の選択に及ぼす影響

中山大学のリン・ジン氏は、視覚的意味理解の新しいトレンドについて説明しました。表現学習から知識と因果の融合まで。

構造化データのためのテキスト生成技術の研究