機械学習における興味深いアルゴリズム 10 選

機械学習における興味深いアルゴリズム 10 選

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや複雑な理論的導出はなく、これらのアルゴリズムが何であるか、どのように適用されるかを知るための図表だけです。例は主に分類問題です。

私は各アルゴリズムのビデオをいくつか視聴し、科学を普及させる目的で、最も明確で簡潔で興味深いものを選びました。 後で各アルゴリズムの詳細な分析を行う時間があります。

今日のアルゴリズムは次のとおりです。

  • 決定木
  • ランダムフォレストアルゴリズム
  • ロジスティック回帰
  • SVM
  • ナイーブベイズ
  • K近傍法アルゴリズム
  • K平均法アルゴリズム
  • アダブーストアルゴリズム
  • ニューラルネットワーク
  • マルコフ

1. 決定木

いくつかの特徴に従って分類し、各ノードで質問し、判断によってデータを 2 つのカテゴリに分割し、質問を続けます。これらの質問は既存のデータに基づいて学習され、新しいデータが入力されると、ツリー上の質問に応じて適切な葉にデータが分割されます。

2. ランダムフォレスト

ソース データからデータをランダムに選択して、複数のサブセットを形成します。

S マトリックスはソース データで、1 ~ N のデータ、A、B、C は特徴、最後の列 C はカテゴリです。

S から M 個のサブ行列をランダムに生成します。

これらの M 個のサブセットから M 個の決定木が生成されます。

新しいデータをこれらの M 個のツリーに入れて、M 個の分類結果を取得します。どのカテゴリに最も多くの予測数があるかを数えて確認し、このカテゴリを最終的な予測結果として使用します。

3. ロジスティック回帰

予測対象が確率の場合、値の範囲は 0 以上 1 以下である必要があります。このとき、ドメインが一定の範囲内にない場合、値の範囲も指定された間隔を超えてしまうため、単純な線形モデルでは実現できません。

したがって、現時点では、この形状のモデルの方が適しています。

では、どうすればそのようなモデルが得られるのでしょうか?

このモデルは、「0以上」と「1以下」という2つの条件を満たす必要があります。

  • 0 以上のモデルの場合、絶対値または平方値を選択できます。ここでは、0 より大きい必要がある指数関数を使用します。
  • 1 以下 割り算をすると、分子が分子自身で、分母が分子自身に 1 を加えた値となり、1 未満になります。

さらに変換すると、ロジスティック回帰モデルが得られます。

対応する係数は、ソースデータを計算することによって取得できます。

最後に、ロジスティック グラフを取得します。

4. SVM

2 つのカテゴリを分離するには、超平面を取得する必要があります。最適な超平面は、2 つのカテゴリ間のマージンが最大になるものです。マージンとは、超平面とそれに最も近い点との間の距離です。下の図に示すように、Z2>Z1 なので、緑の超平面の方が優れています。

この超平面を線形方程式として表します。線の上のカテゴリは 1 以上で、他のカテゴリは -1 以下です。

点から面までの距離は、図の式に従って計算されます。

したがって、合計マージンの式は次のようになります。目標はこのマージンを最大化することなので、分母を最小化する必要があり、これは最適化問題になります。

たとえば、3 つの点について、最適な超平面を見つけ、重みベクトル = (2, 3) - (1, 1) を定義します。

重みベクトルは (a, 2a) です。2 つの点を方程式に代入します。(2, 3) を代入してその値 = 1 とし、(1, 1) を代入してその値 = -1 とします。a の値と切片 w0 を解いて、超平面の式を取得します。

a を計算した後、それを (a, 2a) に代入するとサポートベクターが得られます。a と w0 を超平面の方程式に代入すると、サポートベクターマシンが得られます。

5. ナイーブベイズ

NLP での応用例を次に示します。

テキストが与えられた場合、テキストの態度が肯定的であるか否定的であるかの感情分類を返します。

これを修正するために、いくつかの単語を見てみましょう。

このテキストは、いくつかの単語とその数だけで表されます。

元々の質問は、「文が与えられた場合、その文はどのカテゴリに属する​​か?」です。

ベイズの定理により、これは比較的単純で簡単に解決できる問題になります。

問題は、この文がこのカテゴリに現れる確率はどれくらいか、ということになります。もちろん、式内の他の 2 つの確率も忘れないでください。

例: 「love」という単語は、肯定的なケースでは確率が 0.1 で、否定的なケースでは確率が 0.001 です。

6. K近傍アルゴリズム

新しいデータが与えられると、そのデータは、それに最も近い k 個のポイントの中で最もポイント数が多いカテゴリに属します。

たとえば、「猫」と「犬」を区別するために、「爪」と「音」という 2 つの特徴を使用する場合、円と三角形は既知のカテゴリですが、この「星」はどのカテゴリを表すのでしょうか。

k=3 の場合、これらの 3 本の線で結ばれた点は最も近い 3 つの点なので、円の数が多くなり、この星は猫のものであることがわかります。

7. K平均法アルゴリズム

まず、データセットを 3 つのカテゴリに分割する必要があります。ピンクの値は大きく、黄色の値は小さいです。

まず初期化し、各カテゴリの初期値として最も単純な3、2、1を選択します。

残りのデータについては、それぞれ3つの初期値との距離を計算し、それに最も近い初期値のカテゴリに分類されます。

分類後、新しいラウンドの中心点として各カテゴリの平均値を計算します。

数ラウンド後、グループ分けは変わらなくなり、そこで停止できます。

8. アダブースト

Adaboost はブースティング方法の 1 つです。

ボスティングとは、分類効果の低い複数の分類器を組み合わせて、より良い結果をもたらす分類器を得ることです。

下の図では、左右の 2 つの決定木を個別に見るとあまりうまく機能しませんが、同じデータを入れて 2 つの結果を加算すると、信頼性が高まります。

たとえば、手書き認識では、開始点の方向、開始点と終了点の間の距離など、描画ボード上の多くの特徴をキャプチャできます。

トレーニング中に、各特徴の重みを取得します。たとえば、2 と 3 の最初の部分は非常に似ています。この特徴は分類で小さな役割を果たすため、重みは小さくなります。

このアルファ角度は認識能力が強いため、この特徴の重みは大きくなり、最終的な予測結果はこれらの特徴を総合的に考慮した結果になります。

9. ネットワーク ニューラルネットワーク

ニューラル ネットワークは、少なくとも 2 つのカテゴリに分類される入力に適合します。

  • NN は複数のニューロン層とそれらの間の接続で構成されます。
  • 最初の層は入力層で、最後の層は出力層です。

隠し層と出力層の両方に独自の分類器があります。

入力はネットワークに入力され、アクティブ化され、計算されたスコアが次の層に渡され、後続のニューラル層がアクティブ化されます。最終的に、出力層のノード上のスコアは、各クラスに属するスコアを表します。下図の例の分類結果はクラス 1 です。

同じ入力が異なるノードに送信され、異なる結果が得られるのは、各ノードが異なる重みとバイアスを持っているためであり、これは順方向伝播です。

10. マルコフ

マルコフ連鎖は状態と遷移で構成されます。

たとえば、「素早い茶色のキツネが怠け者の犬を飛び越える」という文に基づいて、マルコフ連鎖を取得する必要があります。

手順: まず各単語を状態に設定し、次に状態間の遷移の確率を計算します。

これは文に対して計算された確率です。大量のテキストを使用して統計を行うと、the の後に接続できる単語や対応する確率など、より大きな状態転送行列が得られます。

現実世界では、キーボード入力方法の代替結果は同じ原理に従い、モデルはさらに高度になります。

<<:  ハイリアンと手を携えてデジタル変革の道を議論する

>>:  トヨタのAIの旅:車だけにとどまらない

ブログ    
ブログ    

推薦する

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...

自動運転は道路安全の問題をどのように解決するのでしょうか?

最近、自動運転に関する悪いニュースが数多く報道されていますが、特にアリゾナ州で Uber の自動運転...

人工知能がデジタルマーケティング業界を変革

[[391859]]人工知能はデジタルマーケティング業界に変化をもたらしているのでしょうか? はい!...

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える:革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...

グーグル、規制当局の措置を受けてEUでのチャットボット「バード」のリリースを一時停止

グーグルは6月14日、欧州連合(EU)の主要データ規制当局がプライバシーに関する懸念を表明したため、...

このアルゴリズムに関する優れた本を読めば、AIを本当に理解できる

[[240202]]新しい技術を学ぶとき、多くの人は公式ドキュメントを読み、ビデオチュートリアルやデ...

人工知能にブレーキをかけるべき6つの理由

人工知能は徐々にビジネスプロセスに導入されつつあります。しかし、CIO は立ち止まって、AI ツール...

ビッグデータとAIの連携

人工知能と機械学習は、組織がビッグデータからより優れたビジネス洞察を得るのにどのように役立つのでしょ...

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最...

DL時代のコード補完ツールは言語モデルよりもはるかに効果的である

プログラマーからデータ エンジニアまで、プログラム コードを書くことは基本的なスキルですが、長いコー...

世界の自動運転事故を比較することで、そのデータと真実が明らかになった。

最近起きた自動車事故は、被害者の身元が明らかになったこと、運転支援技術の台頭と普及、中国の有名自動車...

タオバオのメイン検索リコールシナリオにおけるマルチモーダル技術の探究

検索リコールは検索システムの基礎として、効果向上の上限を決定します。私たちが直面している主な課題は、...

AIの現実世界での最悪の使用例

人工知能(AI)の最悪のシナリオは、ハリウッドの大ヒット映画でおなじみのものだ。人間のような知性と知...

...

知らないうちにAIを構築しているかもしれない

[[189866]]私たちは皆、検証コードに精通しています。reCAPTCHA は、人間と機械を区別...