人工知能で最も人気のあるアルゴリズムトップ10をわかりやすく解説

人工知能で最も人気のあるアルゴリズムトップ10をわかりやすく解説

機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴリズムの種類は、達成したい目標によって異なります。

現在、機械学習のためのアルゴリズムは数多く存在します。したがって、このような多数のアルゴリズムは初心者にとっては非常に圧倒的になる可能性があります。今日は、機械学習のこのエキサイティングな世界に慣れていただけるよう、最も人気のある機械学習アルゴリズム 10 個について簡単に説明します。

話を元に戻しましょう!

1. 線形回帰

線形回帰はおそらく最も人気のある機械学習アルゴリズムです。線形回帰は直線を見つけ、その直線を散布図のデータ ポイントにできるだけ近づけることです。直線の方程式をそのデータに当てはめることによって、独立変数 (x 値) と数値結果 (y 値) を表現しようとします。この線は将来の値を予測するために使用できます。

このアルゴリズムで最も一般的に使用される手法は最小二乗法です。この方法では、線上の各データ ポイントまでの垂直距離を最小化する最適な線を計算します。合計距離は、すべてのデータ ポイントの垂直距離 (緑の線) の二乗の合計です。この二乗誤差または距離を最小化することでモデルを適合させるという考え方です。

たとえば、単回帰分析では、独立変数(x軸)が1つと従属変数(y軸)が1つあります。

2. ロジスティック回帰

ロジスティック回帰は線形回帰に似ていますが、出力がバイナリの場合(つまり、結果が 2 つの値しか取れない場合)に使用されます。最終出力の予測は、ロジスティック関数 g() と呼ばれる非線形 S 字型関数です。

このロジスティック関数は、中間結果値を 0 ~ 1 の範囲の結果変数 Y にマッピングします。これらの値は、Y が発生する確率として解釈できます。シグモイド ロジスティック関数の特性により、ロジスティック回帰は分類タスクにより適したものになります。

試験に合格する確率と勉強に費やした時間の関係を示すロジスティック回帰プロット。

3. 決定木

決定木は、回帰タスクと分類タスクの両方に使用できます。

このアルゴリズムでは、トレーニング モデルはツリー表現の決定ルールを学習することによって、ターゲット変数の値を予測することを学習します。ツリーは、対応する属性を持つノードで構成されます。

各ノードでは、利用可能な機能に基づいてデータに関する質問をします。左と右の枝は可能な答えを表します。最終ノード(つまり、リーフノード)は予測値に対応します。

各機能の重要性はトップダウンアプローチによって決定されます。ノードが上位になるほど、その属性の重要性が高まります。

レストランで待つかどうかを決めるための意思決定ツリーの例。

4. ナイーブベイズ

ナイーブベイズはベイズの定理に基づいています。各クラスの確率と、x の値が与えられた場合の各クラスの条件付き確率を測定します。このアルゴリズムは分類問題に使用され、バイナリの「はい/いいえ」の回答を生成します。以下の式を見てください。

ナイーブベイズ分類器は、スパムをフィルタリングするために使用できる一般的な統計手法です。

5. サポートベクターマシン (SVM)

サポート ベクター マシン (SVM) は、分類問題のための教師ありアルゴリズムです。 SVM は、データ ポイント間に最大マージンを持つ 2 本の線を描画しようとします。これを行うには、データ項目を n 次元空間内の点としてプロットします。ここで、n は入力特徴の数です。これを基に、サポート ベクター マシンは、クラス ラベルによって可能な出力を最適に分離する、ハイパープレーンと呼ばれる最適な境界を見つけます。

超平面と最も近いクラス ポイント間の距離をマージンと呼びます。最適な超平面は、最も近いデータ ポイントと両方のクラス間の距離が最大になるようにポイントを分類するためのマージンが最大になります。

たとえば、H1 は 2 つのクラスを分離しません。しかし、H2 はそうしますが、その差はごくわずかです。そして、H3 はそれらを最大のマージンで分離します。

6. K近傍法アルゴリズム(KNN)

K-近傍法 (KNN) アルゴリズムは非常にシンプルです。 KNN は、トレーニング セット全体で K 個の最も類似したインスタンス、つまり K 個の近傍を検索し、これらすべての K 個のインスタンスに共通の出力変数を割り当てることによって、オブジェクトを分類します。

K の選択は重要です。値が小さいとノイズが多くなり、結果が不正確になる可能性がありますが、値が大きいと実行不可能になります。これは分類に最もよく使用されますが、回帰問題にも適用できます。

インスタンス間の類似性を評価するために使用される距離は、ユークリッド距離、マンハッタン距離、またはミンコフスキー距離です。ユークリッド距離は、2 点間の通常の直線距離です。実際には、点の座標間の差の二乗の合計の平方根です。

KNN分類の例

7. K平均法

K-means はデータを分類してクラスタ化します。たとえば、このアルゴリズムを使用して、購入履歴に基づいてユーザーをグループ化できます。データセット内の K 個のクラスターを検出します。 K 平均法は教師なし学習に使用されるため、トレーニング データ X と識別するクラスターの数 K のみを使用する必要があります。

アルゴリズムは、各データ ポイントをその特性に基づいて K グループの 1 つに繰り返し割り当てます。各 K クラスターに対して K 個のポイント (重心と呼ばれる) を選択します。類似性に基づいて、最も近い重心を持つクラスターに新しいデータ ポイントが追加されます。このプロセスは、重心の変化が止まるまで続きます。

8. ランダムフォレスト

ランダム フォレストは、非常に人気のあるアンサンブル マシン ラーニング アルゴリズムです。このアルゴリズムの基本的な考え方は、1 人の個人の意見よりも、多数の人の意見の方が正確であるということです。ランダム フォレストでは、決定木のアンサンブルを使用します (決定木を参照)。

新しいオブジェクトを分類するには、各決定ツリーから投票を行い、その結果を組み合わせて、多数決に基づいて最終決定を下します。

(a) トレーニング中、各決定木はトレーニング セットのブートストラップ サンプルに基づいて構築されます。

(b)分類中、入力インスタンスに関する決定は多数決に基づいて行われます。

9. 次元削減

機械学習の問題は、今日収集できる膨大な量のデータによってさらに複雑になっています。つまり、トレーニングは非常に遅く、適切な解決策を見つけるのが困難です。この問題はしばしば「次元の呪い」と呼ばれます。

次元削減は、最も重要な情報を失うことなく、特定の特徴をより高いレベルの特徴に結合することによってこの問題に対処しようとします。主成分分析 (PCA) は、最も一般的な次元削減手法です。

主成分分析は、データセットを低次元の線または超平面/部分空間に圧縮することで、データセットの次元を削減します。これにより、元のデータの顕著な特徴が可能な限り保持されます。

すべてのデータ ポイントを直線に近似することによって実現できる次元削減の例。

10. 人工ニューラルネットワーク(ANN)

人工ニューラル ネットワーク (ANN) は、大規模で複雑な機械学習タスクを処理できます。ニューラル ネットワークは、本質的には、ニューロンと呼ばれる重み付けされたエッジとノードの相互接続されたレイヤーのセットです。入力層と出力層の間に、複数の隠し層を挿入できます。人工ニューラル ネットワークは 2 つの隠れ層を使用します。それ以外にも、ディープラーニングに対処する必要があります。

人工ニューラルネットワークの動作原理は脳の構造に似ています。ニューロンのグループにはランダムな重みが割り当てられ、それによってニューロンが入力データを処理する方法が決まります。ニューラル ネットワークは入力データに基づいてトレーニングされ、入力と出力の関係を学習します。トレーニングフェーズでは、システムは正しい回答にアクセスできます。

ネットワークが入力を正確に認識しない場合、システムは重みを調整します。十分なトレーニングを行えば、常に正しいパターンを識別できるようになります。

各円形ノードは人工ニューロンを表し、矢印は 1 つの人工ニューロンの出力から別の人工ニューロンの入力への接続を表します。

次は何ですか?これで、最も人気のある機械学習アルゴリズムの基本的な紹介が完了しました。より複雑な概念を学習し、徹底的な実践を通じてそれを実装する準備が整いました。これらのアルゴリズムの実装方法を学習したい場合は、Educative の Grokking Data Science コースをご覧ください。このコースでは、これらの興味深い理論を明確で実際のアプリケーションに適用します。

楽しい学習をお願いします!

<<:  旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

>>:  英国メディアが人工知能の軍事応用とそのリスクを分析

ブログ    
ブログ    

推薦する

ディープラーニングの悪循環は驚くべき結果をもたらすだろう

[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...

...

機械学習のケーススタディ: クレジットカード詐欺検出

私は51CTOアカデミー講師の唐玉迪です。51CTOアカデミーの「4.20 ITリチャージフェスティ...

年末総括|2020年日本におけるAI(ロボティクス)分野の主なニュースを振り返る

在庫がなければ大晦日もありません。 2020年に日本のAI・ロボティクス分野で起こった出来事をいくつ...

TalkingDataはビッグデータとAIについて語ります

[51CTO.com からのオリジナル記事] Singularity University の CE...

オーストラリアの裁判所は、特許出願においてAIを発明者とみなすことができると判決を下した。

[[415316]]海外メディアの報道によると、オーストラリアの裁判所は、特許出願において人工知能...

清華大学のAI学生が顔を見せて歌う、この応用は将来に期待される

最近、清華大学初のAI学生がついにその本性を現した。伝えられるところによると、彼の名前は華志兵。清華...

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LL...

...

DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解...

タオ氏の新しい論文:有名な素数予想を部分的に証明、新しい方法は彼の古いモデルを使用する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

マスク氏と陳天橋氏の両者が期待している脳コンピューターインターフェースは、将来いつ実現するのだろうか?

[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...

Docker Compose + GPU + TensorFlow が生み出す魔法の火花

Docker は素晴らしいです。開発と配布に Docker を使用する人が増えています。 Docke...