適切な機械学習アルゴリズムを簡単に選択

適切な機械学習アルゴリズムを簡単に選択

著者: ヨギータ・キナ

ブガッティが編集

企画丨孫淑娊

適切な機械学習アルゴリズムを選択するにはどうすればよいでしょうか?

この質問に対する直接的で明確な答えはありません。答えは、問題の説明と必要な出力の種類、データのタイプとサイズ、利用可能な計算時間、データ内の特徴と観測の数など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素をいくつか示します。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。ただし、データの可用性が制限要因となることがよくあります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値の数が少なく、特徴の数が多い場合 (遺伝子データやテキスト データなど) は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴の数に比べて大きい場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを選択できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰のような制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルは、精度は高くなりますが、解釈可能性は低くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフ。

一部のアルゴリズムは、マッピング関数の形状の小さなバッチを生成するため、制限的と呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、マッピング関数に対して多数の形状を生成するため、柔軟であると言われています。たとえば、k=1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、非常に柔軟です。次の図は、柔軟なアルゴリズムと制限的なアルゴリズムのトレードオフを示しています。

図2. 異なる統計学習手法を用いた、柔軟性と解釈可能性のトレードオフを示す

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。目標が推論である場合、制限付きモデルの方が解釈がはるかに簡単なので適しています。より高い精度を目標とする場合は、柔軟性モデルの方が適しています。方法が柔軟になるにつれて、その解釈可能性は一般的に低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データを使用してトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズ、線形、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータの調整が必要な SVM や、収束時間が長いニューラル ネットワーク、ランダム フォレストなどのアルゴリズムでは、データのトレーニングに多くの時間が必要です。

4. リニア

多くのアルゴリズムは、クラスを直線(またはその高次元類似物)で分離できるという仮定に基づいて動作します。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。データが線形の場合、これらのアルゴリズムは非常にうまく機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

線形性を調べる最良の方法は、線形ラインを当てはめるか、ロジスティック回帰または SVM を実行して残差誤差を確認することです。誤差が大きいということは、データが線形ではなく、適合するために複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性や重要性を持つとは限りません。遺伝子データやテキスト データなどの特定の種類のデータの場合、特徴の数はデータ ポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムが妨げられ、トレーニング時間が長くなりすぎる可能性があります。 SVM は、特徴空間が大きく、観測値が少ないデータに適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の手法を使用する必要があります。

さまざまな種類の機械学習の問題に使用できるアルゴリズムを詳しく説明した便利なチートシートをご紹介します。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分類できます。これについては、以前のブログ (https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/) で説明しました。この記事では、チートシートの使用手順について説明します。チートシートには主に 2 つの種類があります。

教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。このタイプのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、2 つの典型的な教師なし学習アルゴリズムです。

以下のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについて、それぞれのアルゴリズムを適用できる例とともに簡単に説明しています。

新しい問題を解決しようとするときに考慮すべき重要なポイントをいくつか示します。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、より複雑な方法を試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを常に覚えておいてください。適切に設計された機能も同様に重要です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル学習法を試してください。精度が大幅に向上することが多いからです。

<<:  AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

>>:  AIは「GitHub危機」を乗り越えられるか?

推薦する

...

Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ

[[347377]] Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ近年、Pyth...

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...

アクセンチュアが世界の主要12産業を分析、AIは2035年までに中国に7兆ドルの生産をもたらす

導入世界的に有名なコンサルティング会社であるアクセンチュアは最近、AI がもたらす産業革新がもたらす...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...

ノキア、ネットワーク自動化におけるAI推進のためドバイに「イノベーションラボ」を開設すると発表

9月26日、海外メディアETテレコムによると、ノキアは中東とアフリカでの技術革新を促進し、ネットワー...

...

世界のAIチップ投資環境が明らかに、5つのシナリオにチャンスあり

[[241691]]画像出典: Visual China AIチップ投資マップAI チップの設計は、...

マイクロソフトがローブを買収:一般の人々が人工知能を簡単に利用できるように

マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...

人工知能が税務業界を変える7つの方法

[[313080]]政府は、医療、輸送、防衛、国家安全保障など、多くの分野で AI とロボット工学を...

全天候型インテリジェント無人配達、即時消費が「無人」時代の到来を告げる

「携帯電話で注文すれば、1時間以内に商品が自宅に届く」という即時消費が「無人」時代の到来を告げた。本...

Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...