適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]]

【51CTO.com クイック翻訳】

この質問に対する単純で明確な答えはありません。答えは、問題の説明、期待される出力の種類、データの種類とサイズ、利用可能な計算時間、特徴の数、データ内の観測値など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素がいくつかあります。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。しかし、多くの場合、データの可用性は制約となります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値は少ないが遺伝子データやテキスト データなどの特徴が多数ある場合は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴数よりも多い場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを使用できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰などの制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルでは、解釈可能性の低さと引き換えに精度が高くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフの表現。

一部のアルゴリズムは、マッピング関数の形状の範囲が狭いため、「制限的」アルゴリズムと呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、より広範囲のマッピング関数の形状を生成できるため、柔軟なアルゴリズムと呼ばれます。たとえば、k = 1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、柔軟性が非常に高くなります。次の図は、柔軟なアルゴリズムと制限的なアルゴリズム間のトレードオフを示しています。

図 2. さまざまな統計学習方法を使用した柔軟性と解釈可能性のトレードオフの表現。

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。推論が目的であれば、解釈がはるかに簡単な制限付きモデルの方が適しています。より高い精度が目標であれば、柔軟なモデルの方が適しています。方法の柔軟性が高まるにつれて、解釈可能性は通常低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データをトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズや線形回帰、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータ調整を必要とする SVM などのアルゴリズム、収束時間が長いニューラル ネットワーク、ランダム フォレストでは、データのトレーニングに多くの時間が必要です。

4. 直線性

多くのアルゴリズムは、クラスを直線 (またはその高次元類似物) で分離できるという仮定に基づいています。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。これらのアルゴリズムは、データが線形である場合に適切に機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

直線性を調べる最良の方法は、直線を当てはめるか、ロジスティック回帰または SVM を実行して残差を調べることです。誤差が大きいということは、データが線形ではなく、適合するには複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性があり重要であるとは限りません。遺伝子データやテキストデータなどの特定の種類のデータの場合、特徴の数はデータポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムの動作が遅くなり、トレーニングに時間がかかりすぎる可能性があります。 SVM は、データの特徴空間が大きく、観測ポイントが少ない状況に適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の方法を使用する必要があります。

以下の便利なチートシートには、さまざまな種類の機械学習の問題を解決するために使用できるアルゴリズムが詳しく記載されています。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分けられます。この記事では、このチートシートを使用するプロセスについて説明します。

チートシートには主に 2 つの種類があります。

  • 教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

  • トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。これらのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、教師なし学習アルゴリズムの 2 つのタイプです。

次のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについてのみ説明し、それぞれの方法を適用できる例を示します。

新しい問題を解決しようとするときに考慮すべき主なポイントは次のとおりです。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、その後、より複雑なアプローチを試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを覚えておいてください。同様に重要なのは、適切に設計された機能です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル法は優れた精度を提供することが多いため、試してみてください。

原題: 適切な機械学習アルゴリズムを選択するための簡単なガイド、著者: Yogita Kinha

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

>>:  なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

自然言語処理が人工知能の中核である理由

コンピュータが人間を騙して自分は人間だと信じ込ませることができるなら、そのコンピュータは知的であると...

製造業の発展は新たな課題に直面しており、人工知能が重要な役割を果たすだろう

[[245913]]現在、製造業の発展は新たな歴史的時期を迎えており、世界各国間の競争の焦点となって...

一枚の紙で AI を騙せる。これが OpenAI の最も先進的な視覚モデルでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

日本の警察は、AIを使って不審者の動きや表情を分析し、「一匹狼」犯罪に対処する予定

7月10日、日経中国版ウェブサイトの報道によると、日本の警察庁は早ければ年内にもAIによる捜査活動を...

この敵対的アルゴリズムは顔認識アルゴリズムを失敗させ、WeChatやWeiboの写真圧縮にも抵抗できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルゴリズム問題演習 - 大規模ブラックリスト IP マッチング

多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...

...

...

CSS ボックスモデルのアルゴリズムとアプリケーションの詳細な説明

ここでは、ブロックレベル ボックスのデフォルトの幅、幅のない絶対配置ボックス、幅のないフローティング...

Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

インダストリー4.0の時代に入り、デジタル化と自動化の導入により生産環境はより効率的になりました。同...

AIのジレンマをどう解決するか?

今日の大手企業が AI におけるいくつかの大きな課題をどのように克服しているか。概要:多くの企業はビ...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...