著者: ヨギータ・キナ ブガッティが編集 企画丨孫淑娊 適切な機械学習アルゴリズムを選択するにはどうすればよいでしょうか?この質問に対する直接的で明確な答えはありません。答えは、問題の説明と必要な出力の種類、データのタイプとサイズ、利用可能な計算時間、データ内の特徴と観測の数など、多くの要因によって異なります。 アルゴリズムを選択する際に考慮すべき重要な要素をいくつか示します。 1. トレーニングデータのサイズ通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。ただし、データの可用性が制限要因となることがよくあります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値の数が少なく、特徴の数が多い場合 (遺伝子データやテキスト データなど) は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。 トレーニング データが十分に大きく、観測数が特徴の数に比べて大きい場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを選択できます。 2. 出力の正確性および/または解釈可能性モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰のような制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルは、精度は高くなりますが、解釈可能性は低くなります。 図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフ。 一部のアルゴリズムは、マッピング関数の形状の小さなバッチを生成するため、制限的と呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。 一部のアルゴリズムは、マッピング関数に対して多数の形状を生成するため、柔軟であると言われています。たとえば、k=1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、非常に柔軟です。次の図は、柔軟なアルゴリズムと制限的なアルゴリズムのトレードオフを示しています。 図2. 異なる統計学習手法を用いた、柔軟性と解釈可能性のトレードオフを示す どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。目標が推論である場合、制限付きモデルの方が解釈がはるかに簡単なので適しています。より高い精度を目標とする場合は、柔軟性モデルの方が適しています。方法が柔軟になるにつれて、その解釈可能性は一般的に低下します。 3. スピードまたはトレーニング時間通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データを使用してトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。 ナイーブベイズ、線形、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータの調整が必要な SVM や、収束時間が長いニューラル ネットワーク、ランダム フォレストなどのアルゴリズムでは、データのトレーニングに多くの時間が必要です。 4. リニア多くのアルゴリズムは、クラスを直線(またはその高次元類似物)で分離できるという仮定に基づいて動作します。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。データが線形の場合、これらのアルゴリズムは非常にうまく機能します。 ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。 線形性を調べる最良の方法は、線形ラインを当てはめるか、ロジスティック回帰または SVM を実行して残差誤差を確認することです。誤差が大きいということは、データが線形ではなく、適合するために複雑なアルゴリズムが必要であることを意味します。 5. 機能の数データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性や重要性を持つとは限りません。遺伝子データやテキスト データなどの特定の種類のデータの場合、特徴の数はデータ ポイントの数に比べて非常に大きくなることがあります。 多数の機能があると、一部の学習アルゴリズムが妨げられ、トレーニング時間が長くなりすぎる可能性があります。 SVM は、特徴空間が大きく、観測値が少ないデータに適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の手法を使用する必要があります。 さまざまな種類の機械学習の問題に使用できるアルゴリズムを詳しく説明した便利なチートシートをご紹介します。 機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分類できます。これについては、以前のブログ (https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/) で説明しました。この記事では、チートシートの使用手順について説明します。チートシートには主に 2 つの種類があります。 教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。 教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。 トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。このタイプのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、2 つの典型的な教師なし学習アルゴリズムです。 以下のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについて、それぞれのアルゴリズムを適用できる例とともに簡単に説明しています。 新しい問題を解決しようとするときに考慮すべき重要なポイントをいくつか示します。
そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを常に覚えておいてください。適切に設計された機能も同様に重要です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル学習法を試してください。精度が大幅に向上することが多いからです。 |
<<: AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」
2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...
AIの発展には基礎教育を強化しなければ手遅れになります。大規模モデル技術が急速に発展し、企業間の競争...
ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...
[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...
OpenAIはTikTokで具体的に何をしたいのでしょうか?最近、TikTok 上のソラのビデオの数...
顔検出は、幅広いアプリケーションと多くの研究者を抱えるコンピューター ビジョンの古くからのトピックで...
スーパー人工知能の出現は、多くの作業を非常に効率的に完了できることを意味するため、私たちはその出現を...
機械学習は私たちの世界を変える素晴らしいツールです。機械学習(特にディープラーニング)が従来の方法よ...
[[418475]]かつては空想の技術だった自動運転が、今や徐々に現実のものとなりつつある。 Go...
中国の研究チームは、女性の外見だけに基づいてその性格特性を予測できる人工知能プログラムを立ち上げたと...
[[322940]]人間による翻訳と機械による翻訳の両方を使用することで、健康に関する重要なフレーズ...
OpenAI が新たな App Store を立ち上げると報じられています。今回は「小規模」なプラグ...
人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...
電子データ交換 (EDI) の歴史は、企業がより効率的に電子的にデータを交換する方法を模索し始めた ...