適切な機械学習アルゴリズムを簡単に選択

適切な機械学習アルゴリズムを簡単に選択

著者: ヨギータ・キナ

ブガッティが編集

企画丨孫淑娊

適切な機械学習アルゴリズムを選択するにはどうすればよいでしょうか?

この質問に対する直接的で明確な答えはありません。答えは、問題の説明と必要な出力の種類、データのタイプとサイズ、利用可能な計算時間、データ内の特徴と観測の数など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素をいくつか示します。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。ただし、データの可用性が制限要因となることがよくあります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値の数が少なく、特徴の数が多い場合 (遺伝子データやテキスト データなど) は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴の数に比べて大きい場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを選択できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰のような制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルは、精度は高くなりますが、解釈可能性は低くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフ。

一部のアルゴリズムは、マッピング関数の形状の小さなバッチを生成するため、制限的と呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、マッピング関数に対して多数の形状を生成するため、柔軟であると言われています。たとえば、k=1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、非常に柔軟です。次の図は、柔軟なアルゴリズムと制限的なアルゴリズムのトレードオフを示しています。

図2. 異なる統計学習手法を用いた、柔軟性と解釈可能性のトレードオフを示す

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。目標が推論である場合、制限付きモデルの方が解釈がはるかに簡単なので適しています。より高い精度を目標とする場合は、柔軟性モデルの方が適しています。方法が柔軟になるにつれて、その解釈可能性は一般的に低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データを使用してトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズ、線形、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータの調整が必要な SVM や、収束時間が長いニューラル ネットワーク、ランダム フォレストなどのアルゴリズムでは、データのトレーニングに多くの時間が必要です。

4. リニア

多くのアルゴリズムは、クラスを直線(またはその高次元類似物)で分離できるという仮定に基づいて動作します。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。データが線形の場合、これらのアルゴリズムは非常にうまく機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

線形性を調べる最良の方法は、線形ラインを当てはめるか、ロジスティック回帰または SVM を実行して残差誤差を確認することです。誤差が大きいということは、データが線形ではなく、適合するために複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性や重要性を持つとは限りません。遺伝子データやテキスト データなどの特定の種類のデータの場合、特徴の数はデータ ポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムが妨げられ、トレーニング時間が長くなりすぎる可能性があります。 SVM は、特徴空間が大きく、観測値が少ないデータに適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の手法を使用する必要があります。

さまざまな種類の機械学習の問題に使用できるアルゴリズムを詳しく説明した便利なチートシートをご紹介します。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分類できます。これについては、以前のブログ (https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/) で説明しました。この記事では、チートシートの使用手順について説明します。チートシートには主に 2 つの種類があります。

教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。このタイプのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、2 つの典型的な教師なし学習アルゴリズムです。

以下のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについて、それぞれのアルゴリズムを適用できる例とともに簡単に説明しています。

新しい問題を解決しようとするときに考慮すべき重要なポイントをいくつか示します。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、より複雑な方法を試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを常に覚えておいてください。適切に設計された機能も同様に重要です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル学習法を試してください。精度が大幅に向上することが多いからです。

<<:  AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

>>:  AIは「GitHub危機」を乗り越えられるか?

ブログ    

推薦する

何?ニューラルネットワークは新しい知識も生み出せるのでしょうか?

作業を実行するための明示的なアルゴリズムを知らなくても、特定のタスク用にニューラル ネットワーク (...

AI を活用して災害による損失を評価し、救助活動を支援する

地震、ハリケーン、洪水などの自然災害は、広大な地域と何百万人もの人々に影響を及ぼし、物流上の大きな課...

百度の自動運転技術は掘削機の運転を熟練ドライバーと同等の効率化に導く

海外メディアのTech Xploreによると、百度の研究ロボット工学・自動運転研究所(RAL)とメリ...

Google 検索は年間 890 回以上改善され、そのコア アルゴリズムは毎日変更されます。

8月21日、Googleの検索事業責任者アミット・シンガル氏はGoogle+に記事を掲載し、過去1...

AIとIoT技術を活用したスマートホームの開発

[[436214]]パーソナライゼーションと自動化は、ユーザー エクスペリエンスの品質を向上させるた...

アメリカの科学者が、将来AI人工知能に代わるAGIの概念を提唱しました!

人工知能の分野の中心にあるのは、いつの日か人間と同じくらい賢い機械を作ることができるようになるという...

生産効率の向上以外に、AI テクノロジーは製造業に何をもたらすのでしょうか?

現代科学技術の発展は製造業の変革と向上に新たな活力をもたらしており、人工知能技術もその一つです。 [...

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知...

次世代の顔認識技術とは何でしょうか?ここを見て

アクセス制御業界における顔認識の需要の高まりに応えて、このコンセプトをより高い技術レベルで拡張する新...

脳のようなデバイスを使用して神経信号を効率的に処理し、新しい脳コンピューターインターフェースを構築する

最近、清華大学マイクロナノエレクトロニクス学部および未来チップ技術先進イノベーションセンターのQia...

...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...

GPU + 生成AIが時空間データ分析の改善に貢献

翻訳者|朱 仙中レビュー | Chonglou導入携帯電話、気候センサー、金融市場取引、車両や輸送コ...

2025年までに音声認識市場は267億9000万ドルに達する

3月29日、市場調査会社Meticulous Market Researchが発表した最新のレポート...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...