7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

あらゆる機械学習の問題にさまざまなアルゴリズムを適用して、さまざまなモデルを生成できます。たとえば、スパム検出分類問題は、ナイーブベイズ、ロジスティック回帰、BiLSTM などのディープラーニング技術を含むさまざまなモデルを使用して解決できます。

[[347078]]

選択肢が豊富であることは良いことですが、どのモデルを本番環境に実装するかを決めるのは難しいことです。モデルを評価するためのパフォーマンスメトリックは多数ありますが、あらゆる問題に対してあらゆるアルゴリズムを実装するのは賢明ではありません。これには多くの時間と労力が必要なので、特定のタスクに適切なアルゴリズムを選択する方法を知ることが重要です。

この記事では、プロジェクトや特定のビジネスニーズに最適なアルゴリズムを選択するのに役立つ要素について説明します。これらの要素を理解することで、モデルが実行するタスクと問題の複雑さを理解できるようになります。

説明可能性

アルゴリズムの解釈可能性について議論する場合、予測を説明する能力について話していることになります。そのような説明がないアルゴリズムは、ブラックボックスアルゴリズムと呼ばれます。

k 近傍法 (KNN) などのアルゴリズムは特徴の重要度を通じて高度に解釈可能ですが、線形モデルなどのアルゴリズムは特徴に割り当てられた重みを通じて解釈可能です。機械学習モデルが最終的に何を行うかを考えるとき、アルゴリズムの解釈可能性を理解することが非常に重要になります。

がん細胞の検出や住宅ローンの信用リスクの判定などの分類問題では、システムの結果の背後にある理由を理解することが重要です。予測するだけでは不十分で、評価できる必要があります。たとえ予測が正確であったとしても、その予測に至ったプロセスを理解する必要があります。結果の背後にある理由を理解することが問題の要件である場合は、それに応じて適切なアルゴリズムを選択する必要があります。

データポイントの数と特性

データポイントの特性と数は、適切な機械学習アルゴリズムを選択する上で重要な役割を果たします。ユースケースに応じて、機械学習モデルは、さまざまなデータポイントと機能を備えたさまざまなデータセットで動作します。場合によっては、モデルを選択する際に、モデルがさまざまなサイズのデータセットをどのように処理するかを理解する必要があります。

ニューラルネットワークなどのアルゴリズムは、大量のデータや多数の機能に適しています。しかし、サポートベクターマシンなどの一部のアルゴリズムでは、限られた数の特徴しか処理できません。アルゴリズムを選択するときは、データのサイズと特徴の数を考慮してください。

データ形式

データは、多くの場合、オープンソースとカスタムデータソースの組み合わせから取得されるため、さまざまな形式で提供されることもあります。最も一般的なデータ形式はカテゴリと数値です。特定のデータセットには、カテゴリデータのみ、数値データのみ、またはその両方の組み合わせが含まれる場合があります。

アルゴリズムは数値データのみを処理できるため、データがカテゴリ形式または非数値形式である場合は、それを数値データに変換するプロセスについて検討する必要があります。

線形データ

モデルを選択する前に、データの直線性を理解することは必要なステップです。データの直線性を判断すると、決定境界または回帰線の形状を判断するのに役立ち、その結果、使用するモデルが決まります。身長と体重などの関係は線形関数で表すことができます。つまり、一方が増加すると、通常、もう一方も同じ量だけ増加し、この関係は線形モデルで表すことができます。

散布図でデータの直線性を理解する

これを知っておくと、適切な機械学習アルゴリズムを選択するのに役立ちます。データがほぼ線形に分離可能であるか、線形モデルを使用して表現できる場合は、サポートベクターマシン、線形回帰、ロジスティック回帰などのアルゴリズムが適切な選択です。さらに、ディープニューラルネットワークやアンサンブルモデルも使用できます。

トレーニング時間

トレーニング時間とは、アルゴリズムが学習してモデルを作成するのにかかる時間です。特定のユーザーに対する映画の推奨などのユースケースでは、ユーザーがログインするたびにデータをトレーニングする必要があります。しかし、在庫予測などのユースケースでは、モデルを毎秒トレーニングする必要があります。したがって、モデルのトレーニングにかかる時間を考慮することが重要です。

ご存知のとおり、ニューラルネットワークではモデルのトレーニングに多くの時間がかかります。 k 最近傍法やロジスティック回帰などの従来の機械アルゴリズムでは、かかる時間ははるかに短くなります。ランダムフォレストなどの一部のアルゴリズムでは、使用される CPU コアに応じて異なるトレーニング時間が必要になります。

予測時間

予測時間とは、モデルが予測を行うのにかかる時間です。検索エンジンやオンライン小売店を製品とすることが多いインターネット企業にとって、予測時間の速さはスムーズなユーザーエクスペリエンスの鍵となります。このような場合、速度は非常に重要であり、予測が遅すぎると、良い結果をもたらすアルゴリズムであっても役に立ちません。

ただし、一部のビジネス要件では、予測時間よりも精度の方が重要です。先ほど述べた癌細胞の例や、不正な取引を検出する場合などです。サポートベクターマシン、線形回帰、ロジスティック回帰、およびいくつかの種類のニューラルネットワークなどのアルゴリズムを使用すると、高速な予測を行うことができます。ただし、KNN やアンサンブルモデルなどのアルゴリズムでは、予測を行うのに通常より時間がかかります。

ストレージ要件

データセット全体をサーバーまたはコンピューターの RAM にロードできる場合は、多数のアルゴリズムを適用できます。ただし、これが不可能な場合は、増分学習アルゴリズムを採用する必要があるかもしれません。

増分学習とは、データを入力することで既存のモデルの知識を継続的に拡張する、つまりモデルをさらにトレーニングする機械学習手法です。増分学習アルゴリズムの目的は、既存の知識を忘れずに新しいデータに適応することであるため、モデルを再トレーニングする必要はありません。

機械学習タスクのアルゴリズムを選択する場合、パフォーマンスが最も明白な指標であると思われます。しかし、パフォーマンスだけでは最適なアルゴリズムを選択するには不十分であり、モデルはメモリ要件、トレーニングと予測の時間、解釈可能性、データ形式などの他の基準を満たす必要があります。より幅広い要素を考慮することで、より自信を持って決定を下すことができます。選択した複数のモデルの中から最適なアルゴリズムを選択するのが難しい場合は、検証データセットでテストすることもできます。

機械学習モデルの実装を決定する際に適切なモデルを選択するには、ニーズと期待される結果を分析する必要があります。これには多少の時間と労力がかかりますが、その見返りとして精度とパフォーマンスが向上します。

<<: 本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

>>: 人間は AI シミュレーションの中で生きられるのか?

ブログ

今週の土曜日は上海へ行こう！ Baidu Wenxin (ERNIE) がエンタープライズレベルの NLP モデルを迅速にカスタマイズする方法の分析

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

今週の土曜日は上海へ行こう！ Baidu Wenxin (ERNIE) がエンタープライズレベルの NLP モデルを迅速にカスタマイズする方法の分析

中国科学院、2019年の世界人工知能の発展を総合的に総括：8つの主要技術が登場し、AIはより多くの分野に浸透

生成AI: 電子商取引の新たなフロンティア

虐殺後に行方不明になった親族をAIで探す！ Googleのエンジニアが第二次世界大戦の70万枚以上の古い写真を識別できる顔認識プログラムを開発

Zigbeeプロトコルスタックの暗号化アルゴリズムについての簡単な説明

NeRF を放棄し始めていますか?ガウススプラッティングが自動運転のシナリオで人気があるのはなぜですか?

OpenAI は ChatGPT 機能のアップデートを多数リリースする予定ですが、そのうちいくつご存知ですか?

推薦する

数千億ドル規模の市場：教育用ロボットは本当に実現可能か？

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

AWS 上でディープラーニングホストを構築する (Windows 版)

ビッグデータナレッジグラフの実践経験のまとめ

機械学習の問題を解決する一般的な方法があります!この記事を1つだけ読んでみてください!

アルゴリズム問題の分析プロセス

大規模ニューラルネットワークに関する最新の文献のレビュー：効率的な DNN のトレーニングとメモリ使用量の節約

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

Dynatrace のフルスタック AI モニタリングは、企業が AWS クラウドで飛躍するのを助けます

カリフォルニア大学バークレー校と他の研究チームは、岩の多い海岸や草原を横断しながら、変化する環境にリアルタイムで素早く適応する新しいロボット動作アルゴリズムを開発している。

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決