7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

あらゆる機械学習の問題にさまざまなアルゴリズムを適用して、さまざまなモデルを生成できます。たとえば、スパム検出分類問題は、ナイーブベイズ、ロジスティック回帰、BiLSTM などのディープラーニング技術を含むさまざまなモデルを使用して解決できます。

[[347078]]

選択肢が豊富であることは良いことですが、どのモデルを本番環境に実装するかを決めるのは難しいことです。モデルを評価するためのパフォーマンス メトリックは多数ありますが、あらゆる問題に対してあらゆるアルゴリズムを実装するのは賢明ではありません。これには多くの時間と労力が必要なので、特定のタスクに適切なアルゴリズムを選択する方法を知ることが重要です。

この記事では、プロジェクトや特定のビジネス ニーズに最適なアルゴリズムを選択するのに役立つ要素について説明します。これらの要素を理解することで、モデルが実行するタスクと問題の複雑さを理解できるようになります。

説明可能性

アルゴリズムの解釈可能性について議論する場合、予測を説明する能力について話していることになります。そのような説明がないアルゴリズムは、ブラックボックス アルゴリズムと呼ばれます。

k 近傍法 (KNN) などのアルゴリズムは特徴の重要度を通じて高度に解釈可能ですが、線形モデルなどのアルゴリズムは特徴に割り当てられた重みを通じて解釈可能です。機械学習モデルが最終的に何を行うかを考えるとき、アルゴリズムの解釈可能性を理解することが非常に重要になります。

がん細胞の検出や住宅ローンの信用リスクの判定などの分類問題では、システムの結果の背後にある理由を理解することが重要です。予測するだけでは不十分で、評価できる必要があります。たとえ予測が正確であったとしても、その予測に至ったプロセスを理解する必要があります。結果の背後にある理由を理解することが問題の要件である場合は、それに応じて適切なアルゴリズムを選択する必要があります。

データポイントの数と特性

データ ポイントの特性と数は、適切な機械学習アルゴリズムを選択する上で重要な役割を果たします。ユースケースに応じて、機械学習モデルは、さまざまなデータポイントと機能を備えたさまざまなデータセットで動作します。場合によっては、モデルを選択する際に、モデルがさまざまなサイズのデータ​​セットをどのように処理するかを理解する必要があります。

ニューラル ネットワークなどのアルゴリズムは、大量のデータや多数の機能に適しています。しかし、サポート ベクター マシンなどの一部のアルゴリズムでは、限られた数の特徴しか処理できません。アルゴリズムを選択するときは、データのサイズと特徴の数を考慮してください。

データ形式

データは、多くの場合、オープンソースとカスタム データ ソースの組み合わせから取得されるため、さまざまな形式で提供されることもあります。最も一般的なデータ形式はカテゴリと数値です。特定のデータセットには、カテゴリデータのみ、数値データのみ、またはその両方の組み合わせが含まれる場合があります。

アルゴリズムは数値データのみを処理できるため、データがカテゴリ形式または非数値形式である場合は、それを数値データに変換するプロセスについて検討する必要があります。

線形データ

モデルを選択する前に、データの直線性を理解することは必要なステップです。データの直線性を判断すると、決定境界または回帰線の形状を判断するのに役立ち、その結果、使用するモデルが決まります。身長と体重などの関係は線形関数で表すことができます。つまり、一方が増加すると、通常、もう一方も同じ量だけ増加し、この関係は線形モデルで表すことができます。

散布図でデータの直線性を理解する

これを知っておくと、適切な機械学習アルゴリズムを選択するのに役立ちます。データがほぼ線形に分離可能であるか、線形モデルを使用して表現できる場合は、サポート ベクター マシン、線形回帰、ロジスティック回帰などのアルゴリズムが適切な選択です。さらに、ディープニューラルネットワークやアンサンブルモデルも使用できます。

トレーニング時間

トレーニング時間とは、アルゴリズムが学習してモデルを作成するのにかかる時間です。特定のユーザーに対する映画の推奨などのユースケースでは、ユーザーがログインするたびにデータをトレーニングする必要があります。しかし、在庫予測などのユースケースでは、モデルを毎秒トレーニングする必要があります。したがって、モデルのトレーニングにかかる​​時間を考慮することが重要です。

ご存知のとおり、ニューラル ネットワークではモデルのトレーニングに多くの時間がかかります。 k 最近傍法やロジスティック回帰などの従来の機械アルゴリズムでは、かかる時間ははるかに短くなります。ランダム フォレストなどの一部のアルゴリズムでは、使用される CPU コアに応じて異なるトレーニング時間が必要になります。

予測時間

予測時間とは、モデルが予測を行うのにかかる時間です。検索エンジンやオンライン小売店を製品とすることが多いインターネット企業にとって、予測時間の速さはスムーズなユーザー エクスペリエンスの鍵となります。このような場合、速度は非常に重要であり、予測が遅すぎると、良い結果をもたらすアルゴリズムであっても役に立ちません。

ただし、一部のビジネス要件では、予測時間よりも精度の方が重要です。先ほど述べた癌細胞の例や、不正な取引を検出する場合などです。サポートベクターマシン、線形回帰、ロジスティック回帰、およびいくつかの種類のニューラルネットワークなどのアルゴリズムを使用すると、高速な予測を行うことができます。ただし、KNN やアンサンブル モデルなどのアルゴリズムでは、予測を行うのに通常より時間がかかります。

ストレージ要件

データセット全体をサーバーまたはコンピューターの RAM にロードできる場合は、多数のアルゴリズムを適用できます。ただし、これが不可能な場合は、増分学習アルゴリズムを採用する必要があるかもしれません。

増分学習とは、データを入力することで既存のモデルの知識を継続的に拡張する、つまりモデルをさらにトレーニングする機械学習手法です。増分学習アルゴリズムの目的は、既存の知識を忘れずに新しいデータに適応することであるため、モデルを再トレーニングする必要はありません。

機械学習タスクのアルゴリズムを選択する場合、パフォーマンスが最も明白な指標であると思われます。しかし、パフォーマンスだけでは最適なアルゴリズムを選択するには不十分であり、モデルはメモリ要件、トレーニングと予測の時間、解釈可能性、データ形式などの他の基準を満たす必要があります。より幅広い要素を考慮することで、より自信を持って決定を下すことができます。選択した複数のモデルの中から最適なアルゴリズムを選択するのが難しい場合は、検証データセットでテストすることもできます。

機械学習モデルの実装を決定する際に適切なモデルを選択するには、ニーズと期待される結果を分析する必要があります。これには多少の時間と労力がかかりますが、その見返りとして精度とパフォーマンスが向上します。

<<:  本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

>>:  人間は AI シミュレーションの中で生きられるのか?

ブログ    
ブログ    
ブログ    

推薦する

数千億ドル規模の市場:教育用ロボットは本当に実現可能か?

[[341606]]ある調査では、2025年までに中国の教育用ロボット市場は3000億ドルに達し、...

...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴリズムをもう一度見直...

AWS 上でディープラーニングホストを構築する (Windows 版)

この記事では、Amazon EC2 P2 インスタンスをレンタルして使用する方法について簡単に説明し...

ビッグデータナレッジグラフの実践経験のまとめ

データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...

機械学習の問題を解決する一般的な方法があります!この記事を1つだけ読んでみてください!

[[205485]]アビシェーク・タクル編集者: Cathy、Huang Wenchang、Jia...

アルゴリズム問題の分析プロセス

[[384555]]トピックを理解する最近アルゴリズムの問​​題をたくさん見ていますが、小さな問題を...

大規模ニューラルネットワークに関する最新の文献のレビュー:効率的な DNN のトレーニングとメモリ使用量の節約

現代のディープラーニングおよび人工知能技術の開発には、ディープニューラルネットワーク (DNN) を...

...

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

[[253697]] [51CTO.com クイック翻訳] 過去 10 年間の人工知能の急速な成長...

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

COVID-19パンデミックの発生以来、世界中の研究チームがコロナウイルスの検出や感染の予測に役立つ...

Dynatrace のフルスタック AI モニタリングは、企業が AWS クラウドで飛躍するのを助けます

2018 年 10 月 31 日、上海 - 世界有数のソフトウェア インテリジェンス企業である Dy...

...

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決

このニッチ産業には大きな発展の可能性があり、特にドアロック業界は従来のドアロックからスマートドアロッ...