機械学習の実践者が直面する8つの大きな課題

機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。しかし、それらは映画にないもので、ただ素晴らしい夢なのです。それはすでにここにあります。ML 実践者は、アプリケーションをゼロから開発して本番稼働させるプロセスで特定の課題に直面するかもしれませんが、機械学習を使用して多数の優れたアプリケーションが開発されている段階にあります。

[[333716]]

これらの課題とは何でしょうか? 調べてみましょう!

1. データ収集

どのようなユースケースでも、データが重要な役割を果たします。データサイエンティストの仕事の 60% はデータの収集です。機械学習を試してみたい初心者は、Kaggle、UCI ML Repository などから簡単にデータを見つけることができます。

実際のユースケースを実装するには、Web スクレイピングまたは (Twitter などの API を介して) データを収集するか、ビジネス上の問題を解決するためにクライアントからデータを取得する必要があります (ここでは、ML エンジニアがドメインエキスパートと協力してデータを収集する必要があります)。

データを収集した後、それを構造化してデータベースに保存する必要があります。これにはビッグデータ（またはデータエンジニア）に関する知識が必要であり、ビッグデータはここで重要な役割を果たします。

2. トレーニングデータが少ない

データを収集したら、その量がユースケースに十分かどうかを確認する必要があります (時系列データの場合は、少なくとも 3 ～ 5 年分のデータが必要です)。

機械学習プロジェクトに取り組む際に重要なことは、学習アルゴリズムを選択し、取得したデータを使用してモデルをトレーニングすることです。したがって、人間である私たちは当然間違いを犯し、結果が悪くなる可能性があります。ここでの間違いは、間違ったモデルを選択したり、間違ったデータを選択したりすることである可能性があります。さて、不良データとはどういう意味でしょうか? 理解してみましょう。

機械学習モデルが赤ちゃんであり、その赤ちゃんに猫と犬を区別することを教えようとしているとします。そこで、まず猫を指差して「これは猫です」と言い、次に犬を指差して同じことをします（このプロセスを複数回繰り返す可能性があります）。これで、子供は形や色、その他の特徴を認識して猫と犬を区別できるようになります。まさに、赤ちゃんは天才（違う）になりました！

同様に、大量のデータを使用してモデルをトレーニングします。子供は比較的少数のサンプルで動物を区別できますが、機械学習モデルでは単純な問題でも何千もの例が必要になります。画像分類や音声認識などの複雑な問題では、数百万のデータポイントが必要になる場合があります。

つまり、一つ明らかなことがあります。十分なデータでモデルをトレーニングする必要があります。

3. 代表的でないトレーニングデータ

トレーニングデータは、より優れた一般化のために新しいケースを代表するものでなければなりません。つまり、トレーニングに使用するデータは、発生したケースと今後発生するケースをすべてカバーする必要があります。代表的でないトレーニングセットを使用すると、トレーニングされたモデルが正確な予測を行う可能性が低くなります。

ビジネス問題の観点から一般的な状況を予測するために開発されたシステムは、優れた機械学習モデルと見なされます。データモデルがこれまで見たことのないデータであっても、モデルのパフォーマンス向上に役立ちます。

トレーニングサンプルの数が少ない場合、サンプリングノイズは代表的なデータではありません。また、トレーニングに使用される戦略に欠陥がある場合は、無数のトレーニングとテストによってサンプリングバイアスも導入されます。

調査による標本抽出バイアスのよく知られた例は、1936 年の米国大統領選挙 (ランドン対ルーズベルト) のときに発生しました。このとき、リテラリーダイジェスト誌が大規模な世論調査を実施し、約 1,000 万人に郵送で送付したところ、240 万人が回答し、ランドンが 57% の票を獲得すると高い確信を持って予測しました。ルーズベルトは62%の票を獲得して勝利した。

ここで問題となるのは、世論調査を行うために使用された電子メールアドレス、Literary Digest が使用した雑誌の定期購読、クラブの会員リストなどを取得するために使用されたサンプリング方法であり、これらは裕福な個人が共和党に投票するために確実に使用されるお金です (したがって、下落します)。さらに、回答者の 25% しか回答しなかったため、無回答バイアスが発生しました。

ドリフトのない正確な予測を行うには、トレーニングデータセットが代表的なものでなければなりません。

4. データ品質が低い

実際には、モデルのトレーニングを直接開始するのではなく、データを分析することが最も重要なステップです。しかし、収集したデータはトレーニングの準備ができていない可能性があります。たとえば、一部のサンプルは異常であり、他のサンプルには外れ値や欠損値があります。

このような場合、外れ値を削除したり、中央値または平均値を使用して欠落している特徴/値を埋めたり（高さを埋めるため）、欠落している値を持つ属性/インスタンスを単純に削除したり、これらのインスタンスの有無にかかわらずモデルをトレーニングしたりすることができます。

システムが間違った予測をするのは望ましくありませんよね? したがって、正確な結果を得るにはデータの品質が非常に重要です。データの前処理は、欠損値をフィルタリングし、モデルに必要なものを抽出して並べ替えることによって実行する必要があります。

5. 無関係/不必要な機能

ゴミを入れればゴミが出る

トレーニングデータに無関係な特徴が多数含まれ、関連する特徴が十分に含まれている場合、機械学習システムは期待どおりの結果を返しません。機械学習プロジェクトの成功に必要な重要な側面の 1 つは、モデルをトレーニングするための適切な特徴を選択すること、つまり特徴選択です。

収集した入力特徴（年齢、性別、体重、身長、場所（住んでいる場所））に基づいて、人が運動する必要がある時間数を予測するプロジェクトに取り組んでいると仮定しましょう。

これら 5 つの特徴のうち、位置の値は出力特徴に影響を与えない可能性があります。これは無関係な機能であり、この機能がない方がより良い結果が得られることはわかっています。
あるいは、2 つの特徴を組み合わせて、より有用な特徴、つまり特徴抽出を生成することもできます。この例では、体重と身長を除外することで、BMI と呼ばれる特徴を生成できます。データセットに変換を適用することもできます。
より多くのデータを収集して新しい機能を作成することも役立ちます。

6. トレーニングデータのオーバーフィッティング

新しい街のレストランを訪れたとしましょう。何かを注文するためにメニューを確認したところ、料金または請求額が高すぎることに気づきました。「市内のレストランはどれも高すぎて手が出ない」と言いたくなるかもしれません。過度な一般化は私たちが常に行っていることです。そして驚くべきことに、フレームワークも同様の罠に陥る可能性があり、AI ではこれを過剰適合と呼びます。

> 過剰適合

これは、モデルのパフォーマンスが良好で、トレーニングデータセットに対して予測を行うことができるが、一般化が不十分であることを意味します。

トレーニングサンプルがそれぞれ 3000、500、500、500 個であるリンゴ、桃、オレンジ、バナナを分類する画像分類モデルを実装しようとしているとします。これらのサンプルを使用してモデルをトレーニングすると、リンゴのトレーニングサンプルが多すぎるため、システムがオレンジをリンゴとして分類する可能性が高くなります。これをオーバーサンプリングと呼ぶことができます。

オーバーフィッティングは、トレーニングデータセット内のノイズと比較してモデルが予測不可能すぎる場合に発生します。これを回避するには、次の操作を実行します。

より多くのトレーニングデータを収集します。
より少ない特徴を持つモデルが選択され、高次多項式モデルは線形モデルよりも優先されません。
データエラーを修正し、外れ値を削除し、トレーニングセット内のインスタンスの数を減らします。

7. トレーニングデータが不十分

オーバーフィッティングの反対であるアンダーフィッティングは、通常、モデルが単純すぎてデータの基礎となる構造を理解できない場合に発生します。それは小さいサイズのズボンを履こうとするようなものです。通常、これは、正確なモデルを構築するための情報が不足している場合、または非線形情報を使用して線形モデルを構築または開発しようとする場合に発生します。

> アンダーフィッティング

アンダーフィッティングを削減するための主なオプションは次のとおりです。

特徴エンジニアリング - 学習アルゴリズムに優れた特徴を提供します。
データからノイズを除去します。
パラメータを増やして強力なモデルを選択します。

8. オフライン学習とモデルの展開

機械学習エンジニアリングでは、アプリケーションを構築する際に、1) データ収集、2) データクリーニング、3) 機能エンジニアリング、4) パターン分析、5) モデルのトレーニングと最適化、6) デプロイメントの手順に従います。

おっと！デプロイメントと言いましたか？はい、多くの機械学習実践者はすべての手順を実行できますが、デプロイメントスキルが不足しており、実践不足と依存関係の問題、ビジネスの基盤となるモデルの理解不足、ビジネスの問題の理解不足、不安定なモデルなどにより、優れたアプリケーションを本番環境に導入することが最大の課題の 1 つになっています。

通常、多くの開発者は Kaggle などのサイトからデータを収集し、モデルのトレーニングを開始します。しかし、現実には、データ収集には動的に変化するソースが必要です。このタイプの変数データには、オフライン学習やバッチ学習は使用できません。システムはトレーニングされ、その後、学習曲線なしで運用できるように運用されます。動的な変更により、データが変動する可能性があります。

> オンライン学習

常に、機械学習プロジェクトのデータセットを収集、分析、構築/トレーニング、テスト、検証し、モデルをバッチでトレーニングするためのパイプラインを構築することから始めます。

結論は

トレーニングセットが小さすぎる場合、またはデータが一般化されておらず、ノイズが多く、無関係な機能がある場合、システムは適切に機能しません。機械学習を実践する際に初心者が直面する基本的な課題のいくつかについて説明しました。

何かご提案がありましたら、ぜひお聞かせください。もうすぐ別の興味深いトピックに戻ります。それまでは、家にいて、安全に過ごし、探検を続けてください!

<<: AI + eコマース: あなたのショッピング体験の責任者は誰ですか?

>>: 人工知能温度測定が「スタンドガード」に登場！立ち止まる必要がなく、複数人が同時に温度を測定できます