機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。 しかし、それらは映画にないもので、ただ素晴らしい夢なのです。 それはすでにここにあります。ML 実践者は、アプリケーションをゼロから開発して本番稼働させるプロセスで特定の課題に直面するかもしれませんが、機械学習を使用して多数の優れたアプリケーションが開発されている段階にあります。
これらの課題とは何でしょうか? 調べてみましょう! 1. データ収集 どのようなユースケースでも、データが重要な役割を果たします。 データ サイエンティストの仕事の 60% はデータの収集です。 機械学習を試してみたい初心者は、Kaggle、UCI ML Repository などから簡単にデータを見つけることができます。 実際のユースケースを実装するには、Web スクレイピングまたは (Twitter などの API を介して) データを収集するか、ビジネス上の問題を解決するためにクライアントからデータを取得する必要があります (ここでは、ML エンジニアがドメイン エキスパートと協力してデータを収集する必要があります)。 データを収集した後、それを構造化してデータベースに保存する必要があります。 これにはビッグデータ(またはデータエンジニア)に関する知識が必要であり、ビッグデータはここで重要な役割を果たします。 2. トレーニングデータが少ない データを収集したら、その量がユースケースに十分かどうかを確認する必要があります (時系列データの場合は、少なくとも 3 ~ 5 年分のデータが必要です)。 機械学習プロジェクトに取り組む際に重要なことは、学習アルゴリズムを選択し、取得したデータを使用してモデルをトレーニングすることです。 したがって、人間である私たちは当然間違いを犯し、結果が悪くなる可能性があります。 ここでの間違いは、間違ったモデルを選択したり、間違ったデータを選択したりすることである可能性があります。 さて、不良データとはどういう意味でしょうか? 理解してみましょう。 機械学習モデルが赤ちゃんであり、その赤ちゃんに猫と犬を区別することを教えようとしているとします。 そこで、まず猫を指差して「これは猫です」と言い、次に犬を指差して同じことをします(このプロセスを複数回繰り返す可能性があります)。 これで、子供は形や色、その他の特徴を認識して猫と犬を区別できるようになります。 まさに、赤ちゃんは天才(違う)になりました! 同様に、大量のデータを使用してモデルをトレーニングします。 子供は比較的少数のサンプルで動物を区別できますが、機械学習モデルでは単純な問題でも何千もの例が必要になります。 画像分類や音声認識などの複雑な問題では、数百万のデータ ポイントが必要になる場合があります。 つまり、一つ明らかなことがあります。 十分なデータでモデルをトレーニングする必要があります。 3. 代表的でないトレーニングデータ トレーニング データは、より優れた一般化のために新しいケースを代表するものでなければなりません。つまり、トレーニングに使用するデータは、発生したケースと今後発生するケースをすべてカバーする必要があります。 代表的でないトレーニング セットを使用すると、トレーニングされたモデルが正確な予測を行う可能性が低くなります。 ビジネス問題の観点から一般的な状況を予測するために開発されたシステムは、優れた機械学習モデルと見なされます。 データ モデルがこれまで見たことのないデータであっても、モデルのパフォーマンス向上に役立ちます。 トレーニング サンプルの数が少ない場合、サンプリング ノイズは代表的なデータではありません。また、トレーニングに使用される戦略に欠陥がある場合は、無数のトレーニングとテストによってサンプリング バイアスも導入されます。 調査による標本抽出バイアスのよく知られた例は、1936 年の米国大統領選挙 (ランドン対ルーズベルト) のときに発生しました。このとき、リテラリー ダイジェスト誌が大規模な世論調査を実施し、約 1,000 万人に郵送で送付したところ、240 万人が回答し、ランドンが 57% の票を獲得すると高い確信を持って予測しました。 ルーズベルトは62%の票を獲得して勝利した。 ここで問題となるのは、世論調査を行うために使用された電子メール アドレス、Literary Digest が使用した雑誌の定期購読、クラブの会員リストなどを取得するために使用されたサンプリング方法であり、これらは裕福な個人が共和党に投票するために確実に使用されるお金です (したがって、下落します)。 さらに、回答者の 25% しか回答しなかったため、無回答バイアスが発生しました。 ドリフトのない正確な予測を行うには、トレーニング データセットが代表的なものでなければなりません。 4. データ品質が低い 実際には、モデルのトレーニングを直接開始するのではなく、データを分析することが最も重要なステップです。 しかし、収集したデータはトレーニングの準備ができていない可能性があります。たとえば、一部のサンプルは異常であり、他のサンプルには外れ値や欠損値があります。 このような場合、外れ値を削除したり、中央値または平均値を使用して欠落している特徴/値を埋めたり(高さを埋めるため)、欠落している値を持つ属性/インスタンスを単純に削除したり、これらのインスタンスの有無にかかわらずモデルをトレーニングしたりすることができます。 システムが間違った予測をするのは望ましくありませんよね? したがって、正確な結果を得るにはデータの品質が非常に重要です。 データの前処理は、欠損値をフィルタリングし、モデルに必要なものを抽出して並べ替えることによって実行する必要があります。 5. 無関係/不必要な機能 ゴミを入れればゴミが出る トレーニング データに無関係な特徴が多数含まれ、関連する特徴が十分に含まれている場合、機械学習システムは期待どおりの結果を返しません。 機械学習プロジェクトの成功に必要な重要な側面の 1 つは、モデルをトレーニングするための適切な特徴を選択すること、つまり特徴選択です。 収集した入力特徴(年齢、性別、体重、身長、場所(住んでいる場所))に基づいて、人が運動する必要がある時間数を予測するプロジェクトに取り組んでいると仮定しましょう。
6. トレーニングデータのオーバーフィッティング 新しい街のレストランを訪れたとしましょう。 何かを注文するためにメニューを確認したところ、料金または請求額が高すぎることに気づきました。 「市内のレストランはどれも高すぎて手が出ない」と言いたくなるかもしれません。 過度な一般化は私たちが常に行っていることです。そして驚くべきことに、フレームワークも同様の罠に陥る可能性があり、AI ではこれを過剰適合と呼びます。 > 過剰適合 これは、モデルのパフォーマンスが良好で、トレーニング データセットに対して予測を行うことができるが、一般化が不十分であることを意味します。 トレーニング サンプルがそれぞれ 3000、500、500、500 個であるリンゴ、桃、オレンジ、バナナを分類する画像分類モデルを実装しようとしているとします。 これらのサンプルを使用してモデルをトレーニングすると、リンゴのトレーニング サンプルが多すぎるため、システムがオレンジをリンゴとして分類する可能性が高くなります。 これをオーバーサンプリングと呼ぶことができます。 オーバーフィッティングは、トレーニング データセット内のノイズと比較してモデルが予測不可能すぎる場合に発生します。 これを回避するには、次の操作を実行します。
7. トレーニングデータが不十分 オーバーフィッティングの反対であるアンダーフィッティングは、通常、モデルが単純すぎてデータの基礎となる構造を理解できない場合に発生します。 それは小さいサイズのズボンを履こうとするようなものです。 通常、これは、正確なモデルを構築するための情報が不足している場合、または非線形情報を使用して線形モデルを構築または開発しようとする場合に発生します。 > アンダーフィッティング アンダーフィッティングを削減するための主なオプションは次のとおりです。
8. オフライン学習とモデルの展開 機械学習エンジニアリングでは、アプリケーションを構築する際に、1) データ収集、2) データクリーニング、3) 機能エンジニアリング、4) パターン分析、5) モデルのトレーニングと最適化、6) デプロイメントの手順に従います。 おっと!デプロイメントと言いましたか?はい、多くの機械学習実践者はすべての手順を実行できますが、デプロイメント スキルが不足しており、実践不足と依存関係の問題、ビジネスの基盤となるモデルの理解不足、ビジネスの問題の理解不足、不安定なモデルなどにより、優れたアプリケーションを本番環境に導入することが最大の課題の 1 つになっています。 通常、多くの開発者は Kaggle などのサイトからデータを収集し、モデルのトレーニングを開始します。 しかし、現実には、データ収集には動的に変化するソースが必要です。 このタイプの変数データには、オフライン学習やバッチ学習は使用できません。 システムはトレーニングされ、その後、学習曲線なしで運用できるように運用されます。 動的な変更により、データが変動する可能性があります。 > オンライン学習 常に、機械学習プロジェクトのデータセットを収集、分析、構築/トレーニング、テスト、検証し、モデルをバッチでトレーニングするためのパイプラインを構築することから始めます。 結論は トレーニング セットが小さすぎる場合、またはデータが一般化されておらず、ノイズが多く、無関係な機能がある場合、システムは適切に機能しません。 機械学習を実践する際に初心者が直面する基本的な課題のいくつかについて説明しました。 何かご提案がありましたら、ぜひお聞かせください。 もうすぐ別の興味深いトピックに戻ります。 それまでは、家にいて、安全に過ごし、探検を続けてください! |
<<: AI + eコマース: あなたのショッピング体験の責任者は誰ですか?
>>: 人工知能温度測定が「スタンドガード」に登場!立ち止まる必要がなく、複数人が同時に温度を測定できます
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能(AI)ブームにより、Nvidiaの株価は史上最高値に達した。 Nvidia の GPU は...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
7月18日のニュース、Businessinsiderによると、米国の若い労働者はキャリア危機に直面し...
AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...
[[378077]]すべてが自動化によって制御され、それが未来の産物だと考えられていた時代は過ぎ去り...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ロビン・リーは標高3,500メートルで牛糞を拾い、泥を塗り、牛の皮を剥ぐという極めて型破りなことをし...
米国計算機協会(ACM)は、2017年のチューリング賞を、チップ業界の巨匠2名、スタンフォード大学元...
AlphaGoがイ・セドルを破った後、人類の知能の最後の高みも人工知能によって征服されたと誰もが言...
[[208068]] 1. 2つの数値を入れ替える通常、2 つの数値の値を交換する方法としては、新し...
複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用され...