機械学習プロジェクトが失敗する9つの理由

この記事では、データサイエンスプロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避するのに役立つことを願っています。

[[240030]]

1. 間違った質問をする

間違った質問をすると、間違った答えが返ってきます。たとえば、金融業界における詐欺の識別の問題では、最初に「この特定の取引は詐欺的か?」という疑問が生じる可能性があります。これを判断するには、不正な取引と不正でない取引の例を含むデータセットが必要になります。このデータセットは、詐欺の検出を専門とする専門家グループ (SME) の協力を得て生成できます。しかし、専門家は過去の不正行為に関する知識に基づいて不正行為にラベルを付けたため、データセットでトレーニングされたモデルは古いパターンに適合する不正行為のみを捕捉し、新たな不正行為の手法を識別することができませんでした。質問が「このトランザクションは異常ですか？」に変更されると、「通常の」署名と一致しないトランザクションを探すだけでよく、予測された不正なトランザクションをさらに分析してモデルの結果を検証するのは人間に頼ることになります。しかし、このアプローチの副作用は、以前のモデルよりも誤検知が多くなる可能性があることです。

2. 間違った問題を解決するためにそれを使おうとする

私たちはしばしば問題を見落とします。問題を解決するために多大な労力を費やしますが、解決した後、目標を達成できるでしょうか?たとえば、人工知能を使用して、人の全身写真をウェブサイトにアップロードし、リマインダーに基づいて適切な服のセットを仕立てることができるプロジェクトを開発するというアイデアを思いつきました。このプロジェクトを完了するには、次のタスクを完了する必要があります。

写真の身体寸法を判定する AI/ML テクノロジーを開発します。

·顧客とやり取りするためのウェブサイトとモバイルアプリを設計および作成します。

この製品の市場があるかどうかを判断するために実現可能性調査を実施します。

技術者として、私たちは製品の設計とコーディングに最も精通しているので、最初の 2 つのタスクの調査を開始することをお勧めします。最初の 2 つのタスクを実行した後に実現可能性調査を実施し、その結果、自社製品の市場が存在しないことが判明したら、大変なことになります。

3. データが不十分

一部のデータは非常に機密性が高く、厳重に保護されています。そのため、アクセスが厳しく制限され、関連データを取得できない場合があります。

たとえば、ライフサイエンス分野に関連する一部のプロジェクトでは、ライフサイエンス業界は保護された健康情報 (PHI) の保存と送信について非常に敏感であるため、利用可能なデータセットのほとんどからこの情報が削除されます。たとえば、ミシシッピ州の人々はコネチカット州の人々よりも糖尿病になる可能性が高いです。ただし、この情報は入手できない可能性があるため、使用することはできません。

4. 適切なデータがない

たとえ優れたモデルを持っていたとしても、不良データや欠陥のあるデータを使用すると、予測が不正確になる可能性があります。教師あり学習では、事前にラベル付けされたデータを使用しますが、このようなラベル付けは通常人間によって行われるため、多少の誤りが生じる可能性があります。極端な例として、人間による画像のラベル付けが 100% 正確である MINIST データセットなど、不正確なデータを使用して、完全な精度を持つモデルを想像してください。さて、数字の 3 分の 1 が誤ってラベル付けされていると仮定します。古い格言にあるように、ゴミを入れればゴミが出てくることになります。

5. データが多すぎる

理論上は、大量のデータは必要ありません (適切なデータである限り)。実際には、ストレージやコンピューティングのコストとパフォーマンスが大幅に向上したとしても、時間と空間の物理的な制約によって制限されてしまいます。したがって、データサイエンティストの最も重要な仕事の 1 つは、正確なモデル予測の達成に影響を与えると思われるデータソースを賢明に選択することです。たとえば、赤ちゃんの出生体重を予測するなどです。それは母親の年齢と住んでいる場所に関係しているようですが、名前とは関係ないと思われます。この場合、無関係なデータを識別して削除するには、人間の介入が必要になります。モデルを実行する前にどの要素が関連しているかを判断することは、データサイエンスプロジェクトを台無しにする可能性のある潜在的な落とし穴のままです。

6. 不適切な人材の採用

データサイエンスの業務が小規模な場合は、すべてのタスクを実行するために 1 人または少数の人に依存するしか選択肢がない場合があります。ただし、チームが拡大するにつれて、各タスクの専門家を雇うことを検討する必要があります。特にバイオテクノロジーや金融などの業界では、専門的なドメイン知識を持つことは非常に価値があり、非常に重要です。優れたコミュニケーションスキルを持つ主題専門家 (SME) とデータサイエンティストを配置することも重要です。チームが成長し続けるにつれて、適切なリソースと人材プールを持つことが、業務の成功にとって最も重要な要素の 1 つになります。

7. 間違ったツールの使用

例を見てみましょう。最近、MySQL のトレーニングのためにチームを派遣し、彼らが戻ってきたときに分析パイプラインを設定する必要があるとします。彼らの心は再訓練されたので、彼らは新しいツールを使うことを提案します。ただし、パイプラインが処理するデータの量と、結果に対して実行する必要がある分析の量によっては、この選択がジョブにとって不適切な選択となる可能性があります。多くの SQL 製品では、単一のテーブルに保存できるデータの量に厳しい制限があります。この場合、MongoDB のような NoSQL 製品、または AWS Redshift のような拡張性に優れた列指向データベースを使用する方がよい選択肢となる可能性があります。

8. 適切なモデルがない

「No Free Lunch」（NFL）は数学における有名な定理です。すべての問題を解決できる単一のモデルは存在しないことを指摘しています。たとえば、マーケティングアプリケーションでは、顧客の電子メールや住所などの属性を保持することが重要になる場合があります。医療現場では、患者の身長、体重、血液型がより重要になる場合があります。これは、ある状況ではうまく機能するモデルが、別の状況ではうまく機能しない可能性があることを示唆しています。したがって、データサイエンスでは、複数のモデルを繰り返し使用して、特定の状況に最適なモデルを見つけるのが一般的です。これは特に教師あり学習に当てはまります。検証またはクロス検証は、さまざまな複雑さの複数のモデルの精度を評価して、最も適切なモデルを見つけるためによく使用されます。さらに、さまざまなアルゴリズムを使用して効率的なモデルをトレーニングできます。たとえば、線形回帰は正規方程式 (線形最小二乗法) または勾配降下法を使用してトレーニングできます。

9. 適切なスケールがない

機械学習では、トレーニングデータとテストデータに基づいてモデルのパフォーマンスを測定することが非常に重要です。この情報は、使用するモデルとハイパーパラメータを選択し、モデルが本番環境で使用できる状態であるかどうかを判断するために使用されます。モデルのパフォーマンスを測定するには、現在のタスクに最適な評価メトリックを選択することが最も重要です。

メトリックの選択については多くの文献があるので、ここでは詳しく説明しません。ただし、メトリックを選択する際に留意すべきパラメータをいくつか示します。

機械学習の問題の種類: 教師あり学習、教師なし学習、強化学習。

教師あり学習のタイプ: バイナリ、分類、または回帰。

データセットの種類: データセットのバランスが取れていない場合は、別のメトリックの方が適切な場合があります。

この記事は北京郵電大学のAlibaba Cloud Yunqi Communityによって翻訳されました。

<<: AI は清華大学の博士号取得者がラップの歌詞を書くのを手伝い、次のレベルに進みました。AI はクロストークを行うことができるのでしょうか?

>>: ディープラーニングとデータセンターの関係