機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。調査会社ガートナーは、多くの組織にとって、人工知能プロジェクトの 80% は依然として成功が難しい錬金術であると予測しています。 VentureBeatが発表した「Transform2019」調査レポートによると、人工知能プロジェクトの87%は実用化されないとのこと。

[[350584]]

なぜこのようなことが起こるのでしょうか? なぜこれほど多くのプロジェクトが失敗するのでしょうか?

1. 専門知識が足りない

理由の 1 つは、機械学習テクノロジーが人々にとってまだ新しいものであることです。さらに、ほとんどの組織は、ソフトウェア ツールや必要なハードウェアについてまだよくわかっていません。

今日では、データ分析やソフトウェア開発に従事し、データ サイエンス プロジェクトをいくつか実行した人の中には、自らをデータ サイエンティストと呼ぶ人もいます。

現実には、組織はほとんどの機械学習および AI プロジェクト、特に成功基準の定義、最終的な展開、およびモデルの継続的な監視を処理するために、経験豊富な本物のデータ サイエンティストを必要としています。

2. データサイエンスと従来のソフトウェア開発の断絶

データ サイエンスと従来のソフトウェア開発の間の断絶も、もう 1 つの大きな要因です。従来のソフトウェア開発は、より予測可能かつ測定可能な傾向があります。

データ サイエンスの研究は、複数の反復と実験を通じて前進します。選択した指標がユーザーの行動に影響を与えないため、プロジェクト全体を展開フェーズから計画フェーズに戻さなければならない場合もあります。

従来のアジャイルベースのプロジェクト配信は、データ サイエンス プロジェクトには適さない可能性があります。これは、従来のソフトウェア開発プロジェクトで各タスクサイクルの最後に明確な結果を出すことに苦労してきたリーダーに大きな混乱を引き起こすことになります。

3. データの量と質

データセットが大きいほど、AI システムによる予測の精度が高くなることはよく知られています。データ量の増加による直接的な影響に加えて、データ量が増加すると多くの新たな課題が発生します。

多くの場合、組織は複数のソースからのデータを結合する必要があります。これを実行し始めると、同期がほとんど行われないことに気づき、多くの混乱が生じることになります。組織によっては、結合すべきでないデータを結合してしまうことがあり、その結果、データ ポイントの名前は同じでも意味が異なることになります。

不完全なデータにより、実用的な結果が得られなかったり、洞察が得られなかったり、誤解を招くような結果になったりする可能性があります。

4. データのラベル付け

ラベル付きデータが利用できないことは、機械学習プロジェクトを妨げるもう 1 つの課題です。 MIT Sloan Management Review によると、76% の企業がこの課題に取り組むにあたり、トレーニング データに自らラベルを付けて注釈を付けようとし、63% の企業が独自の自動ラベル付けおよび注釈付けテクノロジーを構築しようとしています。

つまり、データ サイエンティストは、ラベル付けプロセス中に専門知識を十分に活用できないことになります。これは、AI プロジェクトを効果的に実行する上での主な課題です。

そのため、多くの企業はラベリング作業を他社に委託しています。ただし、ラベリング タスクに十分なドメイン知識が必要な場合、ラベリング タスクをアウトソーシングすることは困難です。組織がデータセット全体の品質と一貫性を維持する必要がある場合は、ラベラー向けの標準化されたトレーニングに投資する必要があります。

ラベル付けするデータが複雑な場合は、独自のデータ ラベル付けツールを開発することもできます。ただし、これには機械学習タスク自体よりもコストがかかることがよくあります。

5. 組織の孤立

データは機械学習プロジェクトにおいて最も重要なエンティティです。ほとんどの組織では、このデータは、セキュリティ制約が異なり、形式も異なる (構造化ファイル、非構造化ファイル、ビデオ ファイル、オーディオ ファイル、テキスト、画像など) さまざまな場所に存在します。

このデータをさまざまな場所にさまざまな形式で保存することは、それ自体が課題です。しかし、組織がサイロ化して相互に連携できない場合、課題は倍増します。

6. 協力の欠如

もう 1 つの大きな課題は、データ サイエンティスト、データ エンジニア、データ スチュワード、ビジネス インテリジェンス (BI) エキスパート、DevOps、エンジニアリングなどのさまざまなチーム間のコラボレーションが不足していることです。これは、IoT からデータ サイエンスまでのエンジニアリング シナリオのチームにとって特に重要です。これらのシナリオでは、作業方法やプロジェクトを完了するために使用するテクノロジに多くの違いがあるためです。

エンジニアリング チームは機械学習モデルを実装し、本番環境に導入します。したがって、両者間の適切な理解と強力な連携が必要です。

7. 技術的に実現不可能なプロジェクト

機械学習プロジェクトは非常に高額になる傾向があるため、ほとんどの企業は、組織や製品を完全に変革し、莫大な利益や投資をもたらす野心的な「ムーンショット」を目指す傾向があります。

このようなプロジェクトは決して完了することはなく、データ サイエンス チームの限界に達することになります。最終的に、ビジネスリーダーはプロジェクトに対する信頼を失い、投資をやめるでしょう。

8. 技術チームとビジネスチーム間の調整の問題

多くの場合、機械学習プロジェクトでは、プロジェクトの期待、目標、成功基準に関して、ビジネス チームとデータ サイエンス チームの間で明確な整合性が取れていません。

こうしたタイプのプロジェクトは、目標がまだ明確ではないため、進捗しているかどうかがわからないため、常に研究段階にとどまります。

ここで、データ サイエンス チームは主に精度に重点を置き、ビジネス チームは財務上の利益やビジネス上の洞察などの指標に関心を持つことになります。最終的に、ビジネス チームはデータ サイエンス チームの結果を受け入れなくなります。

9. データ戦略の欠如

MIT Sloan Management Review によると、従業員数が 10 万人を超える大規模組織では、データ戦略を導入する可能性が 50% あります。組織は、機械学習プロジェクトに着手する前に、しっかりとしたデータ戦略を策定することが重要です。

データ戦略の一環として、組織は次の点を明確に理解する必要があります。

  • 組織には合計でどれくらいの量のデータが存在しますか?
  • プロジェクトでは実際にどれくらいのデータが必要ですか?
  • 必要な担当者はこのデータにどのようにアクセスしますか? また、これらの担当者にとってこのデータへのアクセスはどの程度容易ですか?
  • さまざまなソースからのすべてのデータをどのようにまとめるのでしょうか?
  • このデータをどのようにクリーンアップして変換するのでしょうか?

ほとんどの組織は、最初からデータについて計画を立てておらず、データがあることさえ期待していません。

10. リーダーシップのサポート不足

多くの人は、問題に対していくらかのお金と技術を投入するだけで、結果は自動的に得られると信じています。

しかし、データ サイエンティストが開発したモデルに信頼を寄せていないこともある組織のリーダーからの適切なサポートを得て成功するために何が必要かがわかっていません。

これは、組織のリーダーの間で AI に対する理解が不足していることと、データ サイエンティストがモデルがビジネス上のメリットをもたらす理由をリーダーに伝えられないことが原因である可能性があります。

最終的に、組織のリーダーは機械学習がどのように機能するか、そして AI が組織にとって実際に何を意味するかを理解する必要があります。

<<:  コンピュータービジョンは建設業界をどのように変えているのでしょうか?

>>:  ディープラーニングの学習をすぐに始めないでください。非常に詳細な AI 専門家のロードマップ、GitHub は数日間で 2.1k のスターを獲得

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック編集者 | ヤン・ジェン制作:51CTO テクノロジースタック(We...

...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

グラフィカル分散コンセンサスアルゴリズム

本日の記事では、グラフを使用して分散一貫性の実装原則を深く研究し、理解します。まず、自己を見つめ直す...

...

...

ビッグデータと人工知能を活用して英語教育の問題を解決する

1. 英語教育と学習の現状現在、我が国の英語教育は大きな進歩を遂げていますが、依然として我が国の発展...

...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

...

...

STLコンポーネントアルゴリズム

STL は、OOP と従来のプログラミングの両方で使用できる多数のテンプレート クラスと関数を提供し...

今後5年間のAI技術の発展と影響を展望する

人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...

AI列車に乗ってみよう!マーケティングに人工知能を活用する3つの方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

TensorFlow 2.0 中国語オープンソースブックプロジェクト: 1 日あたり 700 件の「いいね!」を獲得、GitHub のホットリストに

TensorFlow2.0の正式版がリリースされてからしばらく経ちますが、それに関連する体系的なチュ...