機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。調査会社ガートナーは、多くの組織にとって、人工知能プロジェクトの 80% は依然として成功が難しい錬金術であると予測しています。 VentureBeatが発表した「Transform2019」調査レポートによると、人工知能プロジェクトの87%は実用化されないとのこと。

[[350584]]

なぜこのようなことが起こるのでしょうか? なぜこれほど多くのプロジェクトが失敗するのでしょうか?

1. 専門知識が足りない

理由の 1 つは、機械学習テクノロジーが人々にとってまだ新しいものであることです。さらに、ほとんどの組織は、ソフトウェア ツールや必要なハードウェアについてまだよくわかっていません。

今日では、データ分析やソフトウェア開発に従事し、データ サイエンス プロジェクトをいくつか実行した人の中には、自らをデータ サイエンティストと呼ぶ人もいます。

現実には、組織はほとんどの機械学習および AI プロジェクト、特に成功基準の定義、最終的な展開、およびモデルの継続的な監視を処理するために、経験豊富な本物のデータ サイエンティストを必要としています。

2. データサイエンスと従来のソフトウェア開発の断絶

データ サイエンスと従来のソフトウェア開発の間の断絶も、もう 1 つの大きな要因です。従来のソフトウェア開発は、より予測可能かつ測定可能な傾向があります。

データ サイエンスの研究は、複数の反復と実験を通じて前進します。選択した指標がユーザーの行動に影響を与えないため、プロジェクト全体を展開フェーズから計画フェーズに戻さなければならない場合もあります。

従来のアジャイルベースのプロジェクト配信は、データ サイエンス プロジェクトには適さない可能性があります。これは、従来のソフトウェア開発プロジェクトで各タスクサイクルの最後に明確な結果を出すことに苦労してきたリーダーに大きな混乱を引き起こすことになります。

3. データの量と質

データセットが大きいほど、AI システムによる予測の精度が高くなることはよく知られています。データ量の増加による直接的な影響に加えて、データ量が増加すると多くの新たな課題が発生します。

多くの場合、組織は複数のソースからのデータを結合する必要があります。これを実行し始めると、同期がほとんど行われないことに気づき、多くの混乱が生じることになります。組織によっては、結合すべきでないデータを結合してしまうことがあり、その結果、データ ポイントの名前は同じでも意味が異なることになります。

不完全なデータにより、実用的な結果が得られなかったり、洞察が得られなかったり、誤解を招くような結果になったりする可能性があります。

4. データのラベル付け

ラベル付きデータが利用できないことは、機械学習プロジェクトを妨げるもう 1 つの課題です。 MIT Sloan Management Review によると、76% の企業がこの課題に取り組むにあたり、トレーニング データに自らラベルを付けて注釈を付けようとし、63% の企業が独自の自動ラベル付けおよび注釈付けテクノロジーを構築しようとしています。

つまり、データ サイエンティストは、ラベル付けプロセス中に専門知識を十分に活用できないことになります。これは、AI プロジェクトを効果的に実行する上での主な課題です。

そのため、多くの企業はラベリング作業を他社に委託しています。ただし、ラベリング タスクに十分なドメイン知識が必要な場合、ラベリング タスクをアウトソーシングすることは困難です。組織がデータセット全体の品質と一貫性を維持する必要がある場合は、ラベラー向けの標準化されたトレーニングに投資する必要があります。

ラベル付けするデータが複雑な場合は、独自のデータ ラベル付けツールを開発することもできます。ただし、これには機械学習タスク自体よりもコストがかかることがよくあります。

5. 組織の孤立

データは機械学習プロジェクトにおいて最も重要なエンティティです。ほとんどの組織では、このデータは、セキュリティ制約が異なり、形式も異なる (構造化ファイル、非構造化ファイル、ビデオ ファイル、オーディオ ファイル、テキスト、画像など) さまざまな場所に存在します。

このデータをさまざまな場所にさまざまな形式で保存することは、それ自体が課題です。しかし、組織がサイロ化して相互に連携できない場合、課題は倍増します。

6. 協力の欠如

もう 1 つの大きな課題は、データ サイエンティスト、データ エンジニア、データ スチュワード、ビジネス インテリジェンス (BI) エキスパート、DevOps、エンジニアリングなどのさまざまなチーム間のコラボレーションが不足していることです。これは、IoT からデータ サイエンスまでのエンジニアリング シナリオのチームにとって特に重要です。これらのシナリオでは、作業方法やプロジェクトを完了するために使用するテクノロジに多くの違いがあるためです。

エンジニアリング チームは機械学習モデルを実装し、本番環境に導入します。したがって、両者間の適切な理解と強力な連携が必要です。

7. 技術的に実現不可能なプロジェクト

機械学習プロジェクトは非常に高額になる傾向があるため、ほとんどの企業は、組織や製品を完全に変革し、莫大な利益や投資をもたらす野心的な「ムーンショット」を目指す傾向があります。

このようなプロジェクトは決して完了することはなく、データ サイエンス チームの限界に達することになります。最終的に、ビジネスリーダーはプロジェクトに対する信頼を失い、投資をやめるでしょう。

8. 技術チームとビジネスチーム間の調整の問題

多くの場合、機械学習プロジェクトでは、プロジェクトの期待、目標、成功基準に関して、ビジネス チームとデータ サイエンス チームの間で明確な整合性が取れていません。

こうしたタイプのプロジェクトは、目標がまだ明確ではないため、進捗しているかどうかがわからないため、常に研究段階にとどまります。

ここで、データ サイエンス チームは主に精度に重点を置き、ビジネス チームは財務上の利益やビジネス上の洞察などの指標に関心を持つことになります。最終的に、ビジネス チームはデータ サイエンス チームの結果を受け入れなくなります。

9. データ戦略の欠如

MIT Sloan Management Review によると、従業員数が 10 万人を超える大規模組織では、データ戦略を導入する可能性が 50% あります。組織は、機械学習プロジェクトに着手する前に、しっかりとしたデータ戦略を策定することが重要です。

データ戦略の一環として、組織は次の点を明確に理解する必要があります。

  • 組織には合計でどれくらいの量のデータが存在しますか?
  • プロジェクトでは実際にどれくらいのデータが必要ですか?
  • 必要な担当者はこのデータにどのようにアクセスしますか? また、これらの担当者にとってこのデータへのアクセスはどの程度容易ですか?
  • さまざまなソースからのすべてのデータをどのようにまとめるのでしょうか?
  • このデータをどのようにクリーンアップして変換するのでしょうか?

ほとんどの組織は、最初からデータについて計画を立てておらず、データがあることさえ期待していません。

10. リーダーシップのサポート不足

多くの人は、問題に対していくらかのお金と技術を投入するだけで、結果は自動的に得られると信じています。

しかし、データ サイエンティストが開発したモデルに信頼を寄せていないこともある組織のリーダーからの適切なサポートを得て成功するために何が必要かがわかっていません。

これは、組織のリーダーの間で AI に対する理解が不足していることと、データ サイエンティストがモデルがビジネス上のメリットをもたらす理由をリーダーに伝えられないことが原因である可能性があります。

最終的に、組織のリーダーは機械学習がどのように機能するか、そして AI が組織にとって実際に何を意味するかを理解する必要があります。

<<:  コンピュータービジョンは建設業界をどのように変えているのでしょうか?

>>:  ディープラーニングの学習をすぐに始めないでください。非常に詳細な AI 専門家のロードマップ、GitHub は数日間で 2.1k のスターを獲得

ブログ    
ブログ    

推薦する

真実に近いですか? LK-99型超伝導はCu_2S構造相転移によって引き起こされる可能性が高く、中国科学院物理研究所の論文もここにあります。

昨日、北京大学量子材料センター(ICQM)の郭開珍、賈爽らがarXivに提出した論文には、同チームが...

...

AIが作ったノアの箱舟はどこへ行くのでしょうか?

[[348542]]韓国の新人歌手ハヨンが10月8日、人工知能作曲ロボットEvoMがプロデュースし...

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]ビッグデータダイジェスト制作出典: MITテクノロジーレビュー編集者: stat...

Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

[[184558]] Gorgonia は、Go での機械学習を容易にし、多次元配列を含む数式の記述...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...

5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

近年、OpenAI の GPT-3 などの大規模言語モデル (LLM) は、人工知能の分野で大きな進...

2024 年の CIO の 14 の優先事項とトレンド

GenAI は 2024 年の最大のテクノロジー トレンドとなり、新しいツールのレビュー、インフラス...

アリババDAMOアカデミー、世界初のマルチソース地球観測データ分析AI EARTHをリリース

DAMOアカデミーは宇宙から地球を眺める新たな方法を発見しました!9月18日、2020年雲啓大会にお...

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

昨日、小米集団の創業者、雷軍氏は微博で、音声認識とAIの国際的専門家であり、音声認識オープンソースツ...

最新のAIはプログラマーを失業させるでしょうか?

現在、AI は追加のトレーニングを必要とせずに、任意の言語でコーディングできます。 [[334827...

強力な提携:ソーシャルロボット企業Furhatがロボット企業Misty Roboticsを買収

ミスティはとんでもない乗り心地を体験した。 FoundryとVenrockから1,150万ドルを調達...

自動運転ソリューションプロバイダーは高精度マップをどのように活用するのでしょうか?

テクノロジー大手のBATから市場に参入する多数の新興企業まで、業界には10社を超える高精度地図サプラ...