機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。調査会社ガートナーは、多くの組織にとって、人工知能プロジェクトの 80% は依然として成功が難しい錬金術であると予測しています。 VentureBeatが発表した「Transform2019」調査レポートによると、人工知能プロジェクトの87%は実用化されないとのこと。

[[350584]]

なぜこのようなことが起こるのでしょうか? なぜこれほど多くのプロジェクトが失敗するのでしょうか?

1. 専門知識が足りない

理由の 1 つは、機械学習テクノロジーが人々にとってまだ新しいものであることです。さらに、ほとんどの組織は、ソフトウェア ツールや必要なハードウェアについてまだよくわかっていません。

今日では、データ分析やソフトウェア開発に従事し、データ サイエンス プロジェクトをいくつか実行した人の中には、自らをデータ サイエンティストと呼ぶ人もいます。

現実には、組織はほとんどの機械学習および AI プロジェクト、特に成功基準の定義、最終的な展開、およびモデルの継続的な監視を処理するために、経験豊富な本物のデータ サイエンティストを必要としています。

2. データサイエンスと従来のソフトウェア開発の断絶

データ サイエンスと従来のソフトウェア開発の間の断絶も、もう 1 つの大きな要因です。従来のソフトウェア開発は、より予測可能かつ測定可能な傾向があります。

データ サイエンスの研究は、複数の反復と実験を通じて前進します。選択した指標がユーザーの行動に影響を与えないため、プロジェクト全体を展開フェーズから計画フェーズに戻さなければならない場合もあります。

従来のアジャイルベースのプロジェクト配信は、データ サイエンス プロジェクトには適さない可能性があります。これは、従来のソフトウェア開発プロジェクトで各タスクサイクルの最後に明確な結果を出すことに苦労してきたリーダーに大きな混乱を引き起こすことになります。

3. データの量と質

データセットが大きいほど、AI システムによる予測の精度が高くなることはよく知られています。データ量の増加による直接的な影響に加えて、データ量が増加すると多くの新たな課題が発生します。

多くの場合、組織は複数のソースからのデータを結合する必要があります。これを実行し始めると、同期がほとんど行われないことに気づき、多くの混乱が生じることになります。組織によっては、結合すべきでないデータを結合してしまうことがあり、その結果、データ ポイントの名前は同じでも意味が異なることになります。

不完全なデータにより、実用的な結果が得られなかったり、洞察が得られなかったり、誤解を招くような結果になったりする可能性があります。

4. データのラベル付け

ラベル付きデータが利用できないことは、機械学習プロジェクトを妨げるもう 1 つの課題です。 MIT Sloan Management Review によると、76% の企業がこの課題に取り組むにあたり、トレーニング データに自らラベルを付けて注釈を付けようとし、63% の企業が独自の自動ラベル付けおよび注釈付けテクノロジーを構築しようとしています。

つまり、データ サイエンティストは、ラベル付けプロセス中に専門知識を十分に活用できないことになります。これは、AI プロジェクトを効果的に実行する上での主な課題です。

そのため、多くの企業はラベリング作業を他社に委託しています。ただし、ラベリング タスクに十分なドメイン知識が必要な場合、ラベリング タスクをアウトソーシングすることは困難です。組織がデータセット全体の品質と一貫性を維持する必要がある場合は、ラベラー向けの標準化されたトレーニングに投資する必要があります。

ラベル付けするデータが複雑な場合は、独自のデータ ラベル付けツールを開発することもできます。ただし、これには機械学習タスク自体よりもコストがかかることがよくあります。

5. 組織の孤立

データは機械学習プロジェクトにおいて最も重要なエンティティです。ほとんどの組織では、このデータは、セキュリティ制約が異なり、形式も異なる (構造化ファイル、非構造化ファイル、ビデオ ファイル、オーディオ ファイル、テキスト、画像など) さまざまな場所に存在します。

このデータをさまざまな場所にさまざまな形式で保存することは、それ自体が課題です。しかし、組織がサイロ化して相互に連携できない場合、課題は倍増します。

6. 協力の欠如

もう 1 つの大きな課題は、データ サイエンティスト、データ エンジニア、データ スチュワード、ビジネス インテリジェンス (BI) エキスパート、DevOps、エンジニアリングなどのさまざまなチーム間のコラボレーションが不足していることです。これは、IoT からデータ サイエンスまでのエンジニアリング シナリオのチームにとって特に重要です。これらのシナリオでは、作業方法やプロジェクトを完了するために使用するテクノロジに多くの違いがあるためです。

エンジニアリング チームは機械学習モデルを実装し、本番環境に導入します。したがって、両者間の適切な理解と強力な連携が必要です。

7. 技術的に実現不可能なプロジェクト

機械学習プロジェクトは非常に高額になる傾向があるため、ほとんどの企業は、組織や製品を完全に変革し、莫大な利益や投資をもたらす野心的な「ムーンショット」を目指す傾向があります。

このようなプロジェクトは決して完了することはなく、データ サイエンス チームの限界に達することになります。最終的に、ビジネスリーダーはプロジェクトに対する信頼を失い、投資をやめるでしょう。

8. 技術チームとビジネスチーム間の調整の問題

多くの場合、機械学習プロジェクトでは、プロジェクトの期待、目標、成功基準に関して、ビジネス チームとデータ サイエンス チームの間で明確な整合性が取れていません。

こうしたタイプのプロジェクトは、目標がまだ明確ではないため、進捗しているかどうかがわからないため、常に研究段階にとどまります。

ここで、データ サイエンス チームは主に精度に重点を置き、ビジネス チームは財務上の利益やビジネス上の洞察などの指標に関心を持つことになります。最終的に、ビジネス チームはデータ サイエンス チームの結果を受け入れなくなります。

9. データ戦略の欠如

MIT Sloan Management Review によると、従業員数が 10 万人を超える大規模組織では、データ戦略を導入する可能性が 50% あります。組織は、機械学習プロジェクトに着手する前に、しっかりとしたデータ戦略を策定することが重要です。

データ戦略の一環として、組織は次の点を明確に理解する必要があります。

  • 組織には合計でどれくらいの量のデータが存在しますか?
  • プロジェクトでは実際にどれくらいのデータが必要ですか?
  • 必要な担当者はこのデータにどのようにアクセスしますか? また、これらの担当者にとってこのデータへのアクセスはどの程度容易ですか?
  • さまざまなソースからのすべてのデータをどのようにまとめるのでしょうか?
  • このデータをどのようにクリーンアップして変換するのでしょうか?

ほとんどの組織は、最初からデータについて計画を立てておらず、データがあることさえ期待していません。

10. リーダーシップのサポート不足

多くの人は、問題に対していくらかのお金と技術を投入するだけで、結果は自動的に得られると信じています。

しかし、データ サイエンティストが開発したモデルに信頼を寄せていないこともある組織のリーダーからの適切なサポートを得て成功するために何が必要かがわかっていません。

これは、組織のリーダーの間で AI に対する理解が不足していることと、データ サイエンティストがモデルがビジネス上のメリットをもたらす理由をリーダーに伝えられないことが原因である可能性があります。

最終的に、組織のリーダーは機械学習がどのように機能するか、そして AI が組織にとって実際に何を意味するかを理解する必要があります。

<<:  コンピュータービジョンは建設業界をどのように変えているのでしょうか?

>>:  ディープラーニングの学習をすぐに始めないでください。非常に詳細な AI 専門家のロードマップ、GitHub は数日間で 2.1k のスターを獲得

ブログ    

推薦する

...

AI エージェントに協力と競争を教えましょう。最初の大規模マルチエージェントフレームワークであるCAMELは3.6kのスターを獲得しました

「どんな魔法が私たちを賢くするのでしょうか?魔法は魔法がないことです。知性の力は、単一の完璧な原理か...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモート プレゼンテーション カメオ、Viva Connections モバイル アプリ

IT Homeは9月10日、マイクロソフトが、オフラインの会議室に中央制御のオーディオデバイスを設置...

ビジネスに適したRPAソフトウェアの選び方

[[407278]] RPA(ロボティック・プロセス・オートメーション)は、ビジネスユーザーを退屈で...

ニューラルネットワークアルゴリズムの利点と応用

[[211834]]人工ニューラル ネットワーク (ANN) は脳の処理メカニズムに基づいており、複...

...

...

初心者からプロまでが使用する機械学習ソフトウェア トップ 10

この記事では、機械学習に最適なソフトウェアについて説明します。これらのソフトウェアは、ML コードを...

Amazon SageMaker について

Amazon SageMaker は、開発者やデータサイエンティストがあらゆる規模の機械学習モデルを...

...

光量子コンピュータ「九章3号」が発売されました!スーパーコンピューターの1000億倍の速さ、USTCのパン・ジアンウェイ氏のチームより

私の国の量子コンピューティングは新たな進歩をもたらしました。 USTC公式ウェブサイトからのニュース...

...

WeChatグループに広告を投稿する人が常にいるのでしょうか? Pythonを使って自動ロボットを作成し、彼を排除する

[[341536]] WeChatグループ乾癬とは、WeChatグループ内の他のユーザーに恥ずかしげ...

人工知能による雇用促進

[[347833]]近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動...