なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

機械学習の分野には大きな可能性がありますが、私たちはまだそれについて十分に知りません。ガーナー氏の予測「2020年には、AIプロジェクトの80%が謎のままになる」によれば、Venture BeatのTransform 2019では、AIプロジェクトの87%が実稼働には至らないと予測されています。

なぜこのようなことが起こるのでしょうか? なぜこれほど多くのプロジェクトが失敗するのでしょうか?

専門知識の欠如

まず、このテクノロジーはほとんどの人にとってまだ新しいものであり、ほとんどの組織はソフトウェア ツールや必要なハードウェアにまだ慣れていないためです。

最近では、データ分析やソフトウェア開発に携わったり、いくつかのサンプルデータサイエンスプロジェクトを完了したり、短いオンラインコースを受講したりした人なら誰でも、自分をデータサイエンティストと名乗ることができるようです。実際、ほとんどの機械学習および AI プロジェクトでは、特に成功基準を定義し、最終的にモデルを展開して継続的に監視する際に、より経験豊富なデータ サイエンティストが必要になります。

データサイエンスと従来のソフトウェア開発の断絶

より予測可能で測定可能な傾向にあるデータ サイエンスと従来のソフトウェア開発との間の断絶も、もう 1 つの大きな要因です。

データサイエンスは依然として研究とエンジニアリングの組み合わせである

データ サイエンスの研究は、複数の反復と実験を通じて前進します。場合によっては、選択された指標がユーザーの行動に影響を与えないため、プロジェクト全体を展開段階から計画段階に戻さなければならないこともあります。

従来のプロジェクトでは、データ サイエンス プロジェクトと同じ結果が得られない可能性があります。これは、従来のソフトウェア開発プロジェクトで各タスク サイクルの最後に明確な成果物があることに慣れているリーダーにとっては混乱を招く可能性があります。

データの品質とサイズ

AI システムのデータベースが広ければ広いほど、より優れた予測を生成できることはよく知られています。データ量の増加による直接的な影響に加え、データの規模が大きくなるにつれて多くの新たな課題が生じます。

多くの場合、複数の当事者からのデータを結合する必要があります。この時点で、それらは多重同期ではないことがわかります。問題は、結合すべきでないデータが結合され、名前は同じだが意味が異なるデータ ポイントが生成されることがあることです。不正確なデータによって生成された結果は意味がないだけでなく、誤解を招くものになります。

データ注釈

MIT Sloan Management Review によると、多くの機械学習プロジェクトが停滞するもう一つの理由は、ラベル付けされたデータが利用できないことです。

76% はトレーニング データにラベルを付けて注釈を付けることによってこの問題に取り組んでおり、63% は独自のデータ ラベル付けおよび自動注釈付けテクノロジを構築しようとしています。つまり、多くのデータ サイエンティストがデータのラベリング プロセスで専門知識を活用できず、AI プロジェクトを効果的に実行する上で大きな課題となっています。

そのため、多くの企業は注釈付け作業を他社に外注しています。ただし、注釈付けタスクに包括的なドメイン知識が必要な場合は、タスクをアウトソーシングすることは適切な解決策にはなりません。企業がデータセットの品質と一貫性を維持したい場合、データ注釈者に対する正式かつ標準化されたトレーニングが必須です。

ラベル付けするデータが複雑な場合は、独自のデータ ラベル付けツールを開発することもできます。しかし、これには多くの場合、機械学習タスク自体よりも多くのエンジニアリングのオーバーヘッドが必要になります。

閉鎖的な組織

データは機械学習プロジェクトの最も重要な部分です。ほとんどの組織では、このデータにはさまざまなセキュリティ制約があり、構造化ファイル、非構造化ファイル、ビデオ ファイル、オーディオ ファイル、テキスト、画像などのさまざまな形式でさまざまな場所に保存されます。

このデータをさまざまな形式でさまざまな場所に保存することは、それ自体が課題です。しかし、組織が閉鎖的でリーダー同士が協力し合わない場合、チームは二重に困難な状況に直面します。

協力とコミュニケーションの欠如

もう 1 つの大きな課題は、データ サイエンティスト、データ エンジニア、データ スチュワード、ビジネス インテリジェンス エキスパート、開発運用 (DevOps)、エンジニアリングなどのさまざまなチーム間のコラボレーションが不足していることです。これは、作業方法と使用するテクノロジーに多くの違いがあるデータ サイエンス エンジニアリング ソリューションに取り組んでいるチームにとって特に重要です。

エンジニアリング チームは機械学習モデルを完成させ、本番環境に導入します。したがって、両者の間には適切な理解と効率的な連携が必要です。

· 技術的に実現不可能なプロジェクト

機械学習プロジェクトはコストがかかる傾向があるため、ほとんどの企業は、会社や製品を完全に変革し、ビジネスに超過収益や投資を生み出すことを試みる野心的な「ムーンショット」プロジェクトを目指す傾向があります。このようなプロジェクトはデータ サイエンス チームを限界まで追い込み、決して完了することはありません。最終的に、ビジネスリーダーはプロジェクトに対する信頼を失い、投資をやめるでしょう。

企業にとって最善の方法は、達成可能な単一のプロジェクトにエネルギーを集中し、能力の範囲内で分散型ビジネスに段階的に小さな目標を設定することです。

· 技術チームとビジネスチーム間の調整の問題

機械学習プロジェクトが開始されると、ビジネス チームとデータ サイエンス チームの間には明確な期待、目標、成功基準が存在しません。このようなプロジェクトは、目標が不明で、進捗しているかどうかもわからないため、常に研究段階にとどまります。

データ サイエンス チームは主に精度に重点を置きますが、ビジネス チームは財務上の利益やビジネス上の洞察などの指標に関心があります。最終的に、ビジネス チームはデータ サイエンス チームの結果を受け入れません。

データ戦略欠如

MIT Sloan Management Review によると、従業員数が 10 万人を超える大企業のうち、データ戦略を持っている可能性が高いのはわずか 50% です。機械学習プロジェクトを開始する前に、しっかりとしたデータ戦略を策定することが重要です。

データ戦略の一環として、次の点を明確に理解する必要があります。

  • 社内の全データ
  • プロジェクトには実際にどれくらいのデータが必要ですか?
  • プロジェクトに関与する従業員にはこのデータを閲覧する権限がありますか?
  • さまざまなソースからデータを統合するための具体的な戦略
  • このデータをクリーンアップして変換する方法

ほとんどの企業は、計画も何もなく、データがないことを予想せずにスタートします。

リーダーシップサポート不足

お金と技術を投資すれば、問題は解決できます。これは一般の人々の間でよくある誤解です。リーダーは、成功に必要な条件が達成されていることを確認するための適切なサポートを提供していない可能性があります。ビジネスリーダーは、データ サイエンティストが開発したモデルに対して楽観的ではない場合があります。

これは、ビジネス リーダーの AI に対する理解不足と、データ サイエンティストがモデルのビジネス価値をリーダーに正確に伝えることができないことが原因であると考えられます。リーダーは、機械学習がどのように機能するか、そして AI が自社のビジネスにとって実際に何を意味するかを理解する必要があります。

上記は、機械学習プロジェクトを見つけるのが非常に難しい理由です。

<<:  2021 年に知っておくべきすべての機械学習アルゴリズム

>>:  AIの諸刃の剣:質問を検索するために写真を撮ることと不正行為を支援すること

ブログ    

推薦する

BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機...

情報の流れの中のゲーム:「易典子心」の探求と思考

[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...

6000 以上の Web ページを閲覧した後、個人使用に最適な AI 製品のリストを選択しました。

[[220539]]リアム・ヘーネル編集者: Chaoxi、Yuanyuan、Harryこの記事で...

OpenAI が ChatGPT と Bing 検索の統合を発表、ChatGPT Plus ユーザーのみが利用可能に

6月28日、モバイルチャットロボットChatGPTがインターネットにアクセスできるようになったが、検...

人工知能と仮想現実のつながり

バーチャルリアリティ(VR)は、新しい実用的な技術です。バーチャルリアリティ技術は、コンピュータ、電...

脳コンピューターインターフェースが人間とコンピューターの共生を実現 専門家:ハッカーにハイジャックされ記憶を消去される可能性も

[[336395]]海外メディアの報道によると、8月4日、サイバーセキュリティの専門家は、イーロン・...

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...

...

YouTube でフォローすべき 5 人のデータ サイエンティストと機械学習エンジニア

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

超便利!追加のコードを書かずに依存性注入の5つの原則をマスターする

この概念に初めて遭遇した場合、一瞬理解できないかもしれません。インターネット上のさまざまな説明により...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...

絵画制作において想像力を最大限に発揮できる 8 つの優れた AI ペイント ツール

今日は、絵画作成において無限の想像力を発揮するのに役立つ 8 つの優れた AI ペイント ツールを紹...

...

...

人間と機械のインターフェースは一貫性があり、音声と触覚によるフィードバックを提供する必要がある。

[[187855]]仮想環境を体験し、対話する機能は、仮想現実 (VR) メディアの独自の機能です...