なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。

時代は不確実であり、顧客体験をますますシームレスで没入感のあるものにしなければならないという企業へのプレッシャーは、容易には解消されません。したがって、同社が製品を改善するために機械学習モデルの開発に数十億ドルを投資してきたのも当然のことです。

しかし、問題があります。企業は、データサイエンティストや機械学習エンジニアに資金を投じて、魔法のようなことが起こることを期待するだけでは不十分です。

データがすべてを物語っています。 VentureBeat のレポートによると、機械学習モデルの約 90% は実稼働環境に導入されないそうです。言い換えれば、データサイエンティストの勤務日のうち、実際に会社にとって役立つ成果を生み出すのは 10 日のうち 1 日だけです。

テクノロジー企業の幹部の 10 人中 9 人が AI が次の技術革命の中心になると考えていますが、AI の採用と導入にはまだ成長の余地があります。そして、データサイエンティストに責任はありません。

データサイエンティストの求人市場は非常に良好です。企業は人材を募集しており、最高額を支払う用意がある。

もちろん、マネージャーやビジネスリーダーは、これらのデータサイエンティストが多くの価値を付加してくれることを期待しています。現時点では、これを簡単に行うことはできません。

「問題にお金を投じたり、技術に投資したりすれば、成功は必ずやってくると考える人がいる」とギャップのデータ・分析担当上級副社長、クリス・チャポ氏は言う。

データサイエンティストの能力を最大限に引き出すには、リーダーはリソースを適切な方向に向けるだけでなく、機械学習モデルの全体的な影響を理解する必要があります。考えられる解決策の 1 つは、リーダー自身がデータサイエンスの入門トレーニングを受け、その知識を自社で実践できるようにすることです。

アクセス可能なデータの不足

同社はデータ収集も得意です。しかし、多くの企業は非常にサイロ化しており、各部門が独自のデータ収集方法、推奨形式、データの保存場所、セキュリティとプライバシーの設定を持っています。

一方、データサイエンティストは、複数の部門からのデータを必要とすることがよくあります。サイロ化されたストレージでは、データのクリーンアップと処理が難しくなります。さらに、多くのデータサイエンティストは、必要なデータさえ入手できないと不満を漏らしています。しかし、必要なデータがなければ、どうやってモデルをトレーニングすればいいのでしょうか?

サイロ化された企業構造やアクセスできないデータは、過去には管理可能だったかもしれません。しかし、猛スピードで技術革新が進む時代においては、企業は一歩踏み出して、全面的に統一されたデータファブリックを構築する必要があります。

IT、データサイエンス、エンジニアリングの断絶

会社の目標がサイロ化の削減である場合、これは各部門がより多くのコミュニケーションを取り、目標を一致させる必要があることも意味します。

多くの企業では、IT 部門とデータサイエンス部門の間に根本的な隔たりがあります。 IT 部門は、物事を機能させ、安定させることを優先する傾向があります。一方、データサイエンティストは、物事を破壊しようとするのが大好きです。これでは効果的なコミュニケーションは生まれません。

さらに、データサイエンティストにとってエンジニアリングスキルが必ずしも必須であるとは限りません。これは、エンジニアがデータサイエンティストが想定した詳細をすべて理解するとは限らず、コミュニケーション不足により異なる実装を行う可能性があるため、問題となります。したがって、StackOverflow が指摘しているように、モデルを展開できるデータサイエンティストは、競合モデルに対して競争上の優位性を持ちます。

モデルが小規模な環境でうまく機能しても、どこでも機能するとは限りません。

1 つには、大規模なデータセットを処理するためのハードウェアまたはクラウドストレージスペースが利用できない可能性があります。さらに、大規模な機械学習モデルのモジュール性は、必ずしも小規模のものと同じではありません。

最後に、データの入手は簡単ではない、あるいは不可能な場合もあります。前述したように、これは会社のサイロ化された構造、またはより多くのデータを取得する際のその他の課題が原因である可能性があります。

これは、組織全体でデータ構造を統一し、異なる部門間のコミュニケーションを促進するもう 1 つの理由です。

一生懸命繰り返す

企業の 4 分の 1 以上が、機械学習モデルの導入までの長い道のりで作業の重複に直面しています。

たとえば、ソフトウェアエンジニアは、データサイエンティストから指示されたことを実装しようとする場合があります。後者は引き続き自ら何らかの作業を行う可能性があります。

これは時間とリソースの無駄遣いであるだけではありません。また、関係者がどのバージョンのコードを使用するか、エラーが発生した場合に誰に問い合わせるかを知らない場合、別の混乱が生じる可能性もあります。

データサイエンティストが独自のモデルを実装できることは有利ですが、作業を実行するエンジニアと明確にコミュニケーションを取る必要があります。こうすることで、会社の時間とリソースを節約できます。

経営陣は必ずしも賛同しない

テクノロジー企業の幹部は AI の力を全体的に信じていますが、だからといってすべてのアイデアに確信を持っているわけではありません。 Algorithmia のレポートによると、企業の幹部の 3 分の 1 が、導入統計の低さは上級管理職のサポート不足のせいだと考えています。

データサイエンティストは、いまだにややオタクっぽく、ビジネスセンスに欠ける人々だとみなされているようです。そのため、データサイエンティストがビジネススキルを高め、可能な場合は上級管理職との対話を求めることがさらに重要になります。

もちろん、これはすべてのデータサイエンティストが仕事で成功するために突然 MBA が必要になるという意味ではありません。しかし、教室やビジネス経験から学んだいくつかの重要な教訓は、長期的には役立つかもしれません。

言語間およびフレームワーク間のサポートの欠如

機械学習モデルはまだ初期段階であるため、さまざまな言語やフレームワークに関しては依然として大きなギャップがあります。

一部のパイプラインは Python で始まり、R で続き、Julia で終わります。他の人は別の方法をとったり、まったく別の言語を使用したりします。各言語には独自のライブラリと依存関係のセットが付属しているため、プロジェクトを迅速に進めることが難しい場合があります。

さらに、一部のパイプラインでは Docker と Kubernetes によるコンテナ化が活用されますが、他のパイプラインでは活用されない場合があります。一部のパイプラインは特定の API をデプロイしますが、他のパイプラインはデプロイしません。リストはまだまだ続きます。

このギャップを埋めるために、TFX、Mlflow、Kubeflow などのツールが登場し始めました。しかし、これらのツールはまだ初期段階にあり、これまでのところそれらに関する専門知識はほとんどありません。

データサイエンティストは、自分の分野の最新の進歩を常に確認する必要があることを認識しています。これはモデルの展開にも当てはまります。

バージョン管理と再現性は依然として課題

上記の問題に関連して、これまでのところ、機械学習モデルのバージョン管理を行う方法はありません。当然のことながら、データサイエンティストは自分が行った変更をすべて追跡する必要がありますが、これは今日では面倒な作業です。

さらに、データセットは時間の経過とともに変化する可能性があります。企業やプロジェクトが成長していく中で当然のことですが、過去の成果を再現するのは難しいものです。

プロジェクトを開始したら、現在および将来にわたってプロジェクトを運用するためのベースラインを確立することがさらに重要になります。入念なバージョン管理と組み合わせることで、データサイエンティストはモデルを再現可能にすることができます。

試行錯誤をやめて導入を始める方法

データサイエンティストの努力の 90% が無駄になった場合、それは良い兆候ではありません。上で示したように、これはデータサイエンティストのせいではなく、むしろ固有の組織的障壁によるものです。

変化は日々起こるものではありません。したがって、機械学習モデルの使用を始めたばかりの企業の場合は、非常に小規模でシンプルなプロジェクトから始めることをお勧めします。

マネージャーが明確でシンプルなプロジェクトの概要を説明したあと、次のステップは適切なチームを選択することです。部門横断的である必要があり、データサイエンティスト、エンジニア、DevOps、および成功に不可欠なその他の役割を含める必要があります。

3 番目に、管理者は開発の初期段階でサードパーティを活用して開発を加速することを検討する必要があります。 IBM はこのサービスを提供する企業の 1 つですが、市場には他にも同様のサービスを提供する企業が存在します。

最後の警告は、どんな犠牲を払ってでも複雑さを追求しないことです。安価でシンプルなモデルで顧客ニーズの 80% を満たし、数か月以内に出荷できるのであれば、これはすでに素晴らしい偉業です。さらに、シンプルなモデルの構築で得られた経験は、より複雑なモデルの実装を促進し、100% の顧客満足度を実現することが期待されます。

結論：革命には時間がかかる

過去 10 年間と同様に、次の 10 年間も革命的な時代となるでしょう。 AI の広範な導入は、成長を続ける多くのトレンドの 1 つにすぎません。モノのインターネット、高度なロボット工学、ブロックチェーン技術の台頭もこのリストに含まれます。

私は意図的に数年ではなく数十年と言いました。たとえば、企業の 90% がクラウドを利用していることを考えてみましょう。クラウドがなければ私たちの生活がどうなるか想像することさえ難しいほどです。一方、クラウドが広く普及するまでには数十年かかりました。

AI革命もこれと異なるはずだと信じる理由はない。現状では対処すべき障害が多数存在するため、実装にはしばらく時間がかかるでしょう。

しかし、機械学習は顧客体験とビジネス効率を向上させるための多くの方法を提供するため、できるだけ早くモデルを展開できる企業が勝者となることは明らかです。

<<: 農業用ドローンは熱を帯び続け、今後の開発に向けた3つの大きなトレンドが浮上

>>: 生体認証：デジタル時代への突入