なぜ機械学習モデルの90%が実稼働に至らないのか

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。

時代は不確実であり、顧客体験をますますシームレスで没入感のあるものにしなければならないという企業へのプレッシャーは、容易には解消されません。したがって、同社が製品を改善するために機械学習モデルの開発に数十億ドルを投資してきたのも当然のことです。

しかし、問題があります。 企業は、データ サイエンティストや機械学習エンジニアに資金を投じて、魔法のようなことが起こることを期待するだけでは不十分です。

データがすべてを物語っています。 VentureBeat のレポートによると、機械学習モデルの約 90% は実稼働環境に導入されないそうです。 言い換えれば、データ サイエンティストの勤務日のうち、実際に会社にとって役立つ成果を生み出すのは 10 日のうち 1 日だけです。

テクノロジー企業の幹部の 10 人中 9 人が AI が次の技術革命の中心になると考えていますが、AI の採用と導入にはまだ成長の余地があります。そして、データ サイエンティストに責任はありません。

データサイエンティストの求人市場は非常に良好です。 企業は人材を募集しており、最高額を支払う用意がある。

もちろん、マネージャーやビジネスリーダーは、これらのデータ サイエンティストが多くの価値を付加してくれることを期待しています。 現時点では、これを簡単に行うことはできません。

「問題にお金を投じたり、技術に投資したりすれば、成功は必ずやってくると考える人がいる」とギャップのデータ・分析担当上級副社長、クリス・チャポ氏は言う。

データ サイエンティストの能力を最大限に引き出すには、リーダーはリソースを適切な方向に向けるだけでなく、機械学習モデルの全体的な影響を理解する必要があります。考えられる解決策の 1 つは、リーダー自身がデータ サイエンスの入門トレーニングを受け、その知識を自社で実践できるようにすることです。

アクセス可能なデータの不足

同社はデータ収集も得意です。しかし、多くの企業は非常にサイロ化しており、各部門が独自のデータ収集方法、推奨形式、データの保存場所、セキュリティとプライバシーの設定を持っています。

一方、データ サイエンティストは、複数の部門からのデータを必要とすることがよくあります。サイロ化されたストレージでは、データのクリーンアップと処理が難しくなります。さらに、多くのデータ サイエンティストは、必要なデータさえ入手できないと不満を漏らしています。しかし、必要なデータがなければ、どうやってモデルをトレーニングすればいいのでしょうか?

サイロ化された企業構造やアクセスできないデータは、過去には管理可能だったかもしれません。 しかし、猛スピードで技術革新が進む時代においては、企業は一歩踏み出して、全面的に統一されたデータ ファブリックを構築する必要があります。

IT、データサイエンス、エンジニアリングの断絶

会社の目標がサイロ化の削減である場合、これは各部門がより多くのコミュニケーションを取り、目標を一致させる必要があることも意味します。

多くの企業では、IT 部門とデータ サイエンス部門の間に根本的な隔たりがあります。 IT 部門は、物事を機能させ、安定させることを優先する傾向があります。一方、データ サイエンティストは、物事を破壊しようとするのが大好きです。これでは効果的なコミュニケーションは生まれません。

さらに、データ サイエンティストにとってエンジニアリング スキルが必ずしも必須であるとは限りません。これは、エンジニアがデータ サイエンティストが想定した詳細をすべて理解するとは限らず、コミュニケーション不足により異なる実装を行う可能性があるため、問題となります。したがって、StackOverflow が指摘しているように、モデルを展開できるデータ サイエンティストは、競合モデルに対して競争上の優位性を持ちます。

モデルが小規模な環境でうまく機能しても、どこでも機能するとは限りません。

1 つには、大規模なデータセットを処理するためのハードウェアまたはクラウド ストレージ スペースが利用できない可能性があります。さらに、大規模な機械学習モデルのモジュール性は、必ずしも小規模のものと同じではありません。

最後に、データの入手は簡単ではない、あるいは不可能な場合もあります。 前述したように、これは会社のサイロ化された構造、またはより多くのデータを取得する際のその他の課題が原因である可能性があります。

これは、組織全体でデータ構造を統一し、異なる部門間のコミュニケーションを促進するもう 1 つの理由です。

一生懸命繰り返す

企業の 4 分の 1 以上が、機械学習モデルの導入までの長い道のりで作業の重複に直面しています。

たとえば、ソフトウェア エンジニアは、データ サイエンティストから指示されたことを実装しようとする場合があります。後者は引き続き自ら何らかの作業を行う可能性があります。

これは時間とリソースの無駄遣いであるだけではありません。 また、関係者がどのバージョンのコードを使用するか、エラーが発生した場合に誰に問い合わせるかを知らない場合、別の混乱が生じる可能性もあります。

データ サイエンティストが独自のモデルを実装できることは有利ですが、作業を実行するエンジニアと明確にコミュニケーションを取る必要があります。こうすることで、会社の時間とリソースを節約できます。

経営陣は必ずしも賛同しない

テクノロジー企業の幹部は AI の力を全体的に信じていますが、だからといってすべてのアイデアに確信を持っているわけではありません。 Algorithmia のレポートによると、企業の幹部の 3 分の 1 が、導入統計の低さは上級管理職のサポート不足のせいだと考えています。

データ サイエンティストは、いまだにややオタクっぽく、ビジネス センスに欠ける人々だとみなされているようです。 そのため、データ サイエンティストがビジネス スキルを高め、可能な場合は上級管理職との対話を求めることがさらに重要になります。

もちろん、これはすべてのデータ サイエンティストが仕事で成功するために突然 MBA が必要になるという意味ではありません。しかし、教室やビジネス経験から学んだいくつかの重要な教訓は、長期的には役立つかもしれません。

言語間およびフレームワーク間のサポートの欠如

機械学習モデルはまだ初期段階であるため、さまざまな言語やフレームワークに関しては依然として大きなギャップがあります。

一部のパイプラインは Python で始まり、R で続き、Julia で終わります。 他の人は別の方法をとったり、まったく別の言語を使用したりします。 各言語には独自のライブラリと依存関係のセットが付属しているため、プロジェクトを迅速に進めることが難しい場合があります。

さらに、一部のパイプラインでは Docker と Kubernetes によるコンテナ化が活用されますが、他のパイプラインでは活用されない場合があります。 一部のパイプラインは特定の API をデプロイしますが、他のパイプラインはデプロイしません。 リストはまだまだ続きます。

このギャップを埋めるために、TFX、Mlflow、Kubeflow などのツールが登場し始めました。しかし、これらのツールはまだ初期段階にあり、これまでのところそれらに関する専門知識はほとんどありません。

データ サイエンティストは、自分の分野の最新の進歩を常に確認する必要があることを認識しています。 これはモデルの展開にも当てはまります。

バージョン管理と再現性は依然として課題

上記の問題に関連して、これまでのところ、機械学習モデルのバージョン管理を行う方法はありません。 当然のことながら、データ サイエンティストは自分が行った変更をすべて追跡する必要がありますが、これは今日では面倒な作業です。

さらに、データセットは時間の経過とともに変化する可能性があります。 企業やプロジェクトが成長していく中で当然のことですが、過去の成果を再現するのは難しいものです。

プロジェクトを開始したら、現在および将来にわたってプロジェクトを運用するためのベースラインを確立することがさらに重要になります。入念なバージョン管理と組み合わせることで、データ サイエンティストはモデルを再現可能にすることができます。

試行錯誤をやめて導入を始める方法

データ サイエンティストの努力の 90% が無駄になった場合、それは良い兆候ではありません。上で示したように、これはデータ サイエンティストのせいではなく、むしろ固有の組織的障壁によるものです。

変化は日々起こるものではありません。 したがって、機械学習モデルの使用を始めたばかりの企業の場合は、非常に小規模でシンプルなプロジェクトから始めることをお勧めします。

マネージャーが明確でシンプルなプロジェクトの概要を説明したあと、次のステップは適切なチームを選択することです。部門横断的である必要があり、データ サイエンティスト、エンジニア、DevOps、および成功に不可欠なその他の役割を含める必要があります。

3 番目に、管理者は開発の初期段階でサードパーティを活用して開発を加速することを検討する必要があります。 IBM はこのサービスを提供する企業の 1 つですが、市場には他にも同様のサービスを提供する企業が存在します。

最後の警告は、どんな犠牲を払ってでも複雑さを追求しないことです。安価でシンプルなモデルで顧客ニーズの 80% を満たし、数か月以内に出荷できるのであれば、これはすでに素晴らしい偉業です。さらに、シンプルなモデルの構築で得られた経験は、より複雑なモデルの実装を促進し、100% の顧客満足度を実現することが期待されます。

結論:革命には時間がかかる

過去 10 年間と同様に、次の 10 年間も革命的な時代となるでしょう。 AI の広範な導入は、成長を続ける多くのトレンドの 1 つにすぎません。モノのインターネット、高度なロボット工学、ブロックチェーン技術の台頭もこのリストに含まれます。

私は意図的に数年ではなく数十年と言いました。 たとえば、企業の 90% がクラウドを利用していることを考えてみましょう。クラウドがなければ私たちの生活がどうなるか想像することさえ難しいほどです。 一方、クラウドが広く普及するまでには数十年かかりました。

AI革命もこれと異なるはずだと信じる理由はない。 現状では対処すべき障害が多数存在するため、実装にはしばらく時間がかかるでしょう。

しかし、機械学習は顧客体験とビジネス効率を向上させるための多くの方法を提供するため、できるだけ早くモデルを展開できる企業が勝者となることは明らかです。

<<:  農業用ドローンは熱を帯び続け、今後の開発に向けた3つの大きなトレンドが浮上

>>:  生体認証:デジタル時代への突入

ブログ    
ブログ    
ブログ    

推薦する

...

とても早いですね!わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

みなさんこんにちは。私はFeng Kiteですオーディオおよびビデオ ファイル内のオーディオをテキス...

第一回美団クラウド人工知能サミットが開幕、エコパートナーと協力して最もオープンなAIプラットフォームを構築

10月31日、中関村サイエンスパーク管理委員会の指導の下、美団クラウドが主催し、「AIの力で共存とW...

...

10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

モデルが GPT-3.5 のように数千億の規模に達すると、トレーニングと推論のための計算能力は一般的...

機械翻訳と人工知能が融合すると、信頼性は高まるでしょうか?

機械翻訳というと、多くの人が戸惑うでしょう。10年以上も前には、英語の文章をKingsoft Pow...

人工知能はこれら12の分野に混乱をもたらし、ホワイトカラー労働者も職を失うことになるだろう

[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...

あなたの AI は規制に対応できる準備ができていますか?

現在、人工知能 (AI) に関する同様の規制が世界中の複数の地域で施行され始めており、GDPR に関...

...

世界中のロボットが1つの脳を共有する、Google DeepMindが第一歩を踏み出した

過去 1 年間、生成型人工知能の開発におけるキーワードは「ビッグ」でした。強化学習の先駆者であるリッ...

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

データ駆動型進化的最適化とは何ですか? それは単なるデータ + 最適化アルゴリズムですか? データ駆...

...

工業情報化部の李英査察官:我が国の人工知能の発展は歴史的な好機を迎えている

[[253791]]工業情報化部情報技術・ソフトウェアサービス局検査官 李英氏李英氏は、一連の措置を...

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinto...