【51CTO.com クイック翻訳】機械学習モデルは、定義されたビジネス目標に合わせて設計されています。機械学習モデルの製品化とは、関連するデータセット上で機械学習モデルをホスト、スケーリング、実行することを指します。実稼働レベルの機械学習モデルは、将来の変更やフィードバックに対応できる回復力と柔軟性も備えている必要があります。最近の Forrester の調査によると、顧客体験の向上、収益性の向上、収益の増加は、組織が機械学習プロジェクトで達成しようとしている主な目標の一部です。 機械学習モデルは世界的に高く評価されていますが、それをビジネス上のプラスのメリットにつなげることは困難でした。ライブ データを処理し、機械学習モデルを本番環境に展開する場合、多くのエンジニアリング、データ、ビジネス上の問題がボトルネックになります。調査によると、43% の人が機械学習モデルの生成と統合において障害に遭遇したと報告しています。企業が期待する最終目標を機械学習モデルが確実に達成できるようにすることが重要です。信頼性が高く安価なオープンソース インフラストラクチャのおかげで、世界中の組織における機械学習モデルの導入はかつてない速度で増加しています。ガートナーは、世界中の主要組織の 40% が 2020 年末までに AI ソリューションを実際に導入する予定であると予測しています。機械学習モデルの製品化における一般的な落とし穴を理解するには、組織が直面する上位 5 つの課題を確認すると役立ちます。 1. データの複雑さ データに基づいて機械学習モデルをトレーニングするには、約 100 万件の関連レコードが必要ですが、これはどんなデータでも使用できるわけではありません。データの実現可能性と予測可能性に対するリスクが発生します。関連するデータセットがあるかどうか、また予測を行うのに十分な速さでそれらを入手できるかどうかを評価するのは簡単ではありません。コンテキストデータを取得することも問題です。 Yum Brands の機械学習拡張プロジェクトでは、同社の一部の製品 (新しいフランチャイズ プログラムを追求していた KFC など) に十分な顧客データがありませんでした。データだけでは不十分です。ほとんどの機械学習チームは、データレイク以外のアプローチから始めて、従来のデータ ウェアハウスで機械学習モデルをトレーニングします。従来のデータ システムでは、データ サイエンティストはモデルのトレーニングではなく、データのクリーニングと管理に時間の 80% を費やすことがよくあります。データを透過的に共有し、再利用のために分類できるようにするには、強力なガバナンス システムとデータ分類も必要です。データの複雑さにより、機械学習モデルの維持と実行にかかるコストは、時間の経過とともに収益に比べて減少します。 2. 設計と展開 データが利用可能になったら、使用シナリオと将来の回復力に基づいてインフラストラクチャとテクノロジー スタックを最終決定する必要があります。機械学習システムの設計は難しい場合があります。機械学習の分野ではさまざまな技術が利用可能です。このモデルを成功させる鍵は、製品化が困難にならないように、各技術スタックを選択する際に、異なる分野の技術スタックを個別に標準化することです。たとえば、データ サイエンティストは Pandas などのツールを使用して Python でコードを記述する場合があります。しかし、これらは Spark や Pyspark の方が適している本番環境には適さない可能性があります。設計が不十分なテクノロジーソリューションは高価になります。すると、ライフサイクルの課題や、本番環境での複数のモデルの管理と安定化も対処が難しくなります。 3. 統合リスク 機械学習モデルを成功させるには、さまざまなデータセットやモデリング手法と適切に統合できるスケーラブルな運用環境が不可欠です。異なるチームやオペレーティング システムを統合することは常に困難です。複雑なコード ベースは、運用環境に展開できるように、明確に構造化されたシステムに統合する必要があります。モデルを本番環境にデプロイするための標準化されたプロセスがなければ、チームはどの段階でも行き詰まってしまいます。さまざまなチームがワークフロー自動化をワークフロー システムに統合し、テストを実行する必要があります。適切な段階でモデルをテストしないと、エコシステム全体を修正することになります。テクノロジー スタックは標準化されている必要があります。そうでないと、統合が悪夢になる可能性があります。統合は、機械学習実験フレームワークが一発勝負にならないようにするための重要な瞬間でもあります。そうしないと、ビジネス環境が変化したり、壊滅的な出来事が発生したりした場合に、モデルは価値を提供できなくなります。 4. テストとモデルのサポート 機械学習モデルのテストは困難ですが、生産プロセスの他のステップと同じくらい、あるいはそれ以上に重要です。結果の理解、ヘルスチェック、モデルのパフォーマンスの監視、データの異常の監視、モデルの再トレーニングが組み合わさって、生産化サイクル全体が構成されます。テストを実行した後でも、テストで発生しなかった問題を見つけるために、適切な機械学習ライフサイクル管理ツールが必要になる場合があります。 5. 役割を割り当て、積極的にコミュニケーションをとる データ サイエンス、データ エンジニアリング、DevOps、およびその他の関連チーム間の透明なコミュニケーションは、機械学習モデルの成功に不可欠です。しかし、役割を割り当て、詳細なアクセス権限を提供し、各チームを監視するのは複雑です。さまざまな領域のリスクを早期に特定するには、緊密な連携とコミュニケーションが不可欠です。データ サイエンティストの深い関与は、機械学習モデルの将来にも関わります。 前述の課題に加えて、COVID-19パンデミックなどの予期せぬ出来事にも注意する必要があります。顧客の購買行動が突然変化すると、過去のソリューションは適用できなくなり、モデルを適切にトレーニングするための新しいデータの不足が障害になります。要約すると、機械学習モデルのスケーリングは簡単ではありません。 原題: 機械学習モデルのスケーリングにおける 5 つの課題、著者: Sigmoid Analyitcs [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: アルゴリズム図: スタック内の最小値を見つけるにはどうすればよいでしょうか?
1. 二分探索の背景配列またはコレクションに多数の要素が格納されている場合、特定の要素の位置または存...
AIを搭載した「セックスロボット」については多くの議論がなされている。しかし、多くの人々、特に女性...
2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...
ソフトウェア開発者向けのローコード機能それでは、ソフトウェア開発者に機械学習機能を提供するローコード...
最近、「小さな言語モデル」がにわかに話題になっています。今週月曜日、4億1500万ドルの資金調達を完...
「サイバーセキュリティ」という用語は、ネットワークシステムにおけるハードウェア、ソフトウェア、データ...
[[187530]]人工知能 (AI) がどのように未来を予測し、職場を変え、さらには雇用を生み出...
COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...
ML モデル ガバナンスは、組織がアクセスを制御し、ポリシーを実装し、モデル アクティビティを追跡す...
何ですか? Microsoft の Bing は画像を認識できるんですか?それとも ChatGPT ...
機械学習技術は企業の電気システムの作業と保守において重要な役割を果たしており、人々は機械学習を採用す...
コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...