データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり、運用環境でモデルを管理することはさらに困難です。モデルのドリフトを特定し、データセットを更新してモデルを再トレーニングし、パフォーマンスを向上させ、基盤となるテクノロジー プラットフォームを維持することは、すべて重要なデータ サイエンスの実践です。これらの規律がなければ、モデルは誤った結果を生み出し、ビジネスに重大な影響を及ぼす可能性があります。
生産準備が整ったモデルを開発するのは簡単ではありません。機械学習の調査によると、55% の企業がモデルを本番環境に導入しておらず、40% 以上がモデルの導入に 30 日以上かかっています。成功したとしても新たな課題が生じる可能性があり、回答者の 41% が機械学習モデルのバージョン管理と再現性の難しさについて認めています。 ここでの教訓は、機械学習モデルが本番環境に導入され、ビジネス プロセスで使用されると、新たな障害が発生するということです。 モデルの管理と運用は、より高度なデータ サイエンス チームにとって課題でした。今日のタスクには、運用中の機械学習モデルのドリフトの監視、モデルの自動再トレーニング、ドリフトが重大な場合にアラートを発すること、モデルのアップグレードが必要な時期を特定することも含まれます。機械学習に投資する組織が増えるにつれて、モデルの管理と運用に対する意識を高めることがますます必要になります。 幸いなことに、オープンソースの MLFlow や DVC などのプラットフォームやライブラリ、および Alteryx、Databricks、Dataiku、SAS、DataRobot、ModelOp などの商用ツールにより、データ サイエンス チームによるモデルの管理と運用が容易になっています。パブリック クラウド プロバイダーも、Azure Machine Learning が提供する MLops などのいくつかのプラクティスを共有しています。 モデル管理と DevOps にはいくつかの類似点があります。多くの人はモデルの管理と運用を MLops と呼び、機械学習モデルの開発と維持に必要な文化、実践、テクノロジーとして定義しています。 モデルの管理と運用を理解する モデルの管理と運用をより深く理解するには、ソフトウェア開発の実践と科学的手法の組み合わせを考慮する必要があります。 ソフトウェア開発者であれば、アプリケーションのバージョンを完成させて本番環境にデプロイするのは簡単な作業ではないことはご存じでしょう。そして、アプリケーションが本番環境に移行すると、さらに大きな課題が始まります。エンドユーザーは定期的な機能強化を期待しており、基盤となるインフラストラクチャ、プラットフォーム、ライブラリにもパッチ適用とメンテナンスが必要です。 さて、科学の世界に目を向けてみましょう。科学の世界でも、疑問は複数の仮説と繰り返される実験につながります。理科の授業で、これらの実験のログを記録することを学び、実験ごとにさまざまな変数を調整するプロセスを追跡することができました。実験はより良い結果につながり、プロセスを文書化することで、すべての変数を調査し、結果が再現可能であることを同僚に安心させることができます。 機械学習モデルを実験するデータ サイエンティストは、ソフトウェア開発と科学研究の分野を組み合わせる必要があります。機械学習モデルは、Python や R などの言語で開発され、TensorFlow、PyTorch などの機械学習ライブラリを使用して構築され、Apache Spark などのプラットフォーム上で実行され、クラウド インフラストラクチャ上にデプロイされるソフトウェア コードです。機械学習モデルの開発とサポートには広範な実験と最適化が必要であり、データ サイエンティストはモデルの精度を証明する必要があります。 ソフトウェア開発と同様に、機械学習モデルには継続的なメンテナンスと強化が必要です。この一部は、コード、ライブラリ、プラットフォーム、インフラストラクチャの保守から生じる可能性がありますが、データ サイエンティストはモデル ドリフトの問題にも重点を置く必要があります。簡単に言えば、モデルドリフトは、新しいデータが利用可能になり、機械学習モデルによって提供される予測、クラスタリング、セグメンテーション、および推奨事項が予想される結果から逸脱したときに発生します。 成功するモデル管理は、最高のモデルの開発から始まります Alteryx の最高データおよび分析責任者である Alan Jacobson 氏に、組織が機械学習モデルの開発に成功する方法について話を聞きました。 「モデル開発を簡素化するために、ほとんどのデータ サイエンティストが直面する最初の課題は、問題を明確に定式化することです。複雑なビジネス上の問題の多くは、非常に単純な分析で解決できますが、そのためにはまず、データと分析が問題の解決に役立つような形で問題を組み立てる必要があります。最も複雑なモデルであっても、プロセスで最も難しいのは、多くの場合、データを組み立て、適切な入力が使用され、適切な品質であることを確認することです。」 私はジェイコブソン氏に同意します。データとテクノロジーの実装の多くは、問題の説明が不十分、または問題の説明がまったくなく、十分なデータ品質を確保するための時間、ツール、専門知識が不足している状態から始まります。組織はまずビッグデータについて賢明な質問をし、データ操作に投資し、次にデータサイエンスのアジャイル手法を使用してソリューションを反復する必要があります。 機械学習モデルのモデルドリフトの監視 正確な問題定義を取得することは、運用中のモデルの継続的な管理と監視にとって重要です。ジェイコブソン氏はさらにこう説明しています。「モデルの監視は重要なプロセスですが、それを正しく行うには、監視対象と潜在的な悪影響について深く理解する必要があります。ほとんどの人がモデルのパフォーマンスと時間の経過に伴う変化の監視について議論しますが、この分野では予期しない結果の分析の方がより重要で、困難です。」 モデルのドリフトと予期しない結果を理解する簡単な方法は、パンデミック前のトレーニング データを使用して開発された機械学習モデルに対する COVID-19 の影響を考慮することです。人間の行動、自然言語処理、消費者需要モデル、詐欺パターンに基づく機械学習モデルはすべて、パンデミック中の行動の変化の影響を受けており、これらの変化により AI モデルが混乱しました。 より多くの組織が価値を獲得し、データ サイエンス プログラムを成熟させ始めるにつれて、テクノロジー プロバイダーも新しい MLops 機能をリリースしています。たとえば、SAS は、データ サイエンティストがターゲット変数なしでモデルを評価するのに役立つ機能貢献インデックスを導入しました。 Cloudera は最近、技術的なパフォーマンス メトリックをキャプチャし、モデルの予測を追跡する ML 監視サービスを発表しました。 MLopsは自動化とコラボレーションの問題にも対処します 機械学習モデルの開発から運用環境での監視までの間には、データ サイエンスの実践を拡張できるようにする追加のツール、プロセス、コラボレーション、および機能があります。機械学習モデル用のコードとしてのインフラストラクチャや CI/CD (継続的インテグレーション/継続的デプロイメント) を含む、DevOps のような自動化とインフラストラクチャ。基礎となるトレーニング データを使用したモデルのバージョン管理や、モデル リポジトリの検索など、その他の開発者機能もいくつかあります。 MLops のさらに興味深い側面は、データ サイエンス チームに科学的手法とコラボレーションをもたらすことです。たとえば、DataRobot では、複数の実験モデルを並行して実行し、実稼働バージョンの精度に挑戦するチャンピオン チャレンジャー モデルが可能になります。 SAS は、データ サイエンティストが市場投入までのスピードとデータ品質を向上できるよう支援したいと考えています。 Alteryx は最近、データ サイエンス チーム間のコラボレーションと共有を支援する Analytics Hub を導入しました。 これらすべては、機械学習の管理と拡張には、データ サイエンティストにランダム フォレスト、k-means、または畳み込みニューラル ネットワークを Python で記述してテストするように依頼するだけのことよりも、より多くの規律と実践が必要であることを示唆しています。 |
<<: Tencent IEG オープンソース AI SDK: PUBG および MOBA ゲームの自動テスト
>>: 目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読
機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...
ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...
近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...
[[280530]] [51CTO.com クイック翻訳] システムの効率性と複雑さが増すにつれて、...
序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...
[[258853]]人工知能は今年の全国人民代表大会で注目の話題の一つとなった。多くの代表者や議員は...
スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...
スマート セキュリティ業界は急速に進化しており、AI と 4K がスマート カメラで普及するにつれて...
最近、韓国のテレビ局が韓国初の人工知能キャスターを導入した。この新しく作られたAI女性キャスターは、...
スマートグリッドは私たちにとってどのような意義があるのでしょうか?実際のところ、私たちはスマートグリ...