機械学習の運用が増加している

機械学習の運用が増加している

データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり、運用環境でモデルを管理することはさらに困難です。モデルのドリフトを特定し、データセットを更新してモデルを再トレーニングし、パフォーマンスを向上させ、基盤となるテクノロジー プラットフォームを維持することは、すべて重要なデータ サイエンスの実践です。これらの規律がなければ、モデルは誤った結果を生み出し、ビジネスに重大な影響を及ぼす可能性があります。

[[339340]]

生産準備が整ったモデルを開発するのは簡単ではありません。機械学習の調査によると、55% の企業がモデルを本番環境に導入しておらず、40% 以上がモデルの導入に 30 日以上かかっています。成功したとしても新たな課題が生じる可能性があり、回答者の 41% が機械学習モデルのバージョン管理と再現性の難しさについて認めています。

ここでの教訓は、機械学習モデルが本番環境に導入され、ビジネス プロセスで使用されると、新たな障害が発生するということです。

モデルの管理と運用は、より高度なデータ サイエンス チームにとって課題でした。今日のタスクには、運用中の機械学習モデルのドリフトの監視、モデルの自動再トレーニング、ドリフトが重大な場合にアラートを発すること、モデルのアップグレードが必要な時期を特定することも含まれます。機械学習に投資する組織が増えるにつれて、モデルの管理と運用に対する意識を高めることがますます必要になります。

幸いなことに、オープンソースの MLFlow や DVC などのプラットフォームやライブラリ、および Alteryx、Databricks、Dataiku、SAS、DataRobot、ModelOp などの商用ツールにより、データ サイエンス チームによるモデルの管理と運用が容易になっています。パブリック クラウド プロバイダーも、Azure Machine Learning が提供する MLops などのいくつかのプラクティスを共有しています。

モデル管理と DevOps にはいくつかの類似点があります。多くの人はモデルの管理と運用を MLops と呼び、機械学習モデルの開発と維持に必要な文化、実践、テクノロジーとして定義しています。

モデルの管理と運用を理解する

モデルの管理と運用をより深く理解するには、ソフトウェア開発の実践と科学的手法の組み合わせを考慮する必要があります。

ソフトウェア開発者であれば、アプリケーションのバージョンを完成させて本番環境にデプロイするのは簡単な作業ではないことはご存じでしょう。そして、アプリケーションが本番環境に移行すると、さらに大きな課題が始まります。エンドユーザーは定期的な機能強化を期待しており、基盤となるインフラストラクチャ、プラットフォーム、ライブラリにもパッチ適用とメンテナンスが必要です。

さて、科学の世界に目を向けてみましょう。科学の世界でも、疑問は複数の仮説と繰り返される実験につながります。理科の授業で、これらの実験のログを記録することを学び、実験ごとにさまざまな変数を調整するプロセスを追跡することができました。実験はより良い結果につながり、プロセスを文書化することで、すべての変数を調査し、結果が再現可能であることを同僚に安心させることができます。

機械学習モデルを実験するデータ サイエンティストは、ソフトウェア開発と科学研究の分野を組み合わせる必要があります。機械学習モデルは、Python や R などの言語で開発され、TensorFlow、PyTorch などの機械学習ライブラリを使用して構築され、Apache Spark などのプラットフォーム上で実行され、クラウド インフラストラクチャ上にデプロイされるソフトウェア コードです。機械学習モデルの開発とサポートには広範な実験と最適化が必要であり、データ サイエンティストはモデルの精度を証明する必要があります。

ソフトウェア開発と同様に、機械学習モデルには継続的なメンテナンスと強化が必要です。この一部は、コード、ライブラリ、プラットフォーム、インフラストラクチャの保守から生じる可能性がありますが、データ サイエンティストはモデル ドリフトの問題にも重点を置く必要があります。簡単に言えば、モデルドリフトは、新しいデータが利用可能になり、機械学習モデルによって提供される予測、クラスタリング、セグメンテーション、および推奨事項が予想される結果から逸脱したときに発生します。

成功するモデル管理は、最高のモデルの開発から始まります

Alteryx の最高データおよび分析責任者である Alan Jacobson 氏に、組織が機械学習モデルの開発に成功する方法について話を聞きました。 「モデル開発を簡素化するために、ほとんどのデータ サイエンティストが直面する最初の課題は、問題を明確に定式化することです。複雑なビジネス上の問題の多くは、非常に単純な分析で解決できますが、そのためにはまず、データと分析が問題の解決に役立つような形で問題を組み立てる必要があります。最も複雑なモデルであっても、プロセスで最も難しいのは、多くの場合、データを組み立て、適切な入力が使用され、適切な品質であることを確認することです。」

私はジェイコブソン氏に同意します。データとテクノロジーの実装の多くは、問題の説明が不十分、または問題の説明がまったくなく、十分なデータ品質を確保するための時間、ツール、専門知識が不足している状態から始まります。組織はまずビッグデータについて賢明な質問をし、データ操作に投資し、次にデータサイエンスのアジャイル手法を使用してソリューションを反復する必要があります。

機械学習モデルのモデルドリフトの監視

正確な問題定義を取得することは、運用中のモデルの継続的な管理と監視にとって重要です。ジェイコブソン氏はさらにこう説明しています。「モデルの監視は重要なプロセスですが、それを正しく行うには、監視対象と潜在的な悪影響について深く理解する必要があります。ほとんどの人がモデルのパフォーマンスと時間の経過に伴う変化の監視について議論しますが、この分野では予期しない結果の分析の方がより重要で、困難です。」

モデルのドリフトと予期しない結果を理解する簡単な方法は、パンデミック前のトレーニング データを使用して開発された機械学習モデルに対する COVID-19 の影響を考慮することです。人間の行動、自然言語処理、消費者需要モデル、詐欺パターンに基づく機械学習モデルはすべて、パンデミック中の行動の変化の影響を受けており、これらの変化により AI モデルが混乱しました。

より多くの組織が価値を獲得し、データ サイエンス プログラムを成熟させ始めるにつれて、テクノロジー プロバイダーも新しい MLops 機能をリリースしています。たとえば、SAS は、データ サイエンティストがターゲット変数なしでモデルを評価するのに役立つ機能貢献インデックスを導入しました。 Cloudera は最近、技術的なパフォーマンス メトリックをキャプチャし、モデルの予測を追跡する ML 監視サービスを発表しました。

MLopsは自動化とコラボレーションの問題にも対処します

機械学習モデルの開発から運用環境での監視までの間には、データ サイエンスの実践を拡張できるようにする追加のツール、プロセス、コラボレーション、および機能があります。機械学習モデル用のコードとしてのインフラストラクチャや CI/CD (継続的インテグレーション/継続的デプロイメント) を含む、DevOps のような自動化とインフラストラクチャ。基礎となるトレーニング データを使用したモデルのバージョン管理や、モデル リポジトリの検索など、その他の開発者機能もいくつかあります。

MLops のさらに興味深い側面は、データ サイエンス チームに科学的手法とコラボレーションをもたらすことです。たとえば、DataRobot では、複数の実験モデルを並行して実行し、実稼働バージョンの精度に挑戦するチャンピオン チャレンジャー モデルが可能になります。 SAS は、データ サイエンティストが市場投入までのスピードとデータ品質を向上できるよう支援したいと考えています。 Alteryx は最近、データ サイエンス チーム間のコラボレーションと共有を支援する Analytics Hub を導入しました。

これらすべては、機械学習の管理と拡張には、データ サイエンティストにランダム フォレスト、k-means、または畳み込みニューラル ネットワークを Python で記述してテストするように依頼するだけのことよりも、より多くの規律と実践が必要であることを示唆しています。

<<:  Tencent IEG オープンソース AI SDK: PUBG および MOBA ゲームの自動テスト

>>:  目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新世代のJVMガベージコレクションアルゴリズムがリリースされました

新世代の JVM ガベージ コレクション アルゴリズムをご存知ですか? ここで皆さんにご紹介しましょ...

COVID-19ヘルスケア市場はこれまでと異なる

[[355787]]画像ソース: https://pixabay.com/images/id-537...

...

ScalableMap: オンラインで長距離ベクトル化された高精度マップ構築のためのスケーラブルなマップ学習

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

初のユニバーサル音声翻訳システム! Meta が SeamlessM4T をオープンソース化: 470,000 時間のトレーニング データを使用して 100 言語のマルチモーダル翻訳をサポート

テキストベースの翻訳システムは大きな進歩を遂げています。初期の単語マッチングや文法規則から、ニューラ...

将来の旅行に関する最初の質問:自動運転による交通渋滞の解決策は本当に実現可能でしょうか?

交通渋滞問題は北京、上海、広州の都市脳血栓症となっている。我々の巧妙な統治の下では、都市部の道路渋滞...

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

世界の潮流は力強く前進しています。科学研究​​と探究のペースを止めれば、井戸の中で空を眺め、満足して...

中国製ドローンが日本で試験飛行、日本の農業に参入へ

[[227827]] 福岡県香春町で先日、農薬散布ドローンの試験飛行が行われた。以前は、1.8エーカ...

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

企業の情報技術の意思決定者として、上級管理職や部門長に AI のビジネス価値を示す必要がある場合、I...

食品サービス機器業界の主な動向

[[442813]]画像ソース: https://pixabay.com/images/id-673...

...

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

テクノロジーの進歩により、人工知能 (AI) が徐々に出版業界に参入し始めており、特にオーディオブッ...

...