機械学習の運用が増加している

機械学習の運用が増加している

データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり、運用環境でモデルを管理することはさらに困難です。モデルのドリフトを特定し、データセットを更新してモデルを再トレーニングし、パフォーマンスを向上させ、基盤となるテクノロジー プラットフォームを維持することは、すべて重要なデータ サイエンスの実践です。これらの規律がなければ、モデルは誤った結果を生み出し、ビジネスに重大な影響を及ぼす可能性があります。

[[339340]]

生産準備が整ったモデルを開発するのは簡単ではありません。機械学習の調査によると、55% の企業がモデルを本番環境に導入しておらず、40% 以上がモデルの導入に 30 日以上かかっています。成功したとしても新たな課題が生じる可能性があり、回答者の 41% が機械学習モデルのバージョン管理と再現性の難しさについて認めています。

ここでの教訓は、機械学習モデルが本番環境に導入され、ビジネス プロセスで使用されると、新たな障害が発生するということです。

モデルの管理と運用は、より高度なデータ サイエンス チームにとって課題でした。今日のタスクには、運用中の機械学習モデルのドリフトの監視、モデルの自動再トレーニング、ドリフトが重大な場合にアラートを発すること、モデルのアップグレードが必要な時期を特定することも含まれます。機械学習に投資する組織が増えるにつれて、モデルの管理と運用に対する意識を高めることがますます必要になります。

幸いなことに、オープンソースの MLFlow や DVC などのプラットフォームやライブラリ、および Alteryx、Databricks、Dataiku、SAS、DataRobot、ModelOp などの商用ツールにより、データ サイエンス チームによるモデルの管理と運用が容易になっています。パブリック クラウド プロバイダーも、Azure Machine Learning が提供する MLops などのいくつかのプラクティスを共有しています。

モデル管理と DevOps にはいくつかの類似点があります。多くの人はモデルの管理と運用を MLops と呼び、機械学習モデルの開発と維持に必要な文化、実践、テクノロジーとして定義しています。

モデルの管理と運用を理解する

モデルの管理と運用をより深く理解するには、ソフトウェア開発の実践と科学的手法の組み合わせを考慮する必要があります。

ソフトウェア開発者であれば、アプリケーションのバージョンを完成させて本番環境にデプロイするのは簡単な作業ではないことはご存じでしょう。そして、アプリケーションが本番環境に移行すると、さらに大きな課題が始まります。エンドユーザーは定期的な機能強化を期待しており、基盤となるインフラストラクチャ、プラットフォーム、ライブラリにもパッチ適用とメンテナンスが必要です。

さて、科学の世界に目を向けてみましょう。科学の世界でも、疑問は複数の仮説と繰り返される実験につながります。理科の授業で、これらの実験のログを記録することを学び、実験ごとにさまざまな変数を調整するプロセスを追跡することができました。実験はより良い結果につながり、プロセスを文書化することで、すべての変数を調査し、結果が再現可能であることを同僚に安心させることができます。

機械学習モデルを実験するデータ サイエンティストは、ソフトウェア開発と科学研究の分野を組み合わせる必要があります。機械学習モデルは、Python や R などの言語で開発され、TensorFlow、PyTorch などの機械学習ライブラリを使用して構築され、Apache Spark などのプラットフォーム上で実行され、クラウド インフラストラクチャ上にデプロイされるソフトウェア コードです。機械学習モデルの開発とサポートには広範な実験と最適化が必要であり、データ サイエンティストはモデルの精度を証明する必要があります。

ソフトウェア開発と同様に、機械学習モデルには継続的なメンテナンスと強化が必要です。この一部は、コード、ライブラリ、プラットフォーム、インフラストラクチャの保守から生じる可能性がありますが、データ サイエンティストはモデル ドリフトの問題にも重点を置く必要があります。簡単に言えば、モデルドリフトは、新しいデータが利用可能になり、機械学習モデルによって提供される予測、クラスタリング、セグメンテーション、および推奨事項が予想される結果から逸脱したときに発生します。

成功するモデル管理は、最高のモデルの開発から始まります

Alteryx の最高データおよび分析責任者である Alan Jacobson 氏に、組織が機械学習モデルの開発に成功する方法について話を聞きました。 「モデル開発を簡素化するために、ほとんどのデータ サイエンティストが直面する最初の課題は、問題を明確に定式化することです。複雑なビジネス上の問題の多くは、非常に単純な分析で解決できますが、そのためにはまず、データと分析が問題の解決に役立つような形で問題を組み立てる必要があります。最も複雑なモデルであっても、プロセスで最も難しいのは、多くの場合、データを組み立て、適切な入力が使用され、適切な品質であることを確認することです。」

私はジェイコブソン氏に同意します。データとテクノロジーの実装の多くは、問題の説明が不十分、または問題の説明がまったくなく、十分なデータ品質を確保するための時間、ツール、専門知識が不足している状態から始まります。組織はまずビッグデータについて賢明な質問をし、データ操作に投資し、次にデータサイエンスのアジャイル手法を使用してソリューションを反復する必要があります。

機械学習モデルのモデルドリフトの監視

正確な問題定義を取得することは、運用中のモデルの継続的な管理と監視にとって重要です。ジェイコブソン氏はさらにこう説明しています。「モデルの監視は重要なプロセスですが、それを正しく行うには、監視対象と潜在的な悪影響について深く理解する必要があります。ほとんどの人がモデルのパフォーマンスと時間の経過に伴う変化の監視について議論しますが、この分野では予期しない結果の分析の方がより重要で、困難です。」

モデルのドリフトと予期しない結果を理解する簡単な方法は、パンデミック前のトレーニング データを使用して開発された機械学習モデルに対する COVID-19 の影響を考慮することです。人間の行動、自然言語処理、消費者需要モデル、詐欺パターンに基づく機械学習モデルはすべて、パンデミック中の行動の変化の影響を受けており、これらの変化により AI モデルが混乱しました。

より多くの組織が価値を獲得し、データ サイエンス プログラムを成熟させ始めるにつれて、テクノロジー プロバイダーも新しい MLops 機能をリリースしています。たとえば、SAS は、データ サイエンティストがターゲット変数なしでモデルを評価するのに役立つ機能貢献インデックスを導入しました。 Cloudera は最近、技術的なパフォーマンス メトリックをキャプチャし、モデルの予測を追跡する ML 監視サービスを発表しました。

MLopsは自動化とコラボレーションの問題にも対処します

機械学習モデルの開発から運用環境での監視までの間には、データ サイエンスの実践を拡張できるようにする追加のツール、プロセス、コラボレーション、および機能があります。機械学習モデル用のコードとしてのインフラストラクチャや CI/CD (継続的インテグレーション/継続的デプロイメント) を含む、DevOps のような自動化とインフラストラクチャ。基礎となるトレーニング データを使用したモデルのバージョン管理や、モデル リポジトリの検索など、その他の開発者機能もいくつかあります。

MLops のさらに興味深い側面は、データ サイエンス チームに科学的手法とコラボレーションをもたらすことです。たとえば、DataRobot では、複数の実験モデルを並行して実行し、実稼働バージョンの精度に挑戦するチャンピオン チャレンジャー モデルが可能になります。 SAS は、データ サイエンティストが市場投入までのスピードとデータ品質を向上できるよう支援したいと考えています。 Alteryx は最近、データ サイエンス チーム間のコラボレーションと共有を支援する Analytics Hub を導入しました。

これらすべては、機械学習の管理と拡張には、データ サイエンティストにランダム フォレスト、k-means、または畳み込みニューラル ネットワークを Python で記述してテストするように依頼するだけのことよりも、より多くの規律と実践が必要であることを示唆しています。

<<:  Tencent IEG オープンソース AI SDK: PUBG および MOBA ゲームの自動テスト

>>:  目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...

機器の検査に手作業が必要な人はいますか? AIの活用

著者 | Tu Chengyeレビュー | Chonglou前の記事:「人材が足りないのではなく、A...

Googleは、生成AI製品のユーザーを著作権侵害の申し立てから保護することを約束

Googleは10月13日、現地時間公開のブログ投稿で、自社の生成AI製品のユーザーは当局によって保...

マイクロソフトがCopilot for Financeをリリース、AIでスプレッドシートに革命を起こすことを目指す

Microsoft が新たにリリースした AI アシスタントは、増え続ける財務データの中から適切な情...

危険が迫っています!マスク氏、AIが5年以内に人間を超える可能性があると警告

[[335742]]メディアの報道によると、7月30日、マスク氏はニューヨークタイムズ紙との独占イン...

マスク氏「高度なAIの開発は非常にリスクが高い。OpenAIはアルトマン氏を解雇した理由を明らかにすべき」

11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...

2020年顔認識レポート:数万社が市場に参入し、8つの主要技術と6つのトレンドがすべて1つの記事でカバーされています

[[379936]]近年、人工知能、コンピュータービジョン、ビッグデータ、クラウドコンピューティング...

2024年までにAIがすべての仕事をどう変えるのか

仕事の環境は、主に GenAI の進歩によって、前例のない変化を遂げています。ほんの数年前には初期段...

英国、心臓発作予測の精度向上のため新たな人工知能アルゴリズムを開発

心臓発作を事前に予測することは困難です。 17日のサイエンス誌によると、英国ノッティンガム大学の科学...

...

AIは生体認証のなりすまし攻撃を簡単に見分けることができる

研究論文によると、写真が実際に生きている人物を写したものか、それとも攻撃のデモンストレーションなのか...

これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。

チャート分析はビジネス上の意思決定において非常に価値があり、優れたグラフ アルゴリズムは使いやすく実...

爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

この小さなロボットはエネルギーに溢れています。体は昆虫ほどの大きさですが、自分の体重の22倍の重さの...

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...