「MLOps」の考え方を取り入れるためのベストプラクティス

「MLOps」の考え方を取り入れるためのベストプラクティス

AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環を起こさないようにすることです。これは、データがあらゆるレベルの専門家によって処理される必要があるためです。基盤となるアーキテクチャに MLOps と呼ばれる機械学習の運用方法論がない場合、さまざまなソースからデータを抽出し、それをクリーニング、分析、入力すると、機械学習システムの遅延につながる可能性があります。

[[409567]]

ほとんどの AI プロジェクトが実稼働まで到達できないのは、単純に聞こえるものの大きな影響を及ぼすギャップ、つまりデータ サイエンティストとビジネス間のコミュニケーション不足が原因です。 IDC の調査では、2 つのグループ間の継続的なコミュニケーションの重要性に焦点が当てられました。これにより、組織は MLOps が機能するようにすぐに使用できるソリューションを探す必要が生じます。

MLOps のベスト プラクティスは次の点に重点を置いています。

  • データの取り込み、モデルの作成、展開、監視をエンドツーエンドで可視化し、処理を高速化します。
  • バージョン管理データやメタデータなどの関連する成果物をすべて保存することで、運用モデルをより迅速に監査および複製します。
  • さまざまな環境や要件に合わせてモデルを簡単に再トレーニング
  • 機械学習システムをより速く、より安全に、より正確にテストします。

ただし、機械学習モデルの開発、実装、トレーニングが主なボトルネックになることはありません。重大な中断なく継続的に稼働し続ける統合 AI システムを本番環境に構築することは、真の課題です。たとえば、機械学習ソリューションを導入する必要がある組織では、実験的なコードを繰り返し書き直すしかありません。このアプローチは曖昧であり、最終的に成功するかどうかはわかりません。

これはまさに MLOps が解決しようとしている問題です。

つまり、機械学習モデルのデータ操作 (DataOps) が MLOps です。これは、データ サイエンティストと協力して機械学習モデルを実装し、速度と堅牢性を実現するプロセスです。 Neuromation という会社には、MLOps の戦略開発を中心としたサービス モデル全体があります。機械学習サービスプロバイダーは、データサイエンティストとエンジニアを結集して強力な機械学習ライフサイクル管理を実現することに重点を置いています。

共同作業プロセスには、データ サイエンティストに加えて、エンジニア、クラウド アーキテクト、すべての関係者からの継続的なフィードバックが含まれます。共同作業のプロセスでは、より優れた機械学習モデルを本番環境に実装し、データ駆動型の DevOps プラクティスを作成することに重点が置かれます。

他に何をすべきでしょうか? 続きをお読みください。

継続的インテグレーション/継続的開発 (CI/CD) パイプラインの自動化を改善する

継続的インテグレーション (CI) と継続的開発 (CD) は、機械学習パイプラインの構築、テスト、および展開を自動化します。継続的インテグレーションと継続的開発により、新しく設計されたモデル アーキテクチャ、機能、ハイパーパラメータを使用して、新しい継続的な機械学習パイプラインが展開されます。デプロイされたパイプラインは、新しいデータセットをさらに処理します。この継続的な自動化パイプラインは、新しいデータが利用可能になると新しい予測サービスを実装します。この時点で、出力は新しいコンポーネントのソース コードになります。これらのソース コードは、予想される環境の新しいソース リポジトリにさらにプッシュされます。

この新しいソース コードは、CI/CD パイプラインをトリガーして新しいコンポーネントを構築し、その後、継続的なユニット テストと統合テストが実行されます。すべてのテストに合格すると、新しいパイプラインがターゲット環境にデプロイされます。パイプラインは、事前に定義されたスケジュールとトレーニング データに従って、本番環境で自動的に実行されます。

データ評価を容易にするためのデータレイクを構築する

機械学習は大量のデータを使って改良することができます。そのため、即時の予測に使用することを検討する前に、データの可用性を確保し、適切な量と効率性を確保する必要があります。たとえば、何百万もの顧客からのデータを処理する QSR (クイック サービス レストラン) システムには、機械学習テクノロジーを活用する必要があります。ここでは、データが増加するだけでなく、急速に変化しています。同じことは、ラストマイル配送、CRM、社内 ERP など、密接にリンクされた多数のシステムが存在する電子商取引の分野でも当てはまります。

まず、すべてのデータ ソースへのシームレスなアクセスを提供するデータ レイク環境を確立します。データ レイクは集中型倉庫のようなもので、データ評価の中心となる必要があります。これは、MLOps 処理およびデータ分析環境でのさらなる使用のためにデータをフィルタリングおよびスクリーニングするために使用されるリポジトリです。データが定性分析や必要なビジネス変更を実行するのに十分な価値があることを保証するには、継続的な実験に適応する必要があります。これを実現するには、利用可能なデータ セットを迅速に処理できるスケーラブルなコンピューティング環境を使用します。

同時に、データ レイクには高度な視覚化のためのインタラクティブなダッシュボードを装備する必要があります。データ視覚化ダッシュボードの例として、AWS Quick Sight、Plotly Dash、Power BI などのツールを検討してください。これらのダッシュボードは、さまざまなビジネス ニーズに合わせて簡単にカスタマイズできます。

データ評価の最後に、すべてのデータがフィルタリングされ、将来の使用のために構造化されました。これにはカタログ作成の段階も含まれます。メタデータ構造と、そのソースからマイクロサービスを使用するまでの経路を理解して視覚化するには、データ カタログが必要です。

予測サービスとパフォーマンスを監視する

トレーニング、データ、モデル タイプに加えて、ビジネス目標に基づいてデプロイされたモデルのパフォーマンスを決定する他のメトリックもあります。機械学習モデルの最良の出力を記録するには、次の指標を考慮してください。

  • レイテンシ: シームレスなユーザー エクスペリエンスを評価します。ミリ秒単位で遅延を測定
  • スケーラビリティ: 一定のレイテンシでビジネス トラフィックを処理する能力。これは 1 秒あたりのクエリ数 (QPS) で測定されます。
  • サービス更新: 更新中のサービスのダウンタイムを最小限に抑えます。

データ構造の使用

データ ファブリックは、複数のソースからデータを収集し、アナリストがすぐにビジネスに使用できるようにするためのフレームワークです。 MLOps イニシアチブは、クラウドとオンプレミスの両方で、さまざまな運用ユースケースにわたるデータ構造と密接に連携します。データ構造は集中化された調整プロセスを作成するため、リスクを軽減し、ビッグデータ管理の全体的なコストを削減できます。興味深いことに、組織は DataOps イニシアチブを推進するための基盤として構造を使用しています。

たとえば、K2View は、その構造技術に基づいて構築されたデータ準備センターを提供しています。データ準備センターはさまざまなソースからデータを収集し、再定義されたパターンとルールに従ってデータをフィルタリング、入力、マスクします。ここでは、各顧客はデジタルエンティティによって表され、そのデータは専用のマイクロデータベースに保存されます。ビジネス エンティティごとにデータをパイプするこのアプローチにより、データの整合性が確保され、チームは中断のないアクセスが可能になります。

ボーナスヒント: 適切なクラウドアーキテクチャを選択する

データ環境は、何らかの形でクラウド アプリケーションに関連付けられている可能性があります。組織内でクラウド モデルの使用が増えていることを考えると、いくつかの基本事項を確認する価値があります。クラウド プラットフォームは MLOps に適していますか?

ほとんどのクラウド プラットフォームには組み込みのデータ サイエンス機能が備わっていますが、エンドツーエンドの機械学習パイプライン (ストレージ、取り込み、モデリング、視覚化、監視など) の弾力性と高性能な処理をサポートできるかどうかを確認することが重要です。

ここでは、「コードとしてのインフラストラクチャ」によって、スケーラブルで再現可能な機械学習環境の構成が自動化されます。オンプレミスと同様に、クラウド プラットフォームは、正確な機械学習モデルのトレーニングとテストに CI/CD に依存しています。 MLOps をサポートする既製のクラウド環境の例としては、AWS SageMaker、Google Cloud AI Pipelines、Databricks などがあります。

要約する

この記事では、MLOps 戦略を策定する際に考慮すべきいくつかの重要な指標について説明します。自動化が主流のサービスになるにつれ、組織にとっての次の課題は「XOps」スキルの向上になります。 MLOps を使用することで、組織は DataOps プロセスへの関与を向上できるだけでなく、せっかちな顧客の期待にも応えることができます。

<<:  Reddit のホットな話題: 博士課程の学生なのに行列の階数も分からないのに、どうやって卒業できるのか?

>>:  我々は最初のAI戦争を目撃したかもしれない

ブログ    
ブログ    
ブログ    

推薦する

超強力なPytorchオペレーション! ! !

こんにちは、Xiaozhuangです!ここ数日、ディープラーニングに関するコンテンツをいくつか共有し...

ジェネレーティブ AI が画像検索をどのように再定義するか

翻訳者 |李睿レビュー | Chonglou 生成AI は、ユニークなテキスト、サウンド、画像を作成...

AI人材が年間数百万ドルを稼ぐ理由

現在、ほぼすべてのテクノロジー大手が AI プロジェクトを実施しており、AI 時代に勝ち残るために、...

検討すべき5つのスマートホームテクノロジー

今日でも、ほとんどの人はスマートホームテクノロジーを手の届かない贅沢品と見なしています。しかし、家庭...

DeepMindのAIが核融合炉の制御を学習、Nature誌に発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

張漢松: 大ヒットARゲームのルールを解説

[[324671]] 【51CTO.comオリジナル記事】数日前、グローバル モバイル インターネ...

スタートアップ企業の皆様、人工知能は本当に必要ですか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能(AI)はますます一般的になり、必要になってき...

人工知能がスマートファクトリーにもたらす力

現在、製造業における人工知能技術の応用が急成長しています。自社にとって適切な人工知能ツールをどのよう...

...

機械学習トランスフォーマーアーキテクチャの謎を解く

翻訳者|朱 仙中レビュー | Chonglou Transformers は 2017 年の発売以来...

機械学習向けのテキスト注釈ツールとサービスのトップ 10: どれを選びますか?

[[347945]] [51CTO.com クイック翻訳] 現在、検索エンジンや感情分析から仮想ア...

...

マッキンゼーの「2020年人工知能の現状」レポート:AIは企業の収益成長に大きく貢献した

[[354345]]マッキンゼーの最新の AI 調査レポート「2020 年の AI の現状」によると...