MLOps 実装を成功させるためのベストプラクティス

MLOps 実装を成功させるためのベストプラクティス

翻訳者 | ブガッティ

企画 | 梁策、孫淑娟

機械学習と今日の世界におけるその応用については、すでにご存知かもしれません。人工知能 (AI) と機械学習 (ML) は、結果を正確に予測し、通常は人間が実行するタスクを自動化できるインテリジェント ソフトウェアの開発を促進します。機械学習をアプリケーションに組み込むことは重要ですが、組織にとって機械学習がスムーズに実行されるようにすることがさらに重要です。

これを実現するために、多くの企業は機械学習運用 (MLOps) と呼ばれる一連のベストプラクティスを活用しています。そして、MLOps はあらゆるビジネスの将来の繁栄にとって重要になりつつあります。デロイトによれば、市場は2025年までに40億ドルに拡大する可能性があり、これは2019年以来ほぼ12倍の増加となる。

機械学習は多くのビジネスプロセスにメリットをもたらしますが、多くの企業は依然として生産性向上のための ML 手法の実装に苦労しています。

MLOps のベストプラクティスとその適用方法とは?

新しい SaaS プロバイダーにサインアップしたり、新しいクラウド コンピューティング インスタンスを作成したりするだけで、MLOps が機能すると想定しないでください。慎重な準備と、チームや部門全体での統一されたアプローチが必要です。 MLOps 実装を成功させるためのベスト プラクティスをいくつか紹介します。

1. 複数の市場セグメントにわたってモデルを検証する

モデルは再利用可能ですが、ソフトウェアは再利用できません。モデルの有用性は徐々に低下するため、再トレーニングが必要になります。新しい状況ごとにモデルを調整する必要があり、このタスクを実行するにはトレーニング パイプラインが必要です。

トライアルモニタリングはモデルのバージョン管理と再現性の管理に役立ちますが、モデルを使用する前に検証することも重要です。

オフラインまたはオンラインの検証は、企業が優先順位に応じて使用できるオプションです。テスト データセットを使用して、精度や正確さなどの指標に重点を置き、ビジネス目標を達成するためのモデルの適合性を評価します。アップグレードを決定する前に、メトリックを現在の運用/ベースライン モデルと比較する必要があります。

実験がメタデータの観点から適切に追跡および管理されていれば、アップグレードやロールバックを簡単に実行できます。この記事では、A/B テストを使用してオンライン モデルを検証し、実際のデータに対して適切に機能するかどうかを確認する方法について説明します。

機械学習システムは、データから得られるバイアスをますます認識するようになっています。一例として、一部のユーザーにとって機能しなかった Twitter の画像切り抜きツールが挙げられます。モデルのパフォーマンスをさまざまなユーザー グループと比較することで、このような不正確さを発見して修正できます。モデルのパフォーマンスをさまざまなデータセットでテストし、要件を満たしていることを確認する必要もあります。

2. 新しいことに挑戦し、結果を追跡する

ハイパーパラメータ検索と特徴エンジニアリングは進化している分野です。 ML チームの目標は、最先端の技術と常に変化するデータ パターンを考慮して、可能な限り最高のシステムを作成することです。

ただし、そのためには最新のトレンドや標準に遅れずについていく必要があります。さらに、これらの概念をテストして、機械学習システムのパフォーマンスが向上するかどうかを確認します。

データ、コード、ハイパーパラメータはすべて実験に使用できます。変数の可能な組み合わせごとに、他の実験の結果と比較できるメトリックが生成されます。調査が実施される状況によっても結果が変わる可能性があります。

また、タイムリーな結果を保証し、各プロジェクトに費やされた時間を追跡するために、時間追跡ソフトウェアを導入することもできます。

3. MLOpsの成熟度を理解する

Microsoft や Google などの主要なクラウド プロバイダーは、MLOps の導入に成熟モデルを使用しています。

MLOps を実装するには、組織の変更と新しい作業方法が必要です。これは、組織のシステムと手順が改善され始めると徐々に起こります。

MLOps の実装を成功させるには、組織の MLOps 成熟度の進捗状況を正直に評価する必要があります。効果的な成熟度評価を実施した後、企業は新しい成熟度レベルに移行する方法を学ぶことができます。デプロイメント プロセスの変更 (DevOps の実装や新しいチーム メンバーの参加など) もこの一部です。

機械学習用のデータを保存する方法は、特徴ストアなどさまざまなものがあります。機能ストアは、データ インフラストラクチャが十分に開発された組織に役立ちます。異なるデータ チームが同じ機能を使用し、作業の重複を減らすようにする必要があります。組織にデータ サイエンティストやアナリストが少数しかいない場合は、機能ストアを導入する価値がない可能性があります。

組織は MLOps 成熟モデルを活用して、テクノロジー、プロセス、チームを一体的に成熟させることができます。実装前にツールを反復してテストする可能性が確保されます。

4. 費用対効果分析を実施する

MLOps が組織に何をもたらすかを理解してください。次回の購入時に戦略に従うと、各取引を効率的に処理できます。あなたが車を選ぼうとしている車の購入者だとしましょう。スポーツカー、SUV、コンパクトカー、高級車など、選択肢は数多くあります。まず、自分のニーズに最も適したカテゴリーを選択し、購入する車が自分のニーズを満たしていることを確認し、次に予算に基づいてさまざまなカテゴリーとモデルを分析する必要があります。

企業に最適な MLOps テクノロジーを選択する場合も同様です。たとえば、スポーツカーと SUV にはそれぞれ異なる長所と短所があります。同様に、いくつかの MLOps ツールの長所と短所を分析できます。

情報に基づいた戦略的決定を下すには、会社の予算と目標、実施する予定の MLOps アクティビティ、処理する予定のデータセットのソースと形式、チームの能力など、いくつかの変数を考慮する必要があります。

5. コミュニケーションチャネルをオープンに保つ

製品マネージャーと UX デザイナーは、システムをサポートする製品が顧客とどのようにやり取りするかに影響を与えます。機械学習エンジニア、DevOps エンジニア、データ サイエンティスト、データ視覚化の専門家、ソフトウェア開発者が協力して、長期的な機械学習システムを実装および管理する必要があります。

従業員のパフォーマンスは管理者と事業主によって確認および認定され、コンプライアンス専門家は活動が会社のポリシーと規制基準に準拠していることを確認します。

変化するユーザー、データ パターン、期待に直面しても機械学習システムがビジネス目標を達成し続けるには、それらを接続する必要があります。

6. ワークフローに自動化を組み込む

広範囲かつ高度な自動化により、企業の MLOps 成熟度は高まる可能性があります。 MLOps が不足している環境では、多くの機械学習タスクを手動で実行する必要があります。これには、特徴エンジニアリング、データのクリーニングと変換、トレーニング データとテスト データの小さなチャンクへの分割、モデル トレーニング コードの構築などが含まれます。

データ サイエンティストはこれらのタスクを手動で実行するので、エラーが発生しやすくなり、調査に費やすことができた時間が無駄になります。

継続的な再トレーニングは自動化の典型的な例であり、データ アナリストが検証、データ取り込み、機能エンジニアリング、実験、モデル テストのためのパイプラインを設定する場合があります。継続的な再トレーニングはモデルのドリフトを防ぎ、自動化された機械学習の初期ステップとしてよく見られます。

オリジナルリンク: https://www.kdnuggets.com/2022/04/mlops-best-practices-apply.html

<<:  機械学習をプログラマーにとってより身近なものにする方法

>>:  模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

推薦する

人工知能は企業で実用化されつつある

AI は、従来のプロセスや従来のテクノロジーにまき散らされた魔法の精霊ではなく、ビジネスのやり方を根...

この記事を読んで、人工知能に携わる私は、もう

機械学習とは何ですか?答えるのに 10 秒かかります。 …分からない?あなたはまだ人工知能業界で働き...

人工知能は「新たな生産要素」である

[[186158]]何人かの経済学者に話を聞いてみれば、彼らはほぼ間違いなく、生産性の伸びの弱さが現...

AIロボットが大規模に導入されると、私たちはより良くなるのでしょうか?

人工知能の波が大きな変化を引き起こすには、4年という時間は十分あります。 2016年に北京の大学の講...

...

AIがクラウドに依存しない理由:将来AIは疎外される

[[268251]] [51CTO.com 速訳] 人工知能の発展は希望と課題に満ちている。その「不...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

韓国チームはサンプルの引き渡しを拒否し、2本目のLK-99サスペンションビデオを公開しました! HUSTの新論文が初めて反磁性を証明

昨夜、「LK-99は韓国当局により偽物と摘発され、常温超伝導体ではない」というニュースがインターネッ...

面接でコンシステントハッシュアルゴリズムについて再度質問されました。この答えは面接官を即死させるでしょう!

[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...

DragGANはオープンソース化から3日間で23,000のスターを獲得し、DragDiffusionが登場しました。

AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます...

すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...

自然言語処理のためのオープンソースツール12選

[[316046]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...

Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

北京時間8月19日のreadwriteによると、2014年にGoogleに買収された英国の人工知能企...

...

...