序文 機械学習プロジェクトを実行するには、まずモデルを(ほとんどの場合は予測 API として)デプロイします。この API を本番環境で動作させるには、まずモデルを提供するインフラストラクチャを構築する必要があります。これには、負荷分散、スケーリング、監視、更新などが含まれます。
一見すると、これらの仕事はすべて馴染みのあるもののように思えるかもしれません。 Web 開発者と DevOps エンジニアは長年にわたりマイクロサービス インフラストラクチャの自動化に取り組んできました。確かに彼らのツールを再利用できるのでしょうか? 残念ながらできません。 ML のインフラストラクチャは従来の DevOps と似ていますが、ML に特化しているため、標準の DevOps ツールは理想的とは言えません。そのため、私たちは機械学習エンジニアリング用のオープンソース プラットフォームである Cortex を開発しました。 非常に高レベルでは、Cortex は、基盤となるインフラストラクチャ全体を自動化し、ローカルまたはクラウド上でのモデルの展開を簡素化するように設計されています。プラットフォームのコアコンポーネントは、開発者が予測 API を記述できるプログラム可能な Python インターフェイスである Predictor Interface です。 Web リクエストの予測を提供するための Python インターフェースを設計することは、数か月を要した課題でした (現在も改良中です)。ここで、私たちが開発したいくつかのデザイン原則を共有したいと思います。 1. 予測子は単なるPythonクラスです Cortex の中核は予測子であり、基本的にはすべてのリクエスト処理コードと依存関係を含む予測 API です。 Predictor インターフェースは、これらの予測 API に対するいくつかの簡単な要件を実装します。 Cortex はモデルの提供にマイクロサービス アプローチを採用しているため、予測インターフェースは次の 2 つの点に厳密に重点を置いています。
この精神に基づき、Cortex の予測インターフェースには、残りの init__() と predict() という 2 つの関数が必要です。これらは、ほぼ予想どおりの機能を果たします。
初期化されると、予測子は、ユーザーがエンドポイントをクエリしたときに単一の predict() 関数が呼び出される Python オブジェクトと考えることができます。 このアプローチの最大の利点の 1 つは、ソフトウェア エンジニアリングの経験がある人なら誰でも直感的に理解できることです。データ パイプラインやモデル トレーニング コードに触れる必要はありません。モデルは単なるファイルであり、予測子はモデルをインポートして predict() メソッドを実行する単なるオブジェクトです。 しかし、このアプローチは、その構文上の魅力を超えて、皮質へのより広範なアプローチを補完する方法という点で、いくつかの重要な利点を提供します。 2. 予測は単なるHTTPリクエストです 本番環境で予測を提供するためのインターフェースを構築する際の複雑さの 1 つは、少なくとも形式においては、入力がモデルのトレーニングに使用されたデータとはほぼ確実に異なることです。 これは 2 つのレベルで機能します。
したがって、予測インターフェースは、予測 API の入力と出力について意見を述べることはできません。予測は単なる HTTP リクエストであり、開発者はそれを自由に使用できます。たとえば、マルチモデル エンドポイントをデプロイし、リクエスト パラメータに基づいてさまざまなモデルをクエリする場合は、次のようにします。
このインターフェースにより、開発者は API で自由に操作できるようになりますが、インフラストラクチャの面では Cortex がより独自の判断を下せる自然な余地も得られます。 たとえば、バックグラウンドでは Cortex は FastAPI を使用してリクエスト ルーティングを設定します。 Cortex は、自動シーケンス、監視、およびその他のインフラストラクチャ機能に関連する多くのプロセスをこのレイヤーに設定しますが、開発者がルーティングを実装する必要がある場合、これらのプロセスは非常に複雑になる可能性があります。 ただし、各 API には predict() メソッドがあるため、各 API のルートの数は同じ (1) になります。理論的には、これにより Cortex はエンジニアを制限することなくインフラストラクチャ レベルでより多くのことを実行できるようになります。 3. サービスモデルは1つのマイクロサービスのみ スケールは、本番環境で機械学習を使用するすべての人にとって大きな懸念事項です。モデルは大きくなり(GPT-2 は約 6 GB)、計算コストが高くなり、レイテンシが大きくなる可能性があります。特にリアルタイム推論の場合、トラフィックを処理するためにスケールアップすることは困難であり、予算が限られている場合はさらに困難になります。 この問題を解決するために、Cortex は予測子を水平方向にスケーリングできるマイクロサービスとして扱います。具体的には、開発者が Cortex をデプロイすると、Cortex に API が組み込まれ、推論用に準備されたクラスターが起動され、デプロイされます。次に、ロードバランサーの背後にある Web サービスとして API を公開し、自動スケーリング、更新、および監視を構成します。 予測子インターフェースは「単なる」Python インターフェースですが、このプロセスの基礎となります。 予測子インターフェースは、コードを単一の推論単位にパッケージ化することを強制します。単一の API に必要なすべてのリクエスト処理コードは、単一の予測子に含まれています。これにより、皮質は予測要因を簡単に評価できるようになります。 こうすることで、エンジニアは、API を本番環境に準備するために、(もちろん、微調整を加えない限りは)余分な作業を行う必要がなくなります。 Cortex のデプロイメントは、デフォルトで本番環境に対応しています。 |
<<: 人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明
導入まず正直に言うと、しばらくの間、私はディープラーニングをあまり理解できませんでした。関連する研究...
イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...
スマートホームの発展過程で、その定義は何度も変化してきました。当初のリモートコントロールの概念から、...
[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...
生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...
[[385451]]この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので...
8月4日、中国北方工業集団公司、北奔重型トラック集団有限公司、渤海、松山湖材料研究所は調印式を開催し...
Midjourney は多くの人が使用するグラフィック デザイン ツールです。最近アップデートされた...
昨年 11 月、PyTorch は権威ある PyTorch チュートリアル ブック「Deep Lea...
SSD ソリッド ステート ドライブは近年のストレージ技術における大きな進歩であり、コンピューターの...
AI の急速な発展は多くの人々の学習意欲をかき立てていますが、初心者にとっては大量の手動プログラミン...
この記事では、シンプルだが実用的な暗号化方式を実装する方法を紹介します。実際のプロジェクト開発におけ...
清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...