機械学習プロジェクト用の Python インターフェースを設計する方法

序文

機械学習プロジェクトを実行するには、まずモデルを（ほとんどの場合は予測 API として）デプロイします。この API を本番環境で動作させるには、まずモデルを提供するインフラストラクチャを構築する必要があります。これには、負荷分散、スケーリング、監視、更新などが含まれます。

[[338615]]

一見すると、これらの仕事はすべて馴染みのあるもののように思えるかもしれません。 Web 開発者と DevOps エンジニアは長年にわたりマイクロサービスインフラストラクチャの自動化に取り組んできました。確かに彼らのツールを再利用できるのでしょうか?

残念ながらできません。

ML のインフラストラクチャは従来の DevOps と似ていますが、ML に特化しているため、標準の DevOps ツールは理想的とは言えません。そのため、私たちは機械学習エンジニアリング用のオープンソースプラットフォームである Cortex を開発しました。

非常に高レベルでは、Cortex は、基盤となるインフラストラクチャ全体を自動化し、ローカルまたはクラウド上でのモデルの展開を簡素化するように設計されています。プラットフォームのコアコンポーネントは、開発者が予測 API を記述できるプログラム可能な Python インターフェイスである Predictor Interface です。

Web リクエストの予測を提供するための Python インターフェースを設計することは、数か月を要した課題でした (現在も改良中です)。ここで、私たちが開発したいくつかのデザイン原則を共有したいと思います。

1. 予測子は単なるPythonクラスです

Cortex の中核は予測子であり、基本的にはすべてのリクエスト処理コードと依存関係を含む予測 API です。 Predictor インターフェースは、これらの予測 API に対するいくつかの簡単な要件を実装します。

Cortex はモデルの提供にマイクロサービスアプローチを採用しているため、予測インターフェースは次の 2 つの点に厳密に重点を置いています。

モデルを初期化する
予測の提供

この精神に基づき、Cortex の予測インターフェースには、残りの init__() と predict() という 2 つの関数が必要です。これらは、ほぼ予想どおりの機能を果たします。

輸入トーチ
トランスフォーマーのインポートパイプラインから
 
クラス PythonPredictor:
    def __init__(self, config):
        # 利用可能な場合はGPUを使用する
        デバイス = torch.cuda.is_available() の場合は 0 、それ以外の場合は-1
        # モデルを初期化する
        self.summarizer = pipeline(task= "summarization" 、device=device) 
 
    def predict(自己, ペイロード):
        # 予測を生成する
        要約 = self.summarizer(
            ペイロード[ "text" ]、num_beams=4、length_penalty=2.0、max_length=142、no_repeat_ngram_size=3
        ）
        #リターン予測
summary[0][ "summary_text" ]を返す

初期化されると、予測子は、ユーザーがエンドポイントをクエリしたときに単一の predict() 関数が呼び出される Python オブジェクトと考えることができます。

このアプローチの最大の利点の 1 つは、ソフトウェアエンジニアリングの経験がある人なら誰でも直感的に理解できることです。データパイプラインやモデルトレーニングコードに触れる必要はありません。モデルは単なるファイルであり、予測子はモデルをインポートして predict() メソッドを実行する単なるオブジェクトです。

しかし、このアプローチは、その構文上の魅力を超えて、皮質へのより広範なアプローチを補完する方法という点で、いくつかの重要な利点を提供します。

2. 予測は単なるHTTPリクエストです

本番環境で予測を提供するためのインターフェースを構築する際の複雑さの 1 つは、少なくとも形式においては、入力がモデルのトレーニングに使用されたデータとはほぼ確実に異なることです。

これは 2 つのレベルで機能します。

POST リクエストの本文は NumPy 配列ではなく、モデルが処理するために使用されるデータ構造でもありません。
機械学習エンジニアリングは、モデルを使用してソフトウェアを構築することです。多くの場合、これは、GPT-2 を使用してフォークミュージックを作成するなど、モデルを使用してトレーニングされていないデータを処理することを意味しています。

したがって、予測インターフェースは、予測 API の入力と出力について意見を述べることはできません。予測は単なる HTTP リクエストであり、開発者はそれを自由に使用できます。たとえば、マルチモデルエンドポイントをデプロイし、リクエストパラメータに基づいてさまざまなモデルをクエリする場合は、次のようにします。

輸入トーチ
トランスフォーマーのインポートパイプラインから
starlette.responsesからJSONResponse をインポートします
 
クラス PythonPredictor:
    def __init__(self, config):
        self.analyzer = パイプライン(タスク = "感情分析" )
        self.summarizer = pipeline(task= "要約" ) 
 
    def predict(self, query_params, ペイロード):
        model_name = query_params.get( "モデル" )
        model_name == "sentiment"の場合:
 self.analyzer(payload[ "text" ])[0]を返す
        elif model_name == "summarizer" :
            サマリー = self.summarizer(ペイロード[ "テキスト" ])[0]
それ以外：
 JSONResponseを返します({ "error" : f "不明なモデル: {model_name}" }, status_code=400)

このインターフェースにより、開発者は API で自由に操作できるようになりますが、インフラストラクチャの面では Cortex がより独自の判断を下せる自然な余地も得られます。

たとえば、バックグラウンドでは Cortex は FastAPI を使用してリクエストルーティングを設定します。 Cortex は、自動シーケンス、監視、およびその他のインフラストラクチャ機能に関連する多くのプロセスをこのレイヤーに設定しますが、開発者がルーティングを実装する必要がある場合、これらのプロセスは非常に複雑になる可能性があります。

ただし、各 API には predict() メソッドがあるため、各 API のルートの数は同じ (1) になります。理論的には、これにより Cortex はエンジニアを制限することなくインフラストラクチャレベルでより多くのことを実行できるようになります。

3. サービスモデルは1つのマイクロサービスのみ

スケールは、本番環境で機械学習を使用するすべての人にとって大きな懸念事項です。モデルは大きくなり（GPT-2 は約 6 GB）、計算コストが高くなり、レイテンシが大きくなる可能性があります。特にリアルタイム推論の場合、トラフィックを処理するためにスケールアップすることは困難であり、予算が限られている場合はさらに困難になります。

この問題を解決するために、Cortex は予測子を水平方向にスケーリングできるマイクロサービスとして扱います。具体的には、開発者が Cortex をデプロイすると、Cortex に API が組み込まれ、推論用に準備されたクラスターが起動され、デプロイされます。次に、ロードバランサーの背後にある Web サービスとして API を公開し、自動スケーリング、更新、および監視を構成します。

予測子インターフェースは「単なる」Python インターフェースですが、このプロセスの基礎となります。

予測子インターフェースは、コードを単一の推論単位にパッケージ化することを強制します。単一の API に必要なすべてのリクエスト処理コードは、単一の予測子に含まれています。これにより、皮質は予測要因を簡単に評価できるようになります。

こうすることで、エンジニアは、API を本番環境に準備するために、（もちろん、微調整を加えない限りは）余分な作業を行う必要がなくなります。 Cortex のデプロイメントは、デフォルトで本番環境に対応しています。

<<: 人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

>>: CNNとRNNについての簡単な説明

Google はビッグモデルを使用してスーパーアシスタントを書き換え、従業員を解雇して組織を再編して進歩を推し進めています。

ブログ

自動運転車の長所と短所

ブログ

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

ブログ

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

ブログ

機械学習プロジェクト用の Python インターフェースを設計する方法

Google はビッグモデルを使用してスーパーアシスタントを書き換え、従業員を解雇して組織を再編して進歩を推し進めています。

人間の仕事が危機に瀕しているか？この時代にいかに目立つかが非常に重要です

オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイントクラウドインスタンスセグメンテーションアルゴリズムよりも 10 倍高速です。

自動運転車の長所と短所

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

推薦する

ナレッジグラフは、機械が世界を理解するための基礎です。この 3 人の専門家がナレッジグラフテクノロジーをどのように使用しているかをご覧ください。

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

AI論文が急増、10万件以上の引用を誇るResNetの登場は良いことなのか悪いことなのか？この研究は、

SVM のマップ削減データマイニングアルゴリズム

一般的な顔認識システムの端末設置と配線の包括的なレビュー

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか？

国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。

2040枚の画像で訓練されたViTの精度は96.7%で、移行パフォーマンスも驚異的だ

子どもたちがロボットに出会うと、彼らの社会的交流はどのように変化するのでしょうか?

プラスチックチップを1個1セント未満で製造