Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ

[[248715]]

[51CTO.com 速訳] re:Invent 2017 カンファレンスで Amazon SageMaker が発表されました。AWS のマネージド機械学習サービスです。クラウドでの機械学習モデルのトレーニングとホスティングをサポートします。お客様は、NVIDIA Tesla K80 および P100 GPU を搭載したクラスターでトレーニングジョブを実行できます。トレーニングジョブの結果 (推論の準備が整ったモデル) は、スケーラブルな予測を可能にする REST API として公開されます。

このサービスはハイパーパラメータの調整もサポートしており、データサイエンティストや開発者はアルゴリズムやビジネスの問題に最適なパラメータを見つけることができます。たとえば、一般的な回帰問題を解決するために、ハイパーパラメータ調整は、どのハイパーパラメータの組み合わせが最良の結果を達成する可能性が高いかを推測し、これらの推測をテストするためのトレーニングジョブを実行します。最初のハイパーパラメータ値のセットをテストした後、ハイパーパラメータチューニングでは回帰を使用して、テストする次のハイパーパラメータ値のセットを選択します。

Amazon SageMaker の重要な設計上の決定の 1 つは、開発ツールとして Jupyter Notebook を使用することです。データサイエンティストの間でノートブックが広く知られ、人気があることを考えると、参入障壁は低いと言えます。 AWS は、NumPy、Pandas、Matplotlib などの標準モジュールと組み合わせて使用できるネイティブ Python SDK を開発しました。

Amazon SageMaker は関連する AWS サービスと緊密に統合されているため、モデルのライフサイクルを簡単に処理できます。 AWS 用の Python SDK である Boto3 を使用すると、ユーザーは Amazon S3 バケットからデータセットを保存および取得できます。クラウドデータウェアハウスである Amazon Redshift からデータをインポートすることもできます。このサービスは、認証と承認のために IAM と統合されます。 Amazon EMR を使用して実行されている Spark クラスターは、SageMaker と統合できます。 AWS Glue は、データの変換と準備のための主要なサービスです。

Docker コンテナは SageMaker のアーキテクチャにおいて重要な役割を果たします。 AWS は、線形回帰、ロジスティック回帰、主成分分析、テキスト分類、オブジェクト検出などの一般的なアルゴリズムのコンテナイメージを提供します。トレーニングジョブを開始する前に、開発者はデータセットの場所と一連のパラメーターをコンテナーに渡す必要があります。ただし、高レベルの Python API は、コンテナーの操作に必要な手順を抽象化します。 ***、トレーニング済みのモデルは、予測 API を表示するためのコンテナイメージにもパッケージ化されます。 SageMaker は、イメージの保存に Amazon EC2 Container Registry を使用し、モデルのホスティングに Amazon EC2 を使用します。

Amazon SageMaker には、ホストされた Jupyter Notebook、分散トレーニングジョブ、予測エンドポイントをレンダリングするモデルデプロイメントという 3 つの基本コンポーネントがあります。

Amazon SageMaker にデプロイされた機械学習モデルのトレーニングと予測に必要な手順を詳しく見てみましょう。

データの準備と探索

Amazon SageMaker では、データセットが S3 バケットで利用可能である必要があります。データをアップロードする前に、お客様は AWS Glue、AWS Data Pipeline、Amazon Redshift などの外部サービスで ETL 操作を実行することを選択できます。

データサイエンティストは、Pandas や Matplotlib などの使い慣れたツールを使用してデータを探索および視覚化できます。

データを準備して調査した後、データセットは SageMaker モデルに必要な形式に変換されます。このプラットフォームは Apache MXNet を基盤としているため、フレームワークで定義された Tensor データ型を使用します。データセットを S3 バケットにアップロードする前に、NumPy 配列と Pandas データフレームを MXNet Tensor にシリアル化する必要があります。

モデルの選択とトレーニング

Amazon SageMaker には、トレーニングモデルの低レベルの詳細を抽象化するアルゴリズムが組み込まれています。各アルゴリズムは、データセットとメトリックをパラメータとして受け取る API として利用できます。これにより、トレーニングに適したフレームワークを選択する手間が省けます。開発者が使用するアルゴリズムを決定したら、あとはその特定のアルゴリズムにマップされた API を呼び出すだけです。

舞台裏では、SageMaker は Apache MXNet と Gluon フレームワークを使用して、API をジョブの作成に必要な複数のステップに変換します。これらのアルゴリズムは、Amazon ECR に保存されるコンテナイメージにパッケージ化されます。

SageMaker は、Apache MXNet に加えて、TensorFlow もネイティブフレームワークとして公開します。開発者はカスタム TensorFlow モデルを作成するためのコードを記述できます。

PyTorch や Scikit-learn などのカスタムフレームワークを使用することもできます。 SageMaker では、これらのフレームワークをコンテナイメージにパッケージ化する必要があります。 Amazon は、カスタムイメージを作成するための Dockerfile とヘルパースクリプトを含む規範的なガイドを公開しています。低レベルの Python API を使用すると、トレーニングジョブを開始する直前に、Amazon SageMaker を組み込みイメージではなくカスタムイメージにポイントできます。

モデルトレーニング

Amazon SageMaker トレーニングジョブは、Amazon EC2 インスタンスに基づく分散環境で実行されます。 API では、トレーニングジョブを実行するために、インスタンスの数とインスタンスタイプが必要です。複雑な人工ニューラルネットワークをトレーニングする場合、SageMaker では K80 または P100 GPU に基づく ml.p3.2xlarge 以上のインスタンスが必要です。

Jupyter Notebook から開始すると、トレーニングジョブは同期的に実行され、基本的な進行状況ログが表示され、トレーニングが完了するまで待機してから戻ります。

モデルの展開

Amazon SageMaker でモデルをデプロイするには、2 つの手順が必要です。最初のステップは、モデルをデプロイする機械学習コンピューティングインスタンスを指定するエンドポイント構成を作成することです。 2 番目のステップは、機械学習コンピューティングインスタンスを起動し、モデルをデプロイし、予測用の URI をレンダリングすることです。

エンドポイント構成 API は、機械学習インスタンスタイプとインスタンスの初期数を受け入れます。ニューラルネットワーク推論の場合、構成には GPU でサポートされるインスタンスタイプが含まれる場合があります。エンドポイント API は、前の手順で定義されたとおりにインフラストラクチャを構成します。

Amazon SageMaker は、オンライン予測とバッチ予測の両方をサポートしています。バッチ予測では、トレーニング済みのモデルを使用して Amazon S3 に保存されているデータセットを推論し、推論結果をバッチ変換ジョブの作成時に指定された S3 バケットに保存します。

Google Cloud Machine Learning Engine や Azure Machine Learning サービスと比較すると、Amazon SageMaker には、ローカルコンピューティングリソースを使用してモデルをトレーニングおよびテストする機能がありません。単純な機械学習プロジェクトでも、開発者はトレーニングと予測のためにホストされたノートブックとインスタンスを作成する必要があり、このサービスは高価になります。

Amazon は今年の re:Invent カンファレンスで SageMaker のいくつかの改善を発表する予定です。

元のタイトル: Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ、著者: Janakiram MSV

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 自然言語処理 (NLP) はコンピュータービジョン (CV) よりも開発が遅く、より困難です。

>>: Pythonで簡単な顔認識を実装すると、私はこの星にとても似ていることが判明しました