GitHub のホットプロジェクト: 実稼働レベルのディープラーニングプロジェクトを構築するには?

ディープラーニングモデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングするだけでは不十分であるため、困難な場合があります。実稼働レベルのディープラーニングシステムを導入するには、多数のコンポーネントを適切に設計および開発する必要があります。この記事では、実際のアプリケーションに導入される本番環境レベルのディープラーニングシステムを構築するための GitHub のエンジニアリングガイドを紹介します。

この記事では、実稼働レベルのディープラーニングシステムのさまざまな構成要素を詳しく見ていき、各コンポーネントに適したツールセットとフレームワーク、および実践者が提供するベストプラクティスを推奨します。

1. データ管理

1.1. データソース

オープンソースデータ（良いスタートだが、有利ではない）、データ拡張、合成データ

1.2. 注釈

注釈付き労働力源:

クラウドソーシング
サービス会社: FigureEight
注釈者を雇う

注釈プラットフォーム:

Prodigy: アクティブラーニング (Spacy の開発者による)、テキスト、画像を活用した注釈ツール。
HIVE: コンピュータービジョン用の AI-as-a-Service プラットフォーム。
Supervisely: 完全なコンピュータービジョンプラットフォーム。
ラベルボックス: コンピュータービジョン。
AI データプラットフォーム (コンピュータービジョンと自然言語処理) を拡張します。

1.3. ストレージ

データ保存オプション:

（１）オブジェクトストレージ：バイナリデータ（画像、音声ファイル、圧縮テキスト）の保存

アマゾンS3
Ceph オブジェクトストレージ

（2）データベース：メタデータ（ファイルパス、タグ、ユーザーアクティビティなど）を保存します。

Postgres は、最高の SQL と非構造化 JSON の強力なサポートを提供するため、ほとんどのアプリケーションにとって最適な選択肢です。

（３）データレイク：データベースからは取得できない特徴（ログなど）を集約するために使用される。

アマゾンレッドシフト

（４）特徴量保存：機械学習の特徴量の保存とアクセス。

FEAST (Google Cloud、オープンソース)
ミケランジェロ（Uber）
トレーニング中: データをローカルまたはクラスターファイルシステムにコピーします。

バージョン管理

DVC: 機械学習プロジェクト向けのオープンソースバージョン管理システム
Pachyderm: データのバージョン管理用
Dolt: SQL データベースのバージョン管理

1.5. 処理

実稼働モデルのトレーニングデータは、データベースやオブジェクトストレージに保存されたデータ、ログ処理、他の分類子からの出力など、さまざまなソースから取得される場合があります。

タスク間には依存関係があり、各キャラクターは依存関係が完了した後にのみ開始できます。たとえば、新しいログデータをトレーニングするには、トレーニングの前に前処理が必要です。したがって、この点ではワークフローが非常に重要になります。

ワークフロー:

エアフロー（最も一般的に使用される）

2. 開発、研修、評価

ソフトウェアエンジニアリング

エディタ：

ヴィム
エマック
VS Code (著者の推奨): 組み込みの Git ステージングとファイルの差異の表示、Lint コードスキャン、SSH 経由のリモートプロジェクトのオープン。
Jupyter Notebooks: プロジェクトの開始点としては最適ですが、拡張が困難です。
Streamlit: アプレットを備えたインタラクティブなデータサイエンスツール。

提案：

個人またはスタートアップ向け:

開発: 4 コアの Turing アーキテクチャコンピューター。
トレーニング/評価: 同じ 4 コア GPU コンピューターを使用します。多くの実験を実行する場合は、共有サーバーを購入するか、クラウドインスタンスを使用できます。

大企業の場合:

開発: 各機械学習科学者に 4 コアのチューリングマシンを購入するか、V100 インスタンスを使用させます。
トレーニング/評価: 適切な構成と障害処理を備えたクラウドインスタンスを使用します。

2.2. リソース管理

プログラムに空きリソースを割り当てます。

リソース管理オプション:

レガシークラスタジョブスケジューラ (例: Slurm ワークロードマネージャー)
ドッカー + Kubernetes
キューブフロー
Polyaxon（有料機能）

2.3. ディープラーニングフレームワーク

特別な理由がない限り、TensorFlow/Keras または PyTorch を使用してください。次の図は、開発と運用におけるさまざまなフレームワークの比較を示しています。

2.4. 実験管理

戦略を開発、トレーニング、評価する: 常にシンプルに始めます。小さなバッチで小さなモデルをトレーニングし、それが機能する場合にのみ、より大きなデータとモデルにスケールアップし、ハイパーパラメータの調整を実行します。

実験管理ツール:

Tensorboard: 機械学習の実験に必要な視覚化とツールを提供します。
Losswise（機械学習のモニタリング）
Comet: 機械学習プロジェクトのコード、実験、結果を追跡できます。
重みとバイアス: 簡単な共同作業で、研究のあらゆる詳細を記録して視覚化します。
MLFlow トラッキング: パラメータ、コードバージョン、メトリック、出力ファイルを記録し、結果を視覚化します。

2.5. ハイパーパラメータの調整

Hyperas: シンプルなテンプレート表記を使用して、調整するハイパーパラメータの範囲を定義する、Keras 用の hyperopt のシンプルなラッパーです。 SIGOPT: スケーラブルなエンタープライズレベルの最適化プラットフォーム。 Ray-Tune: スケーラブルな分散モデル選択研究プラットフォーム (ディープラーニングとディープ強化学習に重点を置いたもの)。重みとバイアスからのスイープ: パラメータは開発者によって明示的に指定されませんが、機械学習モデルによって近似され、学習されます。

2.6. 分散トレーニング

データ並列処理: 反復処理に時間がかかりすぎる場合に使用します (TensorFlow と PyTorch の両方でサポートされています)。

モデルの並列処理: モデルが単一の GPU に収まらない場合に使用されます。

その他の解決策:

レイ
ホロヴォド

3. トラブルシューティングは「改善が必要」

4. テストと展開

4.1. テストとCI/CD

機械学習の生産ソフトウェアには、従来のソフトウェアよりも多様なテストスイートが必要です。

ユニットテストと統合テスト

テストタイプ:

トレーニングシステムのテスト: トレーニングパイプラインのテスト。
検証テスト: 検証セットで予測システムをテストします。
機能テスト。
継続的インテグレーション: 新しいコード変更がリポジトリにプッシュされるたびにテストを実行します。

継続的インテグレーションのための SaaS:

CircleCI、トラビス
ジェンキンス、ビルドカイト

4.2. ネットワーク展開

（１）予測システムとサービスシステムから構成される

スケールを考慮して予測を提供します。
REST API を使用して予測 HTTP リクエストを処理します。
予測システムを呼び出して応答する
予測システム: 入力データを処理して予測を行います。
サービスシステム（Webサーバー）:

（２）サービスオプション：

ドッカー
Kubernetes（現在最も人気）
メソス
マラソン
モデルサービングソリューションを通じてデプロイされます。
コードをサーバーレス関数としてデプロイします。

（３）モデルサービス：

Tensorflow サービング
MXNet モデルサーバー
クリッパー（バークレー）
SaaS ソリューション (Seldon、アルゴリズム)
機械学習モデルのネットワーク展開に特化しています。
GPU 推論のバッチ要求。
フレームワーク: Tensorflow Serving、MXNet Model Server、Clipper、SaaS ソリューション (Seldon、アルゴリズム)

（４）意思決定：