機械学習パイプラインについて知っておくべきことは何ですか?

機械学習パイプラインについて知っておくべきことは何ですか?

【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD) の急成長により機械学習の発展が促進され、IT プロフェッショナルには機械学習パイプラインを理解し、データモデルの信頼性を維持するための複数のオプションがあります。

[[352477]]

経営幹部は、機械学習モデルのブラックボックス性を謎めいたテクノロジーと見なすことが多く、IT リーダーがプロセスを効果的に動員してモデルのパフォーマンスを向上させることができると信じていることがよくあります。実際には、機械学習プロセスの基本を理解することで、そのプロセスと手順をわかりやすく説明でき、IT チームは、今日の競争の激しいビジネス環境に不可欠な機械学習テクノロジーをより適切に管理できるようになります。

機械学習パイプラインは、本質的には、プログラムの望ましい出力を構築および自動化するための開発手順です。開発者は、ソフトウェアがソース コードから本番環境に移行する方法を説明するために「パイプライン」という用語を使用します。実際、更新のためにソフトウェアをリポジトリにデプロイするなど、プログラミング サービス用の商用パイプラインは数多く存在します。機械学習のコンテキストでは、パイプラインは、デプロイメント前のデータを調整するプロセスとデプロイメント プロセスを表します。

機械学習パイプラインには、データ収集、データ処理、データ変換、モデルトレーニングが含まれます。各段階でのアクティビティは、データとコードの処理方法によってリンクされます。データ収集とは、計画されたデータ ソースからデータを取得することです。収集されるデータの種類は、単にデータ ファイルをアップロードするものから、データ レイクまたはデータベースから必要なデータをクエリするものまで多岐にわたります。

データ処理とは、行、列、値の観点からデータ セットを準備するためのプログラミング コードを作成することです。既知のデータ品質に基づいて変更を適用する準備をしてください。データセットの平均値を使用して、欠損値を埋めます。

データ変換は、モデルがデータを読み取れるように、アプリケーションを通じてデータ形式を変換するプロセスです。データセットからカテゴリテキストを移動するためにエンコーディングを適用するなど、モデルが認識できる形式でデータ型を配置することを目的としています。

モデルのトレーニングでは、データを実行してモデルの仕様を確立します。これらの問題は、使用するモデルの種類に応じて対処できます。一部の機械学習フレームワークには、モデルのデプロイと調整を容易にするために設計された拡張機能があります。たとえば、TensorFlow には、入力パイプラインに使用できる tfdatasets という R プログラミングのライブラリがあります。

データでモデルをトレーニングした後、最後のステップでは、モデルが予測値をどれだけ正確に生成するかをテストし、それに応じてモデルのパラメータを調整します。

ドキュメントの重要性

機械学習パイプラインのもう 1 つの重要な詳細はドキュメントです。ドキュメントは、指定された期間内に機能を実行するための手順を確立するために使用されます。 YAML は、この目的で使用されるテキスト プログラミング言語です。ドキュメントは、JSON ファイルのような名前と値のペアを使用して設計されています。

必要な手順が多数あるため、IT プロフェッショナルは、機械学習パイプライン プロセスを管理するプラットフォームを通じて、パイプライン関連の問題を管理する方法を学ぶことができます。最もよく使用されるのは、Microsoft Azure ML、Amazon Sagemaker、Google Cloud AI です。これらの各プラットフォームは、開発パイプライン用の統合環境を提供し、他のクラウド コンピューティング サービスと連携するための特定の機能を備えています。たとえば、Azure Pipelines は Microsoft IDE である Visual Studio Code と同期し、開発者に必要な修正データをアップロードするための専用ワークフローを提供します。これは、構成用の YAML ファイルを編集する場合に特に便利です。

各プラットフォーム サービスには、言語、プラットフォーム、媒体に応じて独自の利点があります。たとえば、Azure ML は Python または R をサポートし、基本的な機械学習プロセス用のフレームワークである AutoML にさらに多くのオプションを提供します。この詳細は、企業チームがどのような専門知識についてトレーニングを受ける必要があるかを示します。

アクセラレータの使用に精通している

IT チームは、プラットフォームの学習に加えて、アクセラレータの使用方法にも精通する必要があります。アクセラレータは、GPU (グラフィックス プロセッシング ユニット) の複数のプロセッサ コアをホストするクラウド コンピューティング サービスです。 GPU は、グラフィックスと数学的計算専用のメモリを提供する特殊なプロセッサです。 GPU は大量のデータを処理できるため、ラップトップ プロセッサでは不可能なテストとトレーニングの時間を節約できます。

アクセラレータでは、モデルを接続するソリューションにアクセスするために他のフレームワークが必要になる場合があります。たとえば、TensorFlow には、さまざまなバージョンの GPU を TPU (Tensor Processing Units) に接続して、トレーニングおよびテスト実行中に生成される数百万の計算パラメータを管理するためのライブラリがあります。したがって、IT チームは、発生する可能性のある展開の問題を理解するために、フレームワークに関するトレーニングを受ける必要があります。

パイプライン プラットフォームとアクセラレータを学習して理解することで、モデル環境で継続的インテグレーション (CI)/継続的デリバリー (CD) を計画するための基盤が築かれます。可観測性は重要なトピックとなり、モデルのパフォーマンスを監視して効率を調整できるようになります。これは、モデルのテストとトレーニングに長い時間がかかる可能性があるため、特に価値があります。可観測性システムにより、IT チームは制御モデルの変更をバージョン管理できるようになり、パフォーマンスの問題によって生じるプログラミング障害を正確にデバッグできるようになります。この再現性は、モデル検証の基盤にもなります。モデル検証では、複数の環境でのモデルの動作をチェックし、企業が最適な機械学習モデルを選択できるようにします。

検証とバージョン管理が計画されると、継続的インテグレーション (CI) / 継続的デリバリー (CD) の実践を構想しやすくなります。継続的インテグレーション (CI) / 継続的デリバリー (CD) の価値は、パイプラインのステージとモデル条件に基づいて慎重に調整された更新を配信することにあります。

パイプラインを理解することで、継続的インテグレーション (CI)/継続的デリバリー (CD) 手法と機械学習モデルを使用して、IT チームに適切なワークフローを設定できます。また、IT チームがビジネス運営に影響を与えるパイプライン プロセスについてより適切に議論する道も開かれます。これにより、機械学習を最新の状態に保ち、成功に導くプロアクティブな IT チームが誕生します。

原題: 機械学習パイプラインについて知っておくべきこと、著者: Pierre DeBois

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

>>:  「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

最初のRISC-Vラップトップが公開される、またはWindowsシステムが搭載されると思われますが、年末までに利用可能になりますか

チップ業界では、Armとx86が現在の主流のアーキテクチャであり、オープンなRSIC-Vが将来の方向...

ニューラルネットワークにおける量子化と蒸留

この記事では、ディープラーニングにおけるモデルを合理化する技術、量子化と蒸留について詳しく説明します...

...

...

国産のハイエンドチップはどれくらい強いのか?業界関係者6人がこう考えている

[[440057]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

顔認識に関する初の訴訟が法廷に。顔スキャンを拒否する権利は失われたのか?

今日では、顔認識技術は私たちの生活や消費の場面でますます利用されるようになっています。最近、「中国初...

マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

「再帰的に自己進化する AI が人間を支配する」という問題に対する解決策はあるのでしょうか? !多く...

その光景は衝撃的だ! 「世界最強」のロボット9台が国連AIロボット会議のステージに登場

今日はスカイネットが来ます!ロボットたちはジュネーブで初めての記者会見を開催したばかりだ。 9 台の...

機械学習を拡張するための5つのポイント

Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...

6 つの大きな障害に直面していますが、AI イノベーションはそれらをうまく克服できるでしょうか?

現状では、人工知能業界は消費者からの需要が大きく、投資家からの関心も高く、非常に活況を呈しているよう...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...

...