機械学習パイプラインについて知っておくべきことは何ですか?

機械学習パイプラインについて知っておくべきことは何ですか?

【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD) の急成長により機械学習の発展が促進され、IT プロフェッショナルには機械学習パイプラインを理解し、データモデルの信頼性を維持するための複数のオプションがあります。

[[352477]]

経営幹部は、機械学習モデルのブラックボックス性を謎めいたテクノロジーと見なすことが多く、IT リーダーがプロセスを効果的に動員してモデルのパフォーマンスを向上させることができると信じていることがよくあります。実際には、機械学習プロセスの基本を理解することで、そのプロセスと手順をわかりやすく説明でき、IT チームは、今日の競争の激しいビジネス環境に不可欠な機械学習テクノロジーをより適切に管理できるようになります。

機械学習パイプラインは、本質的には、プログラムの望ましい出力を構築および自動化するための開発手順です。開発者は、ソフトウェアがソース コードから本番環境に移行する方法を説明するために「パイプライン」という用語を使用します。実際、更新のためにソフトウェアをリポジトリにデプロイするなど、プログラミング サービス用の商用パイプラインは数多く存在します。機械学習のコンテキストでは、パイプラインは、デプロイメント前のデータを調整するプロセスとデプロイメント プロセスを表します。

機械学習パイプラインには、データ収集、データ処理、データ変換、モデルトレーニングが含まれます。各段階でのアクティビティは、データとコードの処理方法によってリンクされます。データ収集とは、計画されたデータ ソースからデータを取得することです。収集されるデータの種類は、単にデータ ファイルをアップロードするものから、データ レイクまたはデータベースから必要なデータをクエリするものまで多岐にわたります。

データ処理とは、行、列、値の観点からデータ セットを準備するためのプログラミング コードを作成することです。既知のデータ品質に基づいて変更を適用する準備をしてください。データセットの平均値を使用して、欠損値を埋めます。

データ変換は、モデルがデータを読み取れるように、アプリケーションを通じてデータ形式を変換するプロセスです。データセットからカテゴリテキストを移動するためにエンコーディングを適用するなど、モデルが認識できる形式でデータ型を配置することを目的としています。

モデルのトレーニングでは、データを実行してモデルの仕様を確立します。これらの問題は、使用するモデルの種類に応じて対処できます。一部の機械学習フレームワークには、モデルのデプロイと調整を容易にするために設計された拡張機能があります。たとえば、TensorFlow には、入力パイプラインに使用できる tfdatasets という R プログラミングのライブラリがあります。

データでモデルをトレーニングした後、最後のステップでは、モデルが予測値をどれだけ正確に生成するかをテストし、それに応じてモデルのパラメータを調整します。

ドキュメントの重要性

機械学習パイプラインのもう 1 つの重要な詳細はドキュメントです。ドキュメントは、指定された期間内に機能を実行するための手順を確立するために使用されます。 YAML は、この目的で使用されるテキスト プログラミング言語です。ドキュメントは、JSON ファイルのような名前と値のペアを使用して設計されています。

必要な手順が多数あるため、IT プロフェッショナルは、機械学習パイプライン プロセスを管理するプラットフォームを通じて、パイプライン関連の問題を管理する方法を学ぶことができます。最もよく使用されるのは、Microsoft Azure ML、Amazon Sagemaker、Google Cloud AI です。これらの各プラットフォームは、開発パイプライン用の統合環境を提供し、他のクラウド コンピューティング サービスと連携するための特定の機能を備えています。たとえば、Azure Pipelines は Microsoft IDE である Visual Studio Code と同期し、開発者に必要な修正データをアップロードするための専用ワークフローを提供します。これは、構成用の YAML ファイルを編集する場合に特に便利です。

各プラットフォーム サービスには、言語、プラットフォーム、媒体に応じて独自の利点があります。たとえば、Azure ML は Python または R をサポートし、基本的な機械学習プロセス用のフレームワークである AutoML にさらに多くのオプションを提供します。この詳細は、企業チームがどのような専門知識についてトレーニングを受ける必要があるかを示します。

アクセラレータの使用に精通している

IT チームは、プラットフォームの学習に加えて、アクセラレータの使用方法にも精通する必要があります。アクセラレータは、GPU (グラフィックス プロセッシング ユニット) の複数のプロセッサ コアをホストするクラウド コンピューティング サービスです。 GPU は、グラフィックスと数学的計算専用のメモリを提供する特殊なプロセッサです。 GPU は大量のデータを処理できるため、ラップトップ プロセッサでは不可能なテストとトレーニングの時間を節約できます。

アクセラレータでは、モデルを接続するソリューションにアクセスするために他のフレームワークが必要になる場合があります。たとえば、TensorFlow には、さまざまなバージョンの GPU を TPU (Tensor Processing Units) に接続して、トレーニングおよびテスト実行中に生成される数百万の計算パラメータを管理するためのライブラリがあります。したがって、IT チームは、発生する可能性のある展開の問題を理解するために、フレームワークに関するトレーニングを受ける必要があります。

パイプライン プラットフォームとアクセラレータを学習して理解することで、モデル環境で継続的インテグレーション (CI)/継続的デリバリー (CD) を計画するための基盤が築かれます。可観測性は重要なトピックとなり、モデルのパフォーマンスを監視して効率を調整できるようになります。これは、モデルのテストとトレーニングに長い時間がかかる可能性があるため、特に価値があります。可観測性システムにより、IT チームは制御モデルの変更をバージョン管理できるようになり、パフォーマンスの問題によって生じるプログラミング障害を正確にデバッグできるようになります。この再現性は、モデル検証の基盤にもなります。モデル検証では、複数の環境でのモデルの動作をチェックし、企業が最適な機械学習モデルを選択できるようにします。

検証とバージョン管理が計画されると、継続的インテグレーション (CI) / 継続的デリバリー (CD) の実践を構想しやすくなります。継続的インテグレーション (CI) / 継続的デリバリー (CD) の価値は、パイプラインのステージとモデル条件に基づいて慎重に調整された更新を配信することにあります。

パイプラインを理解することで、継続的インテグレーション (CI)/継続的デリバリー (CD) 手法と機械学習モデルを使用して、IT チームに適切なワークフローを設定できます。また、IT チームがビジネス運営に影響を与えるパイプライン プロセスについてより適切に議論する道も開かれます。これにより、機械学習を最新の状態に保ち、成功に導くプロアクティブな IT チームが誕生します。

原題: 機械学習パイプラインについて知っておくべきこと、著者: Pierre DeBois

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

>>:  「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPT「ピクチャートーク」が大変身しました!舞台裏で新型GPT-4Vモデルが公開

ChatGPTに音声・画像機能が加わりました! ChatGPT にログインすると、より直感的なインタ...

エッジウェアハウジング: 9 つの新しいウェアハウジング技術

倉庫業界はテクノロジー主導の革命の真っ只中にあり、企業はコストを削減し、業務を最適化し、サプライチェ...

比類のない美しさ! AIが90年前の梅蘭芳を復元:目と眉毛が感情を伝え、生きているかのよう

[[407844]]約 100 年前の白黒画像にカラーを施すと、歴史的な意味がさらに増すのでしょうか...

2022 年の 5 つの主要な AI と機械学習のトレンド

[[414740]]人工知能と機械学習の分野では、企業が今から準備しておくべき大きなトレンドがいくつ...

将来、人工知能に最も影響を受ける5つの業界!

人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...

エッジAIがスマートホームの未来である理由

今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...

...

AI批判: GPT-3は何を話しているのか分かっていない

【51CTO.com クイック翻訳】 [[341305]] 【はじめに】 GPT-3は1750億個の...

人工知能は目覚めたのか?アマゾンのAIは人間の命令を聞かず不気味な笑い声を上げる

人類が人工知能の開発に熱心に取り組み始めて以来、著名な科学者ホーキング博士をはじめ、疑問や反対の声が...

人工知能による影の検出と除去、反射に基づく影の検出と除去方法を実現

AI による影の検出と除去、反射ベースの影の検出と除去方法に向けて、概要: 影は画像によく見られる要...

人工知能が医師の「映画鑑賞」を支援:診断精度は95%を超える

[[233292]]最近、北京天壇病院は、世界初のCTおよびMRI神経画像人工知能支援診断製品「Bi...

...

百度の張亜琴社長:AIは現代の最も変革的な力である

[[205882]]北京時間10月10日朝のニュースによると、中国の検索大手、百度はシアトル地域にオ...

...

Google、ユーザーの文章力向上を支援するAI文法チェッカーをリリース

8月8日、IT Homeの友人はGrammarlyツールが提供する「文法チェック」サービスを使用した...