必要なのはこれら3つの機械学習ツールだけです

必要なのはこれら3つの機械学習ツールだけです

多くの機械学習技術は、急速に概念実証から人々が日常的に頼りにする重要なテクノロジーの基盤へと移行しています。この新たに解き放たれた価値を獲得しようとして、多くのチームは適切なツールなしで製品を製造する機械を製造するという熱意に夢中になっていることに気づきました。

実際のところ、私たちは機械学習モデルの構築、展開、反復処理に適したツールスイートの定義を始めたばかりです。この記事では、製品に機械学習をうまく適用するためにチームが必要とする 3 つの機械学習ツールについて説明します。

過去から学ぼう

ML スタックの推奨事項に進む前に、ソフトウェア エンジニアリング業界がすでに取り組んでいるツールに簡単に焦点を当ててみましょう。重要な観察結果は、本番環境でコードを構築、展開、監視するための単一のソリューションが存在しないということです。

つまり、エンドツーエンドのツール プラットフォームは存在しません。代わりに、ソフトウェア エンジニアリング ライフサイクルの特定の部分に焦点を当てた一連のツールがあります。

> 著者による画像

ソフトウェアの作成を簡素化するには、問題を追跡し、バージョン履歴を管理し、ビルドを監視し、運用中に問題が発生したときに監視とアラートを提供するツールを作成する必要があります。

すべてのツールがこれらのカテゴリのいずれかにきれいに当てはまるわけではありませんが、これらのツール カテゴリはそれぞれ、ツールの作成を必要とするソフトウェアの作成プロセスにおける異なる摩擦ポイントを表しています。

これは機械学習に関するものだと思っていましたが?

ソフトウェアの開発プロセスと同様に、機械学習モデルの開発プロセスには、モデルの調査、構築、展開、監視に必要なものなど、幅広いカテゴリがあります。

この記事では、ラボ外で機械学習を適用する際の最大の障壁のいくつかに対処する過程で登場した ML ツールの重要なカテゴリに焦点を当てます。

効果的な機械学習ツールボックスを作成するには、次の 3 つの基本ツールだけが必要です。

  • フィーチャストレージ: オフラインおよびオンラインのフィーチャ変換を処理します
  • モデルストレージ: 中央モデルレジストリとして機能し、実験を追跡します。
  • パフォーマンス評価ストレージ: モデルのパフォーマンスを監視および改善する

> 著者による画像

機能ストレージ

まずは、始めましょう。機能ストアとは何かを定義するために、まずはチームで有効にできるものから始めましょう。

フィーチャー ストアの有効化は次のようになります。

  • 機能変換の中心的なソースとして
  • オフライントレーニングとオンラインサービスの両方で同じ特徴変換を使用できるようにします
  • チームメンバーが実験的な変換を共有できるようにする
  • コードを変換するための強力なバージョン管理機能を提供します

「機能ストアがチームに力を与える方法」は、どの機能ストアがあなたとあなたのチームにとって最適かを判断するのに役立つ必須の資料です。

フィーチャーストアには次のものが必要です。

  • データストア/レイクとの統合
  • オンライン展開モデルに機能変換を提供する高速な方法
  • 迅速かつ簡単に本番環境に導入できる機能変換コード
  • パフォーマンス評価ストアと統合して、データと機能の品質チェックを可能にします

推奨: テクトン

モデルストレージ

機能変換を保存する機能ストアができたので、チームのモデル作成の履歴をカタログ化して追跡するツールが必要になります。ここでモデルストレージが役立ちます。

モデルストレージの有効化とは何ですか?

  • すべてのモデルとモデルバージョンの中央リポジトリとして機能します
  • 各モデルバージョンの再現性を実現
  • トラックモデルの歴史

これらのコア機能以外にも、モデルの構築と展開に非常に役立つモデル ストレージ機能が多数あります。

モデルストアには次のものが必要です:

  • モデルの各バージョン、git コミット、およびモデルの成果物の各バージョン (foam ファイル) の参照データセット (foam ファイル) を追跡できる必要があります。
  • EG (v2.1) を提供するには、最新バージョンのモデルを提供する必要があります。
  • 必要に応じてバージョンをロールバックできるように、一貫した系統を維持する
  • 評価ストアと統合してモデルの各バージョンの評価を追跡し、モデルの回帰をターゲットにすることができます。
  • サービスインフラストラクチャと統合して、モデルの展開とロールバックを容易にします。

推奨: 重みとバイアス / MLFlow

パフォーマンス評価ストレージ

モデルが追跡され、モデル ストアに保存されたので、出荷するモデルを選択し、運用環境でのパフォーマンスを監視できる必要があります。ここで評価ストレージが役立ちます。

ストレージで実現できるものを評価します。

  • あらゆる環境、本番環境、検証環境、トレーニング環境におけるあらゆるモデルの集計(またはスライス)におけるパフォーマンス指標
  • ベースラインを使用して、ドリフト、データ品質の問題、または異常なパフォーマンスの低下を監視および特定します。
  • チームがパフォーマンスの変化とその発生理由を結び付けられるようにする
  • 高品質のモデルを継続的に提供し、改善のためのフィードバック ループを提供するプラットフォームを提供します (実稼働とトレーニングを比較)
  • A/Bテストモデルバージョンのための実験プラットフォームを提供します

ここで、評価用ストレージの必須機能に焦点を当てると、特定の評価用ストレージを検討する価値があるいくつかの点がここにあります。

評価用ストレージには次のものが必要です。

  • モデル評価(入力、シェイプ値、出力)を環境に保存します。環境内の各モデル バージョン(本番環境、検証環境、トレーニング環境)
  • 評価ストレージからのベースラインに基づいて問題を簡単に表面化するための自動監視
  • あらゆるタイプのパフォーマンス分析に対応する柔軟なダッシュボードを作成 - Datadog for ML
  • 機能ストアと統合して機能のドリフトを追跡する
  • モデルストレージと統合して、各モデルバージョンのモデルパフォーマンスの履歴を保持します。

おすすめ: アライズ

他にも役立つツール

データ注釈プラットフォーム:

少し立ち止まって、グラウンド トゥルース ラベルが付いているかどうかわからないデータを収集したとします。現代の統計機械学習モデルでは、優れたパフォーマンスを得るために大量のトレーニング データが必要になることが多く、モデルを効果的にするために十分なデータにグラウンド トゥルース ラベルを注釈付けすることが困難な場合があります。

心配しないでください。データ注釈プラットフォームは、データのバッチを分散された一連の分散評価者に配布し、各評価者は、指定した指示に従ってデータにラベルを付けます。

推薦する:

  • アペン
  • 完全自動データ注釈サービスのスケール

モデルサービスプラットフォーム:

  • 応用機械学習の多くの場合、モデルをユーザーに展開するには何らかの形のサービス プラットフォームが必要です。つまり、サービス プラットフォームはチームにいくつかのコア機能を提供する必要があります。

サービス プラットフォームのモデル有効化とは:

  • アクセス制御はモデルの提供を中心に展開され、デプロイするモデルを変更する権限を持つのは、選ばれたグループの人々だけである必要があります。
  • 必要に応じて、以前にデプロイしたモデルバージョンに素早くロールバックするメカニズム
  • モデルプロモーションを容易にするモデルサービスとの統合
  • 評価ストレージと組み合わせて、本番環境でのモデルの観測可能性を実現します。

推奨: Kubeflow & almorithmia

AIオーケストレーションプラットフォーム

多くの場合、エンドツーエンドのライフサイクルで機能し、チームがワークフロー全体を調整できるようにするプラットフォームが必要です。これらのプラットフォームは、チームがさまざまなソースを取り込み、トレーニング ワークフローを管理し、モデルやサービスを保存し、監視プラットフォームに接続するのに役立ちます。これらすべての異なるツールにわたるインフラストラクチャの管理は複雑になる可能性があり、AI オーケストレーション レイヤーはデータ サイエンティストと ML エンジニアがモデルの提供に集中するのに役立ちます。

推奨: スペル

結論は

仕事に適したツールを見つけることは、特に新興分野では、時には困難に感じることがあります。今日のソフトウェア エンジニアが使用しているツールと同様に、機械学習モデルを本番環境に導入して監視することは、最終プラットフォーム上では完了しませんが、これらのツールをいくつか使用すれば、モデルをラボから取り出して、迅速かつ効率的に顧客に提供できるようになります。

オリジナルリンク: https://towardsdatascience.com/the-only-3-ml-tools-you-need-1aa750778d33

<<:  ボストン・ダイナミクスのロボット犬が警察犬に変身し、家に侵入して法を執行。ネットユーザー:「ブラック・ミラー」に住みたくない

>>:  皇帝の側室選定と推薦アルゴリズムの仕組み

推薦する

人工知能専攻では主に何を学ぶのですか?キャリアの方向性と展望は何ですか?

人工知能専攻は、工学専攻の下にある電子情報専攻に属します。ここでは、人工知能専攻を提供している大学と...

大規模なモデルでプロンプト内のより多くの例を学習させたい場合は、この方法を使用すると、より多くの文字を入力できます。

GPT や LLaMA などの大規模な言語モデルを使用する場合、入力プロンプトに文字数制限があるこ...

高齢化社会に積極的に対応、サービスロボットがトレンドを活用

統計によると、2021年には65歳以上の高齢者人口が2億人を超え、総人口の14.2%を占める。家庭用...

ベースライン モデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...

...

MLP および Re-Parameter シリーズに関する人気の論文を含む、注目メカニズムの 17 個の PyTorch 実装

[[415286]]注意メカニズムは、最初はコンピューター ビジョンで使用され、その後 NLP の分...

基数ソートのヒント 1 つ、ソート方法 2 つ、ソートアルゴリズム 3 つ

[[421174]]基数ソートコンセプト基数ソートは、整数をビットごとにソートする非比較整数ソート ...

...

コミュニティオーナーの中には顔認識に抵抗する人もいる。「私が家にいないときは、すべて知っている」

Chinanews.com 北京、12月29日(記者 呉涛)最近、一部のユーザーからChinane...

5G無人配送車両が北京に登場、現在試験運用中

最近、北京市自転車・電動自動車産業協会が主催した「第一回ターミナル配送インテリジェント交通サミットフ...

AI コンピューティング センター構築熱の背後で、お金を無駄にしているのは誰か?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ヒープソートアルゴリズムの普及チュートリアル

[[121962]]この記事の参考文献: アルゴリズム入門、第 2 版。この記事では、ヒープソートア...

...

AI 開発者の高額給与は魅力的すぎるでしょうか?国内の開発者がAIに変革するためのガイドをぜひご利用ください

著者注: AI関連のニュースを閲覧すると、「高給」「年収100万ドル」など、非常に魅力的な言葉が頻繁...

ジェネレーティブAIがヘルスケアを変える

生成 AI はヘルスケア分野で重要な役割を果たしており、その応用は医療業界に多くの変化をもたらしまし...