生産機械学習には組織的な問題があります。 この問題は、生産機械学習の比較的新しい性質による副産物です。 Web 開発などのより成熟した分野は、数十年にわたる調査を経て非常に高度なレベルまで研究されてきましたが、実稼働の機械学習はまだこの段階に達していません。 たとえば、スタートアップ企業で Web アプリケーションを開発するための製品エンジニアリング チームを構築する任務を負っているとします。チーム構築の経験がない場合でも、エンジニアリング チームの構築方法と成長方法に関する記事や書籍は数多く見つかります。 さて、あなたの会社が機械学習に取り組んでいるスタートアップだとしましょう。初期作業をリードするデータ サイエンティストを雇い、非常にうまく機能しています。機械学習が企業製品にますます不可欠なものとなり、データ サイエンティストがより多くの責任を負うようになるにつれて、機械学習チームを進化させる必要があることが明らかになりました。 この場合、実稼働の機械学習チームの構築方法に関する記事や書籍はそれほど多くありません。 これはよくあることであり、機械学習企業における新しい責任(特にインフラストラクチャ)がデータ サイエンティストによって担われることは珍しくありません。 これは正しくありません。 機械学習と機械学習インフラストラクチャの違い これで、プラットフォーム エンジニアと製品エンジニアの違いは明らかです。同様に、データアナリストとデータエンジニアの間にも明確な違いがあります。 多くの企業では、機械学習に関する専門知識がまだ不足しています。 機械学習と機械学習インフラストラクチャを区別することがなぜ重要なのかを理解するには、それぞれの機能とそれぞれに必要なツールを確認すると役立ちます。 新しいモデルを設計してトレーニングするには、データ サイエンティストは次のことを行う必要があります。
言い換えれば、データ サイエンティストの責任、スキル、ツールは、データを操作してモデルを開発することを中心に展開され、最終的な出力は最も正確な予測を提供できるモデルになります。 機械学習のインフラストラクチャは非常に異なります。 モデルを本番環境に導入する一般的なアプローチは、クラウドにマイクロサービスとしてデプロイすることです。モデルを本番環境 API としてデプロイするには、エンジニアは次のことを行う必要があります。
次の図は、機械学習と機械学習インフラストラクチャの違いを非常に鮮明かつわかりやすく示しています。 機械学習と機械学習インフラストラクチャ 直感的に言えば、データ サイエンティストは右側の円ではなく、左側の円を使って作業する必要があります。 専門家以外の人がインフラストラクチャを管理する場合の問題は何ですか? 機械学習インフラストラクチャを管理する担当者を任命する必要があるが、その人物をフルタイムでそのタスクに割り当てたくない場合は、次の 2 つのオプションがあります。
どちらの選択肢にも問題があります。 まず、データ サイエンティストは、自分が得意とするデータ サイエンスにできるだけ多くの時間を費やす必要があります。インフラストラクチャの学習は難しくありませんが、インフラストラクチャとデータサイエンスはどちらもフルタイムの仕事であり、データサイエンティストの時間をこの 2 つに分割すると、仕事の質が低下します。 第二に、企業には機械学習インフラストラクチャを担当する専任の人員が必要です。本番環境でモデルを提供することは、Web アプリケーションをホストすることとは異なり、組織内で機械学習インフラストラクチャを宣伝できる、そのタスクに専念する人物が必要です。 こうした宣伝は極めて重要であることが証明されました。私はこれまで多くの機械学習企業と連絡を取ってきましたが、驚くべきことに、企業の内部メンバーが直面しているボトルネックは、技術的な課題ではなく、企業自体の内部の課題から生じていることがほとんどです。 たとえば、推論にグラフィックス プロセッシング ユニット (GPU) が必要な機械学習チームをいくつか見てきました。GPT-2 のような大規模なモデルでは、基本的に妥当なレイテンシを実現するために GPU が必要ですが、そのチームのインフラストラクチャは、費用を自ら負担したくない大規模な DevOps チームによって管理されていたため、GPU を入手できませんでした。 機械学習インフラストラクチャに専念する人がいるということは、インフラストラクチャを継続的に改善できるチームメンバーがいるだけでなく、チームのニーズを満たすことができるエバンジェリストもいることを意味します。 では、インフラを管理するのは誰でしょうか? 機械学習インフラストラクチャエンジニア。 このようなタイトルは、あまり共感できないかもしれません。タイトルはさておき、タイトルは言うまでもなく、実稼働機械学習はまだ開発の初期段階にあることを認めなければなりません。企業によって名前が異なる場合があります。
確立された機械学習企業(Spotify など)は、次のような役職を募集しています。 Netflix でも同様です。 Gmail のスマート作成、Uber の到着予定時刻予測、Netflix のコンテンツ推奨など、機械学習対応機能がソフトウェアで一般的になるにつれて、機械学習インフラストラクチャの重要性がますます高まります。 機械学習をサポートするソフトウェアが多数存在する未来を望むなら、インフラストラクチャのボトルネックを解消することが重要です。そのためには、これを真の専門知識として扱い、データ サイエンティストがデータ サイエンスに集中できるようにする必要があります。 データ サイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう… |
<<: AI がモノのインターネットをよりスマートにする 5 つの方法
>>: 私の国における AI チップ開発の現状と見通しはどうですか?
2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways ...
現在、海外では人工知能が新素材の開発に役立っている事例が報告されています。英国リバプール大学の研究者...
1. 因果修正の背景1. 逸脱の発生推奨システムは、収集されたデータに基づいて推奨モデルをトレーニン...
大晦日、家族が集まる夜。 1月28日、オンライン春節祝賀会(略称オンライン春節祝賀会)が予定通り開催...
[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
7月9日、世界人工知能会議クラウドサミットが正式に開幕しました!アマゾン ウェブ サービスは、202...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
翻訳者 |陳俊レビュー | Chonglou昨年以来、 ChatGPTやBardなどの大規模言語モデ...
1. 新しいユーザーシナリオでの実験が直面する問題1. UGパノラマUGのパノラマビューです。 U...
機械学習は現在、業界で徐々にホットな話題になりつつあります。20年以上の開発を経て、機械学習は現在、...
[[382638]]モバイル デバイス、スマート デバイス、IoT 製品からのデータが家庭や企業に溢...