企業が初めて AI を導入し、機械学習プロジェクトを構築するときは、理論に重点を置くことがよくあります。では、必要な結果を提供できるモデルはあるのでしょうか?もしそうなら、そのようなモデルをどのように構築し、トレーニングするのでしょうか? IDC のデータによると、人工知能または機械学習ソリューションを導入するには平均 9 か月以上かかります。主な理由は、データ サイエンティストが概念実証を構築するために使用するツールが、実稼働システムにうまく変換されないことが多いためです。 「R&Dプロセスの開発にかかる時間を『モデル速度』と呼んでいます。これは開始から終了までにかかる時間です」とIDCのアナリスト、スリラム・スブラマニアン氏は語る。 企業は MLOps を使用して上記の問題を解決できます。 MLOps (機械学習オペレーション) は、企業が理論的な概念を使用して検証し、機能させる AI システムのデータ、モデル、展開、監視などの側面を管理するのに役立つベスト プラクティス、フレームワーク、ツールのセットです。 Subramanian 氏はさらに、「MLOps はモデルの速度を数週間、場合によっては数日にまで短縮します。これは、DevOps を使用するとアプリケーションを構築する平均時間が短縮されるのと同じです。そのため、MLOps が必要なのです」と説明しています。MLOps を採用することで、企業はより多くのモデルを構築し、より迅速に革新し、より多くのユースケースに対応できるようになります。 「MLOps の価値提案は明確です。」 IDC は、2024 年までに 60% の企業が MLOps を使用して機械学習ワークフローを実装すると予測しています。スブラマニアン氏は、AI と機械学習の導入における課題について回答者に調査したところ、最大の障壁の 1 つはコストに次いで MLOps の欠如だったと述べています。 この記事では、MLOps とは何か、どのように進化してきたか、そしてこの新たな AI アプローチを運用に最大限活用するために組織が達成し、留意する必要があることについて説明します。 MLOps の進化Eugenio Zuccarelli 氏が数年前に機械学習プロジェクトの構築を始めたとき、MLOps は単なる一連のベストプラクティスに過ぎませんでした。それ以来、Zuccarelli 氏は医療や金融サービスを含む複数の企業で AI プロジェクトに携わり、MLOps が時間の経過とともに進化し、さまざまなツールやプラットフォームが含まれるようになるのを見てきました。 現在、CVS Health でイノベーション データ サイエンティストを務めるズッカレリ氏は、MLOps は AI 運用に非常に強力なフレームワークを提供していると述べ、入院再発や病気の進行などの悪影響を予測できるアプリを作成するために取り組んだ以前のプロジェクトについて言及しました。 「私たちはデータセットとモデルを調査し、医師とコミュニケーションを取りながら、最良のモデルが何であるかを見つけ出しています。しかし、これらのモデルが本当に役立つためには、ユーザーが実際に使用する必要があります。」 これは、API 経由で接続されたバックエンドの機械学習システムを備えた、信頼性が高く、高速で安定したモバイル アプリを構築することを意味しました。 「MLOps がなければ、それを保証することはできません」と彼は言いました。 彼のチームは、H2O MLOps プラットフォームとその他のツールを使用して、モデルのヘルスダッシュボードを作成しました。 「モデルに劇的な変化が生じたり、偏りが生じたりすることは避けたいものです。ヘルスダッシュボードを使用すると、システムに変更があったかどうかを確認できます。」 MLOps プラットフォームを使用して、運用システムを更新することもできます。 「アプリケーションの動作を停止せずにファイルをスワップアウトするのは非常に困難です」と同氏は語る。「MLOps を使用すると、システムへの影響を最小限に抑えながら、生産を継続しながらシステムをスワップアウトできます。」 MLOps プラットフォームが成熟するにつれて、企業はプロジェクトごとにフレームワークを作り直す必要がなくなるため、モデル開発プロセス全体がスピードアップするだろう、と彼は述べた。データ パイプライン管理機能も AI 実装に重要です。 「相互に通信する必要がある複数のデータ ソースがある場合、MLOps が役立ちます。機械学習モデルに流入するすべてのデータは、一貫性があり、高品質である必要があります。諺にあるように、ゴミを入れればゴミが出ます。モデルに十分な情報がなければ、予測自体も不十分になります。」 MLOps の基盤: 動くターゲットしかし、利用できるプラットフォームやツールが非常に多いからといって、MLOps の中核となる原則を無視しているとは思わないでください。 MLOps を導入したばかりの企業は、MLOps の本質はデータ サイエンスとデータ エンジニアリングの間に強力なつながりを構築することであるということを覚えておく必要があります。 「MLOps プロジェクトを成功させるには、データ エンジニアとデータ サイエンティストが同じチームで働く必要があります」と Zuccarelli 氏は述べています。 さらに、偏見を防ぎ、透明性を確保し、説明可能性を提供し、倫理的なプラットフォームをサポートするために必要なツールはまだ開発中です。「これは非常に新しい分野なので、この分野でやるべきことは間違いなくたくさんあります。」 したがって、完全なターンキー ソリューションを導入しない限り、企業は MLOps 向けの AI のあらゆる側面を効果的に実装する方法を十分に理解している必要があります。それは幅広い専門知識を養うことを意味すると、技術コンサルタント会社インサイトの人工知能チームの全国実務マネージャー、ミーガン・ジェントリー氏は言う。 MLOps は、データの収集、検証、分析からマシン リソースの管理、モデル パフォーマンスの追跡まで、あらゆる範囲をカバーします。ローカル、クラウド、エッジに展開できる補助ツールは多数あります。これらのツールにはオープン ソースのものもあれば、独自のものもあります。 しかし、テクノロジーを習得することは単なる一側面に過ぎず、MLOps は DevOps のアジャイル手法と反復的な開発原則も活用していると Gentry 氏は言います。さらに、アジャイル関連のあらゆる分野と同様に、コミュニケーションが重要です。 「データ サイエンティストとデータ エンジニア間のコミュニケーション、DevOps とのコミュニケーション、IT チーム全体とのコミュニケーションなど、あらゆる役割におけるコミュニケーションが重要です。」 MLOps を始めたばかりの企業にとって、一般原則が多すぎたり、ベンダーが数十社あり、さらにはオープンソース ツールセットが多すぎたりするため、混乱を招く可能性があります。 「ここにはあらゆる種類の落とし穴がある」と、キャップジェミニ・アメリカのエンタープライズ・アーキテクチャ担当シニアマネージャー、ヘレン・リストフ氏は言う。 「その多くは未だ開発中であり、正式なガイドラインはまだありません。DevOps と同様に、これはまだ新興技術であり、ガイドラインとポリシーが展開されるまでには時間がかかるでしょう。」 リストフ氏は、企業はデータ プラットフォームから MLOps の取り組みを始めるべきだとアドバイスしています。 「データセットはあるかもしれないが、それらは別々の場所にあり、統一された環境はない。」 彼女は、企業はすべてのデータを 1 つのプラットフォームに移行する必要はないが、さまざまなソース、さまざまなアプリケーション、さまざまな状況からデータを取り込む方法が必要であると述べました。たとえば、データ レイクは、大量の分析を高頻度で実行し、低コストのストレージを必要とする企業に適しています。 MLOps プラットフォームには通常、データ パイプラインを構築および管理し、さまざまなバージョンのトレーニング データを追跡するためのツールがありますが、これは万能のアプローチではありません。さらに、モデルの作成、バージョン管理、ログ記録、機能セットの測定、モデル自体の管理などの他の側面もあります。 「大量のコーディングが必要です」とリストフ氏は述べ、MLOps プラットフォームの構築には数か月かかることがあり、プラットフォーム ベンダーは統合面でまだやるべきことがたくさんあると付け加えた。 「さまざまな方向に開発の余地は大きく、多くのツールがまだ開発中であり、エコシステムは巨大で、人々は必要なものを選んでいるだけです。MLOps はまだ「青年期」にあり、ほとんどのエンタープライズ組織は最適な構成をまだ模索しているところです。」 MLOps の市場状況IDC の Subramanian 氏は、MLOps 市場は 2020 年の 1 億 8,500 万ドルから 2025 年には約 7 億ドルに成長すると予想されているが、MLOps 製品は大規模なプラットフォームにバンドルされることが多いため、市場が大幅に過小評価されている可能性があると述べた。 MLOps市場の実際の規模は2025年までに20億ドルを超える可能性があると彼は述べた。 スブラマニアン氏は、MLOps ベンダーは、AWS、Azure、Google Cloud などの大規模なクラウド プロバイダーから始まり、MLOps 機能をサービスとして顧客に提供する 3 つのカテゴリに分類される傾向があると述べました。 2 番目のカテゴリは、DataRobot、Dataiku、Iguazio などの機械学習プラットフォーム ベンダーです。 「3 番目のカテゴリは、Cloudera、SAS、DataBricks など、かつてデータ管理ベンダーと呼ばれていたものです。これらのベンダーの強みはデータ管理とデータ操作にあり、それが機械学習機能、さらには MLOps 機能にまで広がります。」 スブラマニアン氏は、これら 3 つの分野はいずれも爆発的な成長を遂げており、MLOps ベンダーが際立つのは、オンプレミス環境とクラウド展開モデルの両方をサポートできるかどうか、信頼できる責任ある AI を実装できるかどうか、プラグ アンド プレイであるかどうか、拡張が容易かどうかであると述べました。これらが差別化要因です。 ” 最近の IDC の調査によると、責任ある AI を実装する方法の欠如は、人工知能と機械学習の導入における上位 3 つの障壁の 1 つであり、MLOps の欠如と並んで 2 位となっています。ガートナーの人工知能および機械学習研究アナリスト、スミット・アガルワル氏は、その主な理由は MLOps を採用する以外に選択肢がほとんどないことだと述べています。 「他のアプローチは手動なので、他に選択肢はありません。規模を拡大したい場合は、自動化が必要です。コード、データ、モデルの追跡可能性が必要です。」 最近のガートナーの調査によると、モデルが概念実証から実稼働に移行するまでにかかる平均時間は、9 か月から 7.3 か月に短縮されました。 「しかし、7.3 か月はまだ長い時間であり、組織が MLOps を活用できる機会は数多くあります。」 MLOps がもたらす企業文化の変化MLOps の実装には、エンタープライズ AI チーム側の文化的変化も必要だと、Genpact のグローバル アナリティクス責任者である Amaresh Tripathy 氏は述べています。 「データ サイエンティストに対する人々のイメージは、干し草の山から針を見つけようとするマッド サイエンティストであることが多いです。しかし、データ サイエンティストは発見者であり探検家であり、部品工場ではありません。」企業は、投入する必要がある労力を過小評価することがよくあります。 「人々はエンジニアリングについてよりよく理解しており、ユーザー エクスペリエンスについてもあれこれ理解していますが、どういうわけか、モデルの展開については完全に異なる理解を持っています。テスト環境に精通したデータ サイエンティストは皆、これらのモデルを自然に展開するだろう、または数人の IT スタッフを派遣して展開できるだろうと人々は想定していますが、これは間違いです。人々は自分たちに何が必要かを理解していないのです。」 また、多くの企業は、MLOps が企業の他の側面に及ぼす連鎖反応に気付いていません。この連鎖反応は、企業内で大きな変化につながることがよくあります。 「コール センターに MLOps を導入すると、単純な処理は機械や AI が処理するため、平均応答時間は実際に長くなります。一方、人間が行う処理は複雑になる傾向があるため、実際には時間がかかります。そのため、これらのジョブが何であるか、どのような人材が必要であるか、それらの人材がどのようなスキルを持つべきかを再考する必要があります。」 現在、組織内の意思決定のうちアルゴリズムによって行われているのは5%未満だが、状況は急速に変化しているとトリパシー氏は述べた。 「今後 5 年間で、意思決定の 20% ~ 25% がアルゴリズムによって行われるようになると予想しており、あらゆる統計が、AI が急速に拡大している転換点にあることを示しています。」 彼は、MLOps が重要な部分であると考えています。 MLOps がなければ、AI を一貫して使用することはできません。 MLOps は、企業内で AI を拡張するための触媒です。 |
<<: コーネル大学コンピューティング学部学部長、カビタ・バラ氏: メタバースとは何ですか? AIによって神の目が誕生するかも
>>: AI医薬品製造の全体像を理解するための1つの記事:年間売上高300億元、明確な3つの階層
[[410884]]現在、人工知能の応用範囲と深さは絶えず拡大しており、情報インフラの重要な部分にな...
SOFAJRaftとは何ですか? SOFAJRaft は、 Raftコンセンサス アルゴリズムに基づ...
かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...
近年、ビッグデータコンピューティングの継続的な発展に伴い、ユーザーを中毒に誘導したり、悪いアイデアを...
古代より、農業は人類の生存の基盤であり、国家経済の基盤となってきました。しかし、人口の急速な増加、耕...
AV カメラは他のセンサーと比較して最も密度の高い情報を持っていることはよく知られており、自動運転車...
開発者の世界では、GitHub のスターの数は、プロジェクトが人気があるかどうかを判断するための非常...
気候変動は現在人類が取り組むべき最も重要な課題の一つとなっています。この急速に拡大する危機には、その...
オンラインコードホスティングプラットフォームのGitHubは最近、従業員1,000人以上の米国企業を...
LDA (潜在的ディリクレ分布) や Biterm などの統計トピック モデルを適用することで、大量...