よりスケーラブルになるにはどうすればよいでしょうか?

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

機械学習は誰もが念頭に置いている大きな目標となっており、80% 以上の企業が少なくとも 1 つの AI プロジェクトに取り組んでいます。

[[322115]]

画像ソース: unsplash

始める前に、次の 3 つの質問を自分に問いかけるのが最善です。

  • 「この機械学習モデルの精度はどれくらいですか?」
  • 「トレーニングにはどれくらい時間がかかりますか?」
  • 「どれくらいのトレーニングデータが必要ですか?」

多くの場合、ユーザーは新しいモデルの導入にどれくらいの時間がかかるか、そのモデルがどの程度パフォーマンスや一般化に優れているかを知りたいと考えており、全体的なコストとパフォーマンスを比較して測定する方法を求めています。しかし残念ながら、上記の質問に対する答えではこの問題は解決されません。

誤解を招く可能性もあります。

モデルのトレーニングは氷山の一角にすぎません。適切なデータセットの取得、クリーニング、保存、集約、ラベル付け、信頼性の高いデータフローとインフラストラクチャ パイプラインの構築にかかる膨大なコストは、ほとんどのユーザーや AI/ML 企業によって見過ごされています。

最近の調査によると、企業は AI/ML プロジェクトにおけるデータの準備とエンジニアリングに 80% 以上の時間を費やしています。言い換えれば、ほとんどの労力がモデルの構築とトレーニングに集中する場合、エンジニアリングの総労力とコストは予想の 5 倍になる可能性があります。

さらに、機械学習により、ユーザーとソフトウェア開発者の境界が曖昧になります。

AIaaS や MLaaS が登場し始めています。データが増えるにつれて、クラウド内のモデルは改善され続けます。このため、MLaaS ビジネスは SaaS よりも困難です。

出典: バスティアン・ホアン

機械モデルはトレーニング データから学習するため、高品質のデータがなければモデルのパフォーマンスは低下します。ほとんどの場合、ユーザーは適切なデータセットを生成または注釈付けするためのベストプラクティスを認識していません。

システムのパフォーマンスが悪い場合、ユーザーはモデルのせいにする傾向があります。その結果、AI/ML 企業は通常、データ品質を確保するためにユーザーのトレーニングや作業に多くの時間とリソースを費やしており、これは AI 企業とその顧客の間で共有される責任になります。

たとえば、生産ラインで欠陥検査モデルをトレーニングするには、コンピューター ビジョン企業が顧客と協力してカメラを適切な角度と位置に取り付け、解像度とフレーム レートをチェックし、各シーンに十分な数の正と負のトレーニング サンプルがあることを確認する必要があります。

ロボットや自動運転車のアプリケーションを使用したデータ収集は、ある時点でロボットや車両を人間が操作する必要があるため、より時間とコストがかかります。

トレーニング コースを受講し、すべてのユーザー マニュアルとガイドを読んだ後でも、ユーザーが生成するデータを完全に制御することはできません。あるマシンビジョンカメラ会社は、エンジニアがすべてのデータを手作業で検証し、完全に入力されていることを確認していると話していました。

[[322116]]

画像ソース: unsplash

見落とされがちなこれらの追加トレーニング、手動レビュー、データクリーニング、ラベル付けタスクはすべて、AI 企業にとって大きな間接費を生み出す可能性があります。そのため、よりスケーラブルな AI/ML プロジェクトを構築することが重要です。では、この問題をどう解決すればよいのでしょうか?

1. スケーラビリティが重要です。

多数の顧客が購入を検討する適切なユースケースを特定し、同じモデル アーキテクチャを使用して解決します。最後に、標準製品なしで、さまざまな企業向けにさまざまなモデルを構築してトレーニングする必要があります。

2. 可能な限りセルフサービスを提供します。

トレーニングとデータ パイプラインを可能な限り自動化して、運用効率を高め、手作業への依存を減らします。企業は、顧客が目にする機能を社内ツールや自動化よりも優先することがよくありますが、前者はすぐに成果が得られるため、社内プロセスの自動化に十分なリソースを割り当てる必要があります。

3. 最後に、コスト、特に隠れたコストを特定して追跡します。

エンジニアはデータのクリーニング、フィルタリング、集約にどのくらいの時間を費やしていますか? サードパーティによる注釈付けが正しく行われていることを確認するのにどのくらいの時間を費やしていますか? 顧客の環境設定とデータの正しい収集をどのくらいの頻度で支援する必要がありますか? このうちどの程度を自動化またはアウトソーシングできますか?

レベルアップへの道のりは困難で長いかもしれませんが、遅かれ早かれいくつかの問題に直面しなければなりません。

<<:  スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

>>:  機械学習専用サーバーの重要性の高まり

ブログ    

推薦する

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...

深層強化学習入門: TensorFlow で初めてのゲーム AI を構築する

[[210667]]昨年、DeepMindのAlphaGoは世界囲碁チャンピオンのイ・セドルを4対1...

...

人工知能は人間の弱点を克服できる

人工知能の多くの利点はよく知られ、理解され、宣伝されていますが、その限界も明らかです。しかし、あまり...

...

...

...

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験し...

スタンフォード大学がトランプ政権のCTOと会談: AI、移民、技術インフラなどについて

[[282007]] ▲写真:スタンフォード大学のアイリーン・ドナホー氏(左)が、米国政府の最高技術...

eMule プロトコルの DHT アルゴリズム

BT プロトコルと eMule プロトコルのアルゴリズムにはいくつかの違いがあり、この 2 つを併用...

顔認識はどのようにして顔を認識するのでしょうか?

顔をスキャンして出勤記録を取ったり、顔で支払いをしたり、顔でドアを開けたり、顔をスキャンしながら生活...

人工知能は裁判所によって特許発明者とみなされるでしょうか?

人工知能(AI)は、新薬の発見から新しい数学の問題の解決まで、あらゆることを人間が行うのに役立ってお...

人工知能が教育分野に参入し「スマート教育」を創出

最先端の技術力に加え、人工知能は教育分野にも進出し始めています。北京では先日、中国・外国教師科学教育...

ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatG...

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...