アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論争となるかもしれない。

Andrew Ng 氏の考えでは、機械学習チームの作業の 80% はデータの準備に集中すべきです。データの品質を確保することが最も重要なタスクです。誰もがこれを実行する必要があることは知っていますが、誰も気にしません。モデル中心ではなくデータ中心であることに重点を置けば、機械学習はより速く進歩するでしょう。

[[392791]]

arxiv で機械学習関連の研究を探すと、すべてのモデルがベンチマークに基づいてその機能を実証しています。たとえば、Google には BERT があり、OpenAI には GPT-3 があります。これらのモデルはビジネス上の問題の 20% しか解決しません。ビジネス シナリオでより良い結果を達成するには、より良いデータが必要です。

従来のソフトウェアはコードによって実行されますが、AI システムはコード (モデル + アルゴリズム) とデータの両方を使用して構築されます。以前の作業方法では、モデルのパフォーマンスが悪かった場合、それがデータの問題である可能性を考慮せずにモデルを修正していました。

機械学習の進歩は、ベンチマーク データセットのパフォーマンスを向上させる取り組みによって推進されてきました。研究者の間では、コードの改善を試みながらデータを固定しておくのが一般的ですが、モデルの改善に重点を置くことでモデルのパフォーマンスを向上させることは、実際には非常に非効率的です。ただし、データセットのサイズが中程度 (< 10,000 例) の場合は、コードを試してみる価値があります。

ケンブリッジの研究者が実施した調査によると、最も重要でありながら見落とされがちな問題は、データが統一された形式になっていないことだ。データがさまざまなソースからストリーミングされる場合、それらのソースには異なるスキーマ、異なる規則、およびデータの保存方法とアクセス方法がある場合があります。機械学習エンジニアにとって、これは情報を機械学習に適した単一のデータセットに統合する必要がある面倒なプロセスです。

少量データのデメリットは、少量のノイズデータがモデルの効果に影響を与える一方で、大量のデータではラベル付けが非常に困難になることです。高品質のラベルは、機械学習モデルのボトルネックでもあります。

これらの発言により、機械学習コミュニティは MLOps を再考するようになりました。

MLOps とは何ですか?

MLOps は機械学習と運用を組み合わせたもので、ModelOps のサブセットであり、機械学習タスクのライフサイクル管理を支援するためにデータ サイエンティストと運用担当者が協力してコミュニケーションを図る実践方法です。

DevOps や DataOps のアプローチと同様に、MLOps は、ビジネス要件と規制要件にも重点を置きながら、自動化を強化して運用 ML の品質を向上させることを目指しています。

インターネット企業は通常、大量のデータを保有しています。しかし、農業などのデータが不足しているアプリケーションシナリオにAIを導入すると、

ただし、100 万台のトラクターがデータを収集してくれることを期待することはできません。

Andrew Ng 氏は、MLOps に基づいて、いくつかの提案も行いました。

  • MLOps の最も重要なタスクは、高品質のデータを提供することです。
  • ラベル付けの一貫性も重要です。ラベルに管理する明確な境界があることを確認します。ラベルが適切に定義されている場合でも、一貫性が欠けているとモデルのパフォーマンスが低下する可能性があります。
  • 低品質のデータで最新モデルを追いかけるよりも、ベースライン モデルのデータ品質を体系的に改善する方が効果的です。
  • トレーニング中にエラーが発生した場合は、データ中心のアプローチを採用する必要があります。
  • データ中心の場合、データセットが小さい (<10,000 サンプル) 場合は、データ容量を大幅に改善する余地があります。
  • より小さなデータセットを扱う場合、データ品質を向上させるツールとサービスが重要です。

すべてのエッジケースをカバーする一貫したデータ定義、実稼働データからのタイムリーなフィードバック、適切なデータセット サイズ。

Ng 氏はまた、データセットの改善をエンジニアに頼らないようにアドバイスしています。代わりに、彼は ML コミュニティがより多くの MLOps ツールを開発し、高品質のデータセットと AI システムを作成して再現可能にすることを期待しています。さらに、MLOps は新興分野であり、MLOps チームの最も重要な目標は、プロジェクトのすべてのフェーズを通じて高品質で一貫したデータ フローを確保することです。

いくつかの MLOps ツールは良好な結果を達成しています。

Alteryx は、セルフサービス データ分析運動の最前線に立っています。同社のプラットフォーム「Designer」は、顧客に関する詳細な情報を迅速に発見、準備、分析できるように設計されています。このツールは、ユーザーがデータ ウェアハウスに接続してクリアできる使いやすいインターフェイスで使用されます。 Alteryx のツールには、他のサードパーティ データに追加できる空間ファイルのデータ ブレンディングも含まれています。

Paxata は、柔軟な展開とセルフサービス操作を備えた適応型情報プラットフォームを提供します。これにより、アナリストやデータ サイエンティストは複数の生データ セットを収集し、それをモデル トレーニングの実行に必要な形式に即座に変換できる貴重な情報に変換できるようになります。このプラットフォームは、スプレッドシート形式のデータ表示を備えた WYSIWYG デザインに基づいているため、ユーザーは新しいツールを学習する必要がありません。さらに、このプラットフォームは、収集されたデータの意味を推測するためのアルゴリズム支援を提供することができます。

TIBCO Software は最近、急速に進化するこの分野のプレーヤーとして登場しました。これにより、ユーザーはビッグデータ ストアを含むさまざまなソースからのデータを接続、クリーンアップ、マージ、整理できるようになります。このソフトウェアにより、ユーザーは簡単なオンライン データ収集を通じてデータ分析を実行でき、ユーザー独自のニーズに応じて変更できる完全な API サポートが提供されます。

ネットユーザーたちは、アンドリュー・ン氏の言ったことはまさにその通りだと言った。

一部のネットユーザーは、機械学習はデータ分析に似ており、モデルの構築はパイプラインの構築に似ているとも述べています。

<<:  Java プログラミング スキル - データ構造とアルゴリズム「再帰」

>>:  鉄道欠陥検出における機械学習の実用化

ブログ    
ブログ    

推薦する

Hiveテクノロジーイノベーションカンファレンスは、ドローン技術の進化とビジネスモデルの革命をリードします

2018年1月23日、北京ハイブアグロテック株式会社(以下、ハイブロボティクス)は、JDグループ本社...

...

将来、人工知能は冷酷な大量虐殺者になるのでしょうか?

人類の将来に対する最も永続的な恐怖の一つは、人工知能が人間の制御を逃れ、人類を絶滅させる可能性がある...

...

...

人工知能との競争において、カスタマーサービスと宅配業者が勝つ可能性はどれくらいでしょうか?

[[409291]]労働日報記者 イェ・ユン・チェン・ニン 写真家 チェン・ニン編集者注人工知能(...

注目メカニズムに基づく人工知能アルゴリズム単一画像超解像法は、質感と滑らかさを区別します

人工知能アルゴリズムによる注目ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。概要: ...

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...

米国の刑務所、受刑者の通話を分析するために人工知能を導入する計画

下院の主要委員会が、受刑者の通話を分析するための人工知能の使用に関する報告書の提出を求めたことにより...

自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達

北京、首鋼冬季オリンピック公園。最近、「MAI Shop」という小売店がここにオープンし、すぐにネッ...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

人工知能とコールセンターの衝突が新たな時代を創る

[[430158]]コールセンターは1960年代から存在しており、NASAのミッションコントロールで...

世界の自動運転「M&A」を4大勢力が攻勢

偉大な将軍の名声の裏には、数え切れないほどの兵士たちの援助がある。この声明は自動運転の分野にも当ては...

AutoAgentsは、あらゆるシナリオで独自のAIエージェントチームを作成するためにここにあります

最近、GitHubは新しいAIエージェントプロジェクト「AutoAgents」を立ち上げました。この...

私の国の自動運転開発は、年初に巨額の資金提供を受けて大いに支持されている

自動運転は、さまざまな交通問題を解決し、スマートシティの発展を実現するための共通の選択肢として、近年...