AIに置き換えられる最後のグループも失業するだろう

AIに置き換えられる最後のグループも失業するだろう

[[262639]]

これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれてきました。

機械学習アプリケーションの開発における最大のボトルネックの 1 つは、最新の機械学習モデルをトレーニングするために大規模なラベル付きデータセットが必要になることです。大手 AI スタートアップにとっても、最も重要なリンクは依然としてデータ ラベラーから始まります。現在、手動でラベル付けされたトレーニング セットは高価で時間がかかり、データの組み立て、クリーニング、デバッグが機械学習モデルの正常な構築の源となっています。

最近、スタンフォード大学とブラウン大学は、「Snorkel Drybell: 産業規模での弱い監督の導入に関するケーススタディ」で協力し、組織内の既存の知識を、ノイズの多い高レベルの監督 (弱い監督) として使用して、大規模なトレーニング データ セットに迅速にラベルを付ける方法を検討しました。この研究では、実験的な内部システムである Snorkel Drybell を使用して、オープンソースの Snorkel フレームワークを使用して、内部モデル、オントロジー、レガシー ルール、ナレッジ グラフなどのさまざまな組織的知識リソースを使用し、フルドメインの機械学習モデルのトレーニング データを生成しました。このアプローチは、何万ものデータ ポイントを手動でラベル付けするのと同等のパフォーマンスを発揮し、実際に最新の機械学習モデルのトレーニング データセットを作成する方法についての重要な教訓を明らかにします。

Snorkel DryBell は、トレーニング データに手動でラベルを付けるのではなく、ラベル付け関数をプログラムで記述してトレーニング データにラベルを付けます。このプロセスでは、これらのラベル機能がどのようにエンジニアの知識を捕捉し、既存のリソースをヒューリスティックな弱い監視として使用するかを検討します。たとえば、有名人に関連するコンテンツを特定することが目標であるとします。既存の固有表現認識 (NER) モデルを活用して、有名人を含まないコンテンツを有名人とは関係のないコンテンツとしてラベル付けすることで、このタスクを達成できます。

これは、既存の知識リソースを単純なプログラミング ロジックと組み合わせて、新しいモデルのトレーニング データにラベルを付ける方法を示しています。さらに重要なのは、このラベル付け関数は多くの場合 None を返す (ラベル付けを行わない) ため、データのごく一部にのみラベルが付けられることです。私たちの全体的な目標は、これらのラベルを使用して、新しいデータに一般化できる最新の機械学習モデルをトレーニングすることです。

ラベル付け関数の例では、データポイント(1)を手動でラベル付けするのではなく、既存の知識リソース(この場合はNERモデル(2))と、コード(3)で表される単純なロジックを活用して、データにヒューリスティックにラベルを付けます。

トレーニング データに注釈を付けるこのプログラム インターフェイスは、個々のデータ ポイントに手動で注釈を付けるよりもはるかに高速で柔軟性に優れていますが、生成されるラベルの品質は手動で割り当てられたラベルの品質よりも大幅に低くなります。これらのラベリング関数によって生成されるラベルは、ラベリング関数の精度が不明であるだけでなく、任意の方法で関連付けられる可能性もあるため (たとえば、共通のデータ ソースやヒューリスティックを共有するなど)、重複したり矛盾したりすることがよくあります。

ノイズの多い相関ラベルの問題に対処するために、Snorkel DryBell は生成モデリング技術を使用して、ラベル付け関数の精度と関連性を自動的に推定し (グラウンド トゥルースのトレーニング ラベルは使用しません)、これを使用して出力を再重み付けして、各データ ポイントの単一の確率ラベルにマージします。

大まかに言えば、ラベル付け関数間の観測された一貫性と不一致 (共分散行列) に依存し、新しい行列補完スタイルの方法を使用して、この観測された出力を最もよく説明するラベル付け関数の精度と相関パラメータを学習します。結果のラベルは、任意のモデル (TensorFlow など) のトレーニングに使用できます。

1. 多様な知識資源を弱い監督として活用する

Snorkel Drybell の有効性を調査するために、Web コンテンツ内のトピックの分類、特定の製品の識別、特定のリアルタイム イベントの検出を目標として、3 つの制作タスクと対応するデータセットを使用しました。 Snorkel DryBell を使用すると、次のようなさまざまな既存またはすぐに指定できる情報ソースを活用できます。

  • ヒューリスティックとルール: 例: 対象ドメイン内の既存の手書きルール。
  • トピック モデル、ラベル、分類子: 対象ドメインまたは関連ドメインに関する機械学習モデルなど。
  • 集計データ: 対象エリア内の追跡指標など。
  • 知識またはエンティティ グラフ: 対象ドメインに関する事実のデータベースなど。

Snorkel DryBell の目標は、Web データ上でコンテンツやイベントの分類などの機械学習モデル (C) をトレーニングすることです。

Snorkel DryBell では、ユーザーはトレーニング データを手動でラベル付けするのではなく、さまざまな組織の知識リソース (A) を表すラベル付け関数を記述し、その後、自動的に再重み付けされて結合されます (B)。

私たちはこれらの組織的知識リソースを使用して、MapReduce テンプレートベースのアプローチでラベル付け関数を記述します。各ラベリング関数はデータ ポイントを受け取り、それを削除するか出力します。結果として、手順的に生成されたトレーニング ラベルの大規模なセットが生成されます。ただし、これらのラベルの多くはノイズが多く、互いに矛盾していたり​​ (ヒューリスティックなど)、タスクに対して粒度が粗すぎたり (トピック モデルなど) するため、Snorkel DryBell が自動的にラベルをクリーンアップして最終的なトレーニング セットに統合する必要があります。

2. 既存のリソースを組み合わせて再利用し、正確にモデル化する

これらのノイズの多いラベルを処理するために、次のステージである Snorkel DryBell は、ラベル付け関数の出力を、各データ ポイントに対して単一の信頼度加重トレーニング ラベルに結合します。技術的な課題は、これをグラウンドトゥルースラベルなしで実行する必要があることです。生成モデリング技術を使用して、ラベルなしデータのみを使用して各ラベル付き関数の精度を学習します。この手法は、ラベル付け関数の出力間の一致行列と不一致行列を観察し、それらの間の既知の(または統計的に推定された)相関構造を考慮して学習します。 Snorkel DryBell では、Web 規模のデータを処理するために、TensorFlow のこのモデリング アプローチのより高速でサンプリング不要のバージョンも使用しています。

このプログラムの注釈機能の出力を Snorkel DryBell に組み合わせることで、高品質のトレーニング ラベルを生成できます。実際、比較のために手作業でラベル付けされたトレーニング データが利用可能な 2 つのアプリケーションでは、ラベルでトレーニングされた Snorkel DryBell と同等の予測精度を達成しました。これは、手作業でラベル付けされた 12,000 および 80,000 のトレーニング データ ポイントでの予測精度と一致しています。

3. 役に立たない知識を役に立つモデルに変換する

多くの設定では、本番環境で使用できる配信可能な機能と配信不可能な機能との間にも重要な区別があります。これらの利用できない機能には非常に豊富なシグナルが含まれている可能性がありますが、それらを使用して、本番環境に展開できるモデルをトレーニングまたは提供するためにどのように使用するかがよくある質問です。

多くの設定では、ユーザーが記述したラベル付け関数は、組織内の、本番環境では提供できない知識リソース (a) (たとえば、本番環境では使用するには遅すぎるか高価すぎる集計統計、内部モデル、または知識グラフ) を活用して、安価なリアルタイムの Web サイト信号など、本番環境に対応したサービス機能 (b) 上でのみ定義されたモデルをトレーニングします。

Snorkel DryBell では、ユーザーはラベル付け関数を記述して、提供されていない機能セットを通じて組織の知識を表現し、Snorkel DryBell によって出力されたトレーニング ラベルを使用して、別の提供された機能セットで定義済みモデルをトレーニングできることがわかりました。

私たちが作成したベンチマーク データセットでは、このクロスフィーチャ変換によりパフォーマンスが平均 52% 向上しました。もっと広い意味では、これは、遅すぎるリソース (高価なモデルや集計統計など)、プライベートなリソース (エンティティ グラフやナレッジ グラフなど)、またはデプロイメントに適さないリソースを使用して、安価なリアルタイム機能を使用してサービス可能なモデルをトレーニングする、シンプルでありながら強力なアプローチを表しています。このアプローチは、異なるデータセット間でモデルを転送するのではなく、ドメイン知識を異なる機能セット間で転送する新しいタイプの転送学習と見なすことができます。このアプローチは、業界だけでなく、医療やその他の分野でも潜在的な使用例があります。

<<:  パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

>>:  カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

ブログ    
ブログ    

推薦する

今年の春節旅行は異例、テクノロジーが鍵

今年も春節の旅行シーズンがやってきましたが、今年は明らかに例年とは違います。今年は、感染症予防・抑制...

...

...

...

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシ...

年末総括: 2021 年の人工知能 (AI) と機械学習 (ML) の 5 つの主要な開発トレンド

[[359772]]来年、AI テクノロジーはビジネス業務にさらに深く浸透するでしょう。人工知能 (...

機械学習で避けるべき3つの落とし穴

[[274438]]機械学習の分野は数十年にわたって「タンク問題」に悩まされてきました。この話は 1...

2018 年に人工知能があなたの生活、仕事、遊びに革命を起こす 8 つの方法

2017年、人工知能はあらゆる面でブームを巻き起こしました。イーロン・マスクからマーク・ザッカーバー...

...

...

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Githubの包括的なレビュー! 2021 年の最も素晴らしい AI 論文 38 件

[[443053]] 2021年は人工知能が飛躍的に進歩し続ける年です。最近、Github で誰かが...

人工知能は気候変動に対する新時代の解決策である

人類が地球環境において行った行為を元に戻すために、人工知能が私たちの手助けをしてくれるでしょう。気候...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...