AIに置き換えられる最後のグループも失業するだろう

[[262639]]

これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれてきました。

機械学習アプリケーションの開発における最大のボトルネックの 1 つは、最新の機械学習モデルをトレーニングするために大規模なラベル付きデータセットが必要になることです。大手 AI スタートアップにとっても、最も重要なリンクは依然としてデータラベラーから始まります。現在、手動でラベル付けされたトレーニングセットは高価で時間がかかり、データの組み立て、クリーニング、デバッグが機械学習モデルの正常な構築の源となっています。

最近、スタンフォード大学とブラウン大学は、「Snorkel Drybell: 産業規模での弱い監督の導入に関するケーススタディ」で協力し、組織内の既存の知識を、ノイズの多い高レベルの監督 (弱い監督) として使用して、大規模なトレーニングデータセットに迅速にラベルを付ける方法を検討しました。この研究では、実験的な内部システムである Snorkel Drybell を使用して、オープンソースの Snorkel フレームワークを使用して、内部モデル、オントロジー、レガシールール、ナレッジグラフなどのさまざまな組織的知識リソースを使用し、フルドメインの機械学習モデルのトレーニングデータを生成しました。このアプローチは、何万ものデータポイントを手動でラベル付けするのと同等のパフォーマンスを発揮し、実際に最新の機械学習モデルのトレーニングデータセットを作成する方法についての重要な教訓を明らかにします。

Snorkel DryBell は、トレーニングデータに手動でラベルを付けるのではなく、ラベル付け関数をプログラムで記述してトレーニングデータにラベルを付けます。このプロセスでは、これらのラベル機能がどのようにエンジニアの知識を捕捉し、既存のリソースをヒューリスティックな弱い監視として使用するかを検討します。たとえば、有名人に関連するコンテンツを特定することが目標であるとします。既存の固有表現認識 (NER) モデルを活用して、有名人を含まないコンテンツを有名人とは関係のないコンテンツとしてラベル付けすることで、このタスクを達成できます。

これは、既存の知識リソースを単純なプログラミングロジックと組み合わせて、新しいモデルのトレーニングデータにラベルを付ける方法を示しています。さらに重要なのは、このラベル付け関数は多くの場合 None を返す (ラベル付けを行わない) ため、データのごく一部にのみラベルが付けられることです。私たちの全体的な目標は、これらのラベルを使用して、新しいデータに一般化できる最新の機械学習モデルをトレーニングすることです。

ラベル付け関数の例では、データポイント（1）を手動でラベル付けするのではなく、既存の知識リソース（この場合はNERモデル（2））と、コード（3）で表される単純なロジックを活用して、データにヒューリスティックにラベルを付けます。

トレーニングデータに注釈を付けるこのプログラムインターフェイスは、個々のデータポイントに手動で注釈を付けるよりもはるかに高速で柔軟性に優れていますが、生成されるラベルの品質は手動で割り当てられたラベルの品質よりも大幅に低くなります。これらのラベリング関数によって生成されるラベルは、ラベリング関数の精度が不明であるだけでなく、任意の方法で関連付けられる可能性もあるため (たとえば、共通のデータソースやヒューリスティックを共有するなど)、重複したり矛盾したりすることがよくあります。

ノイズの多い相関ラベルの問題に対処するために、Snorkel DryBell は生成モデリング技術を使用して、ラベル付け関数の精度と関連性を自動的に推定し (グラウンドトゥルースのトレーニングラベルは使用しません)、これを使用して出力を再重み付けして、各データポイントの単一の確率ラベルにマージします。

大まかに言えば、ラベル付け関数間の観測された一貫性と不一致 (共分散行列) に依存し、新しい行列補完スタイルの方法を使用して、この観測された出力を最もよく説明するラベル付け関数の精度と相関パラメータを学習します。結果のラベルは、任意のモデル (TensorFlow など) のトレーニングに使用できます。

1. 多様な知識資源を弱い監督として活用する

Snorkel Drybell の有効性を調査するために、Web コンテンツ内のトピックの分類、特定の製品の識別、特定のリアルタイムイベントの検出を目標として、3 つの制作タスクと対応するデータセットを使用しました。 Snorkel DryBell を使用すると、次のようなさまざまな既存またはすぐに指定できる情報ソースを活用できます。

ヒューリスティックとルール: 例: 対象ドメイン内の既存の手書きルール。
トピックモデル、ラベル、分類子: 対象ドメインまたは関連ドメインに関する機械学習モデルなど。
集計データ: 対象エリア内の追跡指標など。
知識またはエンティティグラフ: 対象ドメインに関する事実のデータベースなど。

Snorkel DryBell の目標は、Web データ上でコンテンツやイベントの分類などの機械学習モデル (C) をトレーニングすることです。

Snorkel DryBell では、ユーザーはトレーニングデータを手動でラベル付けするのではなく、さまざまな組織の知識リソース (A) を表すラベル付け関数を記述し、その後、自動的に再重み付けされて結合されます (B)。

私たちはこれらの組織的知識リソースを使用して、MapReduce テンプレートベースのアプローチでラベル付け関数を記述します。各ラベリング関数はデータポイントを受け取り、それを削除するか出力します。結果として、手順的に生成されたトレーニングラベルの大規模なセットが生成されます。ただし、これらのラベルの多くはノイズが多く、互いに矛盾していたり (ヒューリスティックなど)、タスクに対して粒度が粗すぎたり (トピックモデルなど) するため、Snorkel DryBell が自動的にラベルをクリーンアップして最終的なトレーニングセットに統合する必要があります。

2. 既存のリソースを組み合わせて再利用し、正確にモデル化する

これらのノイズの多いラベルを処理するために、次のステージである Snorkel DryBell は、ラベル付け関数の出力を、各データポイントに対して単一の信頼度加重トレーニングラベルに結合します。技術的な課題は、これをグラウンドトゥルースラベルなしで実行する必要があることです。生成モデリング技術を使用して、ラベルなしデータのみを使用して各ラベル付き関数の精度を学習します。この手法は、ラベル付け関数の出力間の一致行列と不一致行列を観察し、それらの間の既知の（または統計的に推定された）相関構造を考慮して学習します。 Snorkel DryBell では、Web 規模のデータを処理するために、TensorFlow のこのモデリングアプローチのより高速でサンプリング不要のバージョンも使用しています。

このプログラムの注釈機能の出力を Snorkel DryBell に組み合わせることで、高品質のトレーニングラベルを生成できます。実際、比較のために手作業でラベル付けされたトレーニングデータが利用可能な 2 つのアプリケーションでは、ラベルでトレーニングされた Snorkel DryBell と同等の予測精度を達成しました。これは、手作業でラベル付けされた 12,000 および 80,000 のトレーニングデータポイントでの予測精度と一致しています。

3. 役に立たない知識を役に立つモデルに変換する

多くの設定では、本番環境で使用できる配信可能な機能と配信不可能な機能との間にも重要な区別があります。これらの利用できない機能には非常に豊富なシグナルが含まれている可能性がありますが、それらを使用して、本番環境に展開できるモデルをトレーニングまたは提供するためにどのように使用するかがよくある質問です。

多くの設定では、ユーザーが記述したラベル付け関数は、組織内の、本番環境では提供できない知識リソース (a) (たとえば、本番環境では使用するには遅すぎるか高価すぎる集計統計、内部モデル、または知識グラフ) を活用して、安価なリアルタイムの Web サイト信号など、本番環境に対応したサービス機能 (b) 上でのみ定義されたモデルをトレーニングします。

Snorkel DryBell では、ユーザーはラベル付け関数を記述して、提供されていない機能セットを通じて組織の知識を表現し、Snorkel DryBell によって出力されたトレーニングラベルを使用して、別の提供された機能セットで定義済みモデルをトレーニングできることがわかりました。

私たちが作成したベンチマークデータセットでは、このクロスフィーチャ変換によりパフォーマンスが平均 52% 向上しました。もっと広い意味では、これは、遅すぎるリソース (高価なモデルや集計統計など)、プライベートなリソース (エンティティグラフやナレッジグラフなど)、またはデプロイメントに適さないリソースを使用して、安価なリアルタイム機能を使用してサービス可能なモデルをトレーニングする、シンプルでありながら強力なアプローチを表しています。このアプローチは、異なるデータセット間でモデルを転送するのではなく、ドメイン知識を異なる機能セット間で転送する新しいタイプの転送学習と見なすことができます。このアプローチは、業界だけでなく、医療やその他の分野でも潜在的な使用例があります。

<<: パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

>>: カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある