AIに置き換えられる最後のグループも失業するだろう

AIに置き換えられる最後のグループも失業するだろう

[[262639]]

これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれてきました。

機械学習アプリケーションの開発における最大のボトルネックの 1 つは、最新の機械学習モデルをトレーニングするために大規模なラベル付きデータセットが必要になることです。大手 AI スタートアップにとっても、最も重要なリンクは依然としてデータ ラベラーから始まります。現在、手動でラベル付けされたトレーニング セットは高価で時間がかかり、データの組み立て、クリーニング、デバッグが機械学習モデルの正常な構築の源となっています。

最近、スタンフォード大学とブラウン大学は、「Snorkel Drybell: 産業規模での弱い監督の導入に関するケーススタディ」で協力し、組織内の既存の知識を、ノイズの多い高レベルの監督 (弱い監督) として使用して、大規模なトレーニング データ セットに迅速にラベルを付ける方法を検討しました。この研究では、実験的な内部システムである Snorkel Drybell を使用して、オープンソースの Snorkel フレームワークを使用して、内部モデル、オントロジー、レガシー ルール、ナレッジ グラフなどのさまざまな組織的知識リソースを使用し、フルドメインの機械学習モデルのトレーニング データを生成しました。このアプローチは、何万ものデータ ポイントを手動でラベル付けするのと同等のパフォーマンスを発揮し、実際に最新の機械学習モデルのトレーニング データセットを作成する方法についての重要な教訓を明らかにします。

Snorkel DryBell は、トレーニング データに手動でラベルを付けるのではなく、ラベル付け関数をプログラムで記述してトレーニング データにラベルを付けます。このプロセスでは、これらのラベル機能がどのようにエンジニアの知識を捕捉し、既存のリソースをヒューリスティックな弱い監視として使用するかを検討します。たとえば、有名人に関連するコンテンツを特定することが目標であるとします。既存の固有表現認識 (NER) モデルを活用して、有名人を含まないコンテンツを有名人とは関係のないコンテンツとしてラベル付けすることで、このタスクを達成できます。

これは、既存の知識リソースを単純なプログラミング ロジックと組み合わせて、新しいモデルのトレーニング データにラベルを付ける方法を示しています。さらに重要なのは、このラベル付け関数は多くの場合 None を返す (ラベル付けを行わない) ため、データのごく一部にのみラベルが付けられることです。私たちの全体的な目標は、これらのラベルを使用して、新しいデータに一般化できる最新の機械学習モデルをトレーニングすることです。

ラベル付け関数の例では、データポイント(1)を手動でラベル付けするのではなく、既存の知識リソース(この場合はNERモデル(2))と、コード(3)で表される単純なロジックを活用して、データにヒューリスティックにラベルを付けます。

トレーニング データに注釈を付けるこのプログラム インターフェイスは、個々のデータ ポイントに手動で注釈を付けるよりもはるかに高速で柔軟性に優れていますが、生成されるラベルの品質は手動で割り当てられたラベルの品質よりも大幅に低くなります。これらのラベリング関数によって生成されるラベルは、ラベリング関数の精度が不明であるだけでなく、任意の方法で関連付けられる可能性もあるため (たとえば、共通のデータ ソースやヒューリスティックを共有するなど)、重複したり矛盾したりすることがよくあります。

ノイズの多い相関ラベルの問題に対処するために、Snorkel DryBell は生成モデリング技術を使用して、ラベル付け関数の精度と関連性を自動的に推定し (グラウンド トゥルースのトレーニング ラベルは使用しません)、これを使用して出力を再重み付けして、各データ ポイントの単一の確率ラベルにマージします。

大まかに言えば、ラベル付け関数間の観測された一貫性と不一致 (共分散行列) に依存し、新しい行列補完スタイルの方法を使用して、この観測された出力を最もよく説明するラベル付け関数の精度と相関パラメータを学習します。結果のラベルは、任意のモデル (TensorFlow など) のトレーニングに使用できます。

1. 多様な知識資源を弱い監督として活用する

Snorkel Drybell の有効性を調査するために、Web コンテンツ内のトピックの分類、特定の製品の識別、特定のリアルタイム イベントの検出を目標として、3 つの制作タスクと対応するデータセットを使用しました。 Snorkel DryBell を使用すると、次のようなさまざまな既存またはすぐに指定できる情報ソースを活用できます。

  • ヒューリスティックとルール: 例: 対象ドメイン内の既存の手書きルール。
  • トピック モデル、ラベル、分類子: 対象ドメインまたは関連ドメインに関する機械学習モデルなど。
  • 集計データ: 対象エリア内の追跡指標など。
  • 知識またはエンティティ グラフ: 対象ドメインに関する事実のデータベースなど。

Snorkel DryBell の目標は、Web データ上でコンテンツやイベントの分類などの機械学習モデル (C) をトレーニングすることです。

Snorkel DryBell では、ユーザーはトレーニング データを手動でラベル付けするのではなく、さまざまな組織の知識リソース (A) を表すラベル付け関数を記述し、その後、自動的に再重み付けされて結合されます (B)。

私たちはこれらの組織的知識リソースを使用して、MapReduce テンプレートベースのアプローチでラベル付け関数を記述します。各ラベリング関数はデータ ポイントを受け取り、それを削除するか出力します。結果として、手順的に生成されたトレーニング ラベルの大規模なセットが生成されます。ただし、これらのラベルの多くはノイズが多く、互いに矛盾していたり​​ (ヒューリスティックなど)、タスクに対して粒度が粗すぎたり (トピック モデルなど) するため、Snorkel DryBell が自動的にラベルをクリーンアップして最終的なトレーニング セットに統合する必要があります。

2. 既存のリソースを組み合わせて再利用し、正確にモデル化する

これらのノイズの多いラベルを処理するために、次のステージである Snorkel DryBell は、ラベル付け関数の出力を、各データ ポイントに対して単一の信頼度加重トレーニング ラベルに結合します。技術的な課題は、これをグラウンドトゥルースラベルなしで実行する必要があることです。生成モデリング技術を使用して、ラベルなしデータのみを使用して各ラベル付き関数の精度を学習します。この手法は、ラベル付け関数の出力間の一致行列と不一致行列を観察し、それらの間の既知の(または統計的に推定された)相関構造を考慮して学習します。 Snorkel DryBell では、Web 規模のデータを処理するために、TensorFlow のこのモデリング アプローチのより高速でサンプリング不要のバージョンも使用しています。

このプログラムの注釈機能の出力を Snorkel DryBell に組み合わせることで、高品質のトレーニング ラベルを生成できます。実際、比較のために手作業でラベル付けされたトレーニング データが利用可能な 2 つのアプリケーションでは、ラベルでトレーニングされた Snorkel DryBell と同等の予測精度を達成しました。これは、手作業でラベル付けされた 12,000 および 80,000 のトレーニング データ ポイントでの予測精度と一致しています。

3. 役に立たない知識を役に立つモデルに変換する

多くの設定では、本番環境で使用できる配信可能な機能と配信不可能な機能との間にも重要な区別があります。これらの利用できない機能には非常に豊富なシグナルが含まれている可能性がありますが、それらを使用して、本番環境に展開できるモデルをトレーニングまたは提供するためにどのように使用するかがよくある質問です。

多くの設定では、ユーザーが記述したラベル付け関数は、組織内の、本番環境では提供できない知識リソース (a) (たとえば、本番環境では使用するには遅すぎるか高価すぎる集計統計、内部モデル、または知識グラフ) を活用して、安価なリアルタイムの Web サイト信号など、本番環境に対応したサービス機能 (b) 上でのみ定義されたモデルをトレーニングします。

Snorkel DryBell では、ユーザーはラベル付け関数を記述して、提供されていない機能セットを通じて組織の知識を表現し、Snorkel DryBell によって出力されたトレーニング ラベルを使用して、別の提供された機能セットで定義済みモデルをトレーニングできることがわかりました。

私たちが作成したベンチマーク データセットでは、このクロスフィーチャ変換によりパフォーマンスが平均 52% 向上しました。もっと広い意味では、これは、遅すぎるリソース (高価なモデルや集計統計など)、プライベートなリソース (エンティティ グラフやナレッジ グラフなど)、またはデプロイメントに適さないリソースを使用して、安価なリアルタイム機能を使用してサービス可能なモデルをトレーニングする、シンプルでありながら強力なアプローチを表しています。このアプローチは、異なるデータセット間でモデルを転送するのではなく、ドメイン知識を異なる機能セット間で転送する新しいタイプの転送学習と見なすことができます。このアプローチは、業界だけでなく、医療やその他の分野でも潜在的な使用例があります。

<<:  パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

>>:  カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

ブログ    
ブログ    
ブログ    

推薦する

自然言語処理のためのオープンソースツール12選

[[316192]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...

年末コレクション!アンドリュー・ンが2020年に最も注目されたAIイベントをレビュー

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Adobe は GAN をステッチされたモンスターに変え、1024 解像度の全身ポートレートを空中から作り出した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

一貫性ハッシュアルゴリズムとは何ですか?

この記事はWeChatパブリックアカウント「Compass Krypton Gold Entranc...

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化デ...

機械学習の4つの異なるカテゴリの概要

[[420892]]学習の実行方法に基づいて、アルゴリズムをさまざまなカテゴリに分類できます。教師あ...

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。写真しかし、瞬く間に...

...

ニューラルネットワークの過剰適合を避ける 5 つのテクニック

この記事では、ニューラル ネットワークをトレーニングするときに過剰適合を回避する 5 つの手法を紹介...

静的解析に機械学習を使用する方法

機械学習と人工知能は、特にマーケティング分析とサイバーセキュリティの分野で多くの分野で広く応用されて...

...

不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

背景今年8月時点で、知乎の登録ユーザー数は2億人を突破した。私たちはスパムの管理において、より大きな...

注意深い! CCTVの科学的テスト:マスクは顔の代わりに携帯電話のロックを解除することもできる

[[349033]]テクノロジーの継続的な進歩により、私たちの日常生活はますます便利になっています。...

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしていま...