非常に使いやすい自信学習: ラベルエラーを見つけるための 1 行のコード、ノイズの多いラベルを学習するための 3 行のコード

非常に使いやすい自信学習: ラベルエラーを見つけるための 1 行のコード、ノイズの多いラベルを学習するための 3 行のコード

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

知っていましたか? ImageNet でも、おそらく少なくとも 100,000 のラベル問題があります。

大規模なデータセット内のラベルエラーを記述または検出すること自体が非常に困難な作業であり、多くのヒーローがそれに悩まされてきました。

最近、MIT と Google の研究者は、与えられたラベルと未知のラベル間の結合分布を直接推定できる一般化信頼学習 (CL)法を提案しました。

この一般化された CL は、オープンソースの Clean Lab Python パッケージとしても利用可能であり、ImageNet および CIFAR で他の最先端の方法よりも 30% 優れたパフォーマンスを発揮します。

この方法はどれほど強力でしょうか?例えば。

上の図は、2012 ILSVRC ImageNet トレーニング セットで自信のある学習を使用して検出されたラベル エラーの例です。研究者たちは、CL によって発見された問題を 3 つのカテゴリーに分類しました。

1. 青: 画像内に複数のラベルがあります。
2. 緑: データセットには 1 つのクラスがあるはずです。
3. 赤: ラベルエラー。

自信のある学習により、適切なモデルを使用して任意のデータセット内のラベル付けエラーを見つけることができます。次の図は、他の 3 つの一般的なデータセットの例です。

自信のある学習を使用してさまざまなデータ パターンとモデルを識別する Amazon レビュー、MNIST、Quickdraw データセットに現在存在する誤ったラベル付けの例。

とても良い方法なので、すぐに試してみてはいかがでしょうか?

Confident Learning とは何ですか?

信頼学習は、教師あり学習のサブフィールドとして登場しました。

上の図から、CL には 2 つの入力が必要であることが容易にわかります。

1. サンプル外予測確率
2. ノイズの多いラベル

弱い監督の場合、CL は次の 3 つのステップで構成されます。

1. クラス条件付きラベルノイズを完全に記述できるように、与えられたノイズラベルと潜在的な(未知の)破損していないラベルの結合分布を推定します。
2. ラベルの問題のあるノイズの多い例を見つけて削除します。
3. エラーを排除するようにトレーニングし、推定された潜在的な事前確率に従ってサンプルの重みを再調整します。

では、CLはどのように機能するのでしょうか?

犬、キツネ、牛の画像を含むデータセットがあると仮定しましょう。 CL の動作原理は、ノイズ ラベルと真のラベルの結合分布 (下の図の右側の Q 行列) を推定することです。

左: 確信度の高いカウントの例。右: 3 種類のデータセットのノイズ ラベルと真のラベルの結合分布の例。

次に、CL は、上図の左側の C マトリックスに示すように、「犬」クラスである可能性が高い「犬」というラベルの付いた画像を 100 枚カウントしました。

CL はまた、犬としてラベル付けされた画像のうちキツネである可能性が高いものを 56 枚、犬としてラベル付けされた画像のうち牛である可能性が高いものを 32 枚数えました。

中心的な考え方は、サンプルの予測確率が各クラスのしきい値より大きい場合、サンプルがこのしきい値のクラスに属していると確信できるということです。

さらに、各クラスのしきい値は、そのクラスのサンプルの平均予測確率です。

使いやすいクリーンラボ

前述したように、この記事で言及されている一般化された CL は、実際には Clean Lab Python パッケージです。クリーンラボと呼ばれる理由は、ラベルを「クリーン」にできるからです。

Clean Lab には次のような利点があります。

高速: シングルショット、非反復、並列アルゴリズム (例: ImageNet でラベル エラーを見つけるのに 1 秒未満)。
堅牢性: 不完全な確率推定を含むリスク最小化の保証。
汎用性: PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn など、あらゆる確率分類器に適用できます。
一意性: ノイズの多いラベルを使用したマルチクラス学習、または任意のデータセット/分類器のラベル エラーを見つけるための唯一のパッケージです。

たった 1 行のコードでタグ エラーを見つけます。

3 行のコードでノイズの多いラベルを学習しましょう。

次に、MNIST における Clean Lab のパフォーマンスを見てみましょう。このデータセットでは 50 個のラベル エラーを自動的に識別できます。

元の MNIST トレーニング データセット内のラベル エラーは、ランクプルーニング アルゴリズムを使用して識別されます。最も信頼性の低い 24 個のラベルを左から右に並べ、上から下に向かって信頼性 (特定のラベルに属する確率) が高くなるにつれて、青緑色で conf として示します。予測確率が最も高いラベルは緑色になります。明らかなエラーは赤で表示されます。

ポータル

プロジェクトアドレス:
https://github.com/cgnorthcutt/cleanlab/

自信を持って学ぶブログ:
https://l7.curtisnorthcutt.com/confident-learning

<<:  Uberの自動運転車による死亡事故の捜査に新たな進展:横断歩道の外を歩く歩行者を識別できない

>>:  新たなAIの冬に対する最後の防衛線

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

DeepMind: 人工知能と神経科学を組み合わせて好循環を実現

最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...

AIはデザインにおいて具体的にどのように使用されるのでしょうか?

人工知能は、過去数十年で最も大きな技術進歩の一つになりました。可能性は刺激的で無限であり、さまざまな...

月給5万ドルでこのホットなAI分野をマスターするには、これらの9冊の本を読むだけで十分です

はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...

人工知能は人々の日常の職業生活をどのように変えているのでしょうか?

[[280560]]世界が急速に発展する中、専門家は生産性と仕事の効率性の向上に努めなければなりま...

このバイオメディカル AI アプリケーションは信頼できますか?まずはシリコンバレーのトップベンチャーキャピタリストに6つの質問に答えてください

[[375650]]生物学分野における人工知能の応用は飛躍的に進歩しています。創薬、診断開発からヘル...

Google Brain Quoc、操作プリミティブから効率的なTransformerバリアントを検索するためのPrimerをリリース

[[426884]]モデルのパフォーマンスを向上させるには、パラメータを調整し、活性化関数を変更する...

AI監視の影響について知っておくべき3つのこと

IDC によると、世界のデータ量は 2018 年の 33ZB から 2025 年には 175ZB に...

Dubbo 負荷分散戦略コンシステントハッシュ

この記事では、主にコンシステント ハッシュ アルゴリズムの原理とデータ スキューの問題について説明し...

AI による自動ラベル付けの普及により、データラベル作成者の職は失われるのでしょうか?

データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...

テクノロジーのホットスポット: 言語的機械学習

[[186484]]昨年から半年以上機械学習を勉強してきましたが、そろそろ総括したいと思います。これ...

30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズム...

米軍のAIブラックテクノロジー:暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか?

[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...