MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルをトレーニングしているときに、次のような「気まずい」瞬間に遭遇したことはありませんか。

ようやく必要なデータセットを見つけましたが、それをクリックすると、サンプルのほとんどが同じタイプのオブジェクトであることがわかりました。 (たとえば、データセットのラベルは「動物」で、サンプルの 80% は「猫」です)

上記のデータセットでトレーニングされた動物検出モデルは、「猫」しか認識できない可能性があります。

この種のデータの不均衡 (1 つのラベルのラベルが多すぎる一方で、他のラベルのラベルが少なすぎる) は、機械学習では「ロングテール問題」と呼ばれます。

この問題により、データセット内のサンプル数が少ないオブジェクト (特に大規模なデータセット) の一般化効果は非常に悪くなります。

△長いしっぽのように

しかし、実際には、データセットには共通のカテゴリと共通でないカテゴリがほぼ必ず存在し、その中で共通でないカテゴリが識別する必要のあるターゲットになることがよくあります。

たとえば、自動運転認識モデルでは、AI が事前に起こりうる違反を予測し、適時に防止する必要があります。

ただし、自動運転データセット内のすべてのシーンが事故や違反であるということはあり得ません(ほとんどのシーンは依然として安全です)。

では、これらの「不均衡な」データセットは本当に使用できないのでしょうか?

MITの2人の博士課程の学生、Yang Yuzhe氏とZhi Xu氏が新しい解決策を考案し、その研究結果がNeurIPS 2020カンファレンスで発表されました。

見てみましょう。

既存のソリューション

実際、研究者たちは「不均衡な」データセットの問題を解決するためにさまざまな方法を試してきました。

主流のアルゴリズムだけでも、次の 7 つのカテゴリに分類されます。

再サンプリング: 少数のサンプルのオーバーサンプリングと多数のサンプルのアンダーサンプリングに分けられますが、どちらの方法にも欠点があります。その中で、オーバーサンプリングは少数のサンプルの過剰適合を引き起こしやすく、より堅牢で一般化しやすい特徴を学習することができず、不均衡なデータではパフォーマンスが低下します。一方、アンダーサンプリングは複数のサンプルで重大な情報損失を引き起こし、アンダーフィッティングにつながります。

データ合成: いくつかのサンプルに類似した新しいデータを生成します。 SMOTE メソッドを例にとると、選択された少数サンプルに対して、K 個の最近傍を使用して類似サンプルを選択し、サンプルの線形補間によって新しいサンプルを取得します。これはミックスアップ方式に似ているため、アンバランスなミックスアップバージョンも存在します。

再重み付け: 異なるクラス (または異なるサンプル) に異なる重みを割り当てます。その中で、重量は適応可能です。この方法には、カテゴリ数の逆数の重み付け、有効なサンプル数の重み付け、最良の分類結果を得るためにサンプル数を最適化する際の損失の重み付けなど、さまざまなバリエーションが生まれています。

転移学習: マルチクラス サンプルと少数クラス サンプルを別々にモデル化し、学習したマルチクラス サンプルの情報/表現/知識を少数クラス サンプルに転送して使用します。

メトリック学習: 少数クラスの近くの境界/エッジをより適切にモデル化するために、より優れた埋め込みを学習したいと考えています。

メタ学習/ドメイン適応: 先頭データと末尾データを別々に処理し、それらの重み付けを変更する方法を適応的に学習するか、ドメイン適応問題として計画します。

表現と分類器の分離: 研究により、特徴学習と分類器学習を分離し、不均衡な学習を 2 段階に分割し、特徴学習段階で通常のサンプリングを実行し、分類器学習段階でバランスのとれたサンプリングを実行すると、より優れたロングテール学習結果が得られることがわかりました。これは現在、最良のロングテール分類アルゴリズムです。

ただし、サンプルが極端に不均衡な場合には、これらは適用できません。サンプル数が少ない場合、モデルのパフォーマンスの違いは避けられません。

鍵となるのは、ここでの「不均衡」をどう理解するかということでしょうか?

「アンバランス」というレッテルの本質的な価値

本質的に不均衡なデータ ラベルの値はありますか?

研究では、これらの不均衡なデータラベルは「諸刃の剣」のようなものだということがわかった。

一方で、これらのラベルは非常に貴重な監督情報を提供します。

教師あり学習は、不均衡でラベルがすべて「正の値」を持つ場合でも、特定のタスクでは教師なし学習よりも正確であることがよくあります。

一方、ラベルの不均衡により、トレーニング中にモデルにラベルバイアスが課され、決定領域でメインカテゴリが大きく影響を受けることになります。

研究者たちは、ラベルのバランスが取れていなくても、その価値を十分に活用してモデル分類の精度を大幅に向上させることができると考えています。

まず「ラベル情報を破棄」し、自己教師あり事前トレーニングを通じてモデルが適切な開始表現を学習できるようにすれば、分類精度を効果的に向上できるでしょうか?

半教師あり事前学習から自己教師あり事前学習へ

著者らは最初に半教師あり不均衡学習を実験した。

実験により、ラベルなしデータを使用した半教師あり学習により分類結果が大幅に改善されることが示されました。

図からわかるように、ラベルのないデータは、より明確なクラス境界をモデル化し、クラス間の分離を促進するのに役立ちます。

これは、末尾クラスのサンプルが配置されている領域のデータ密度が低いためです。学習プロセス中に、モデルは低密度領域をうまくモデル化できず、一般化が不十分になります。

ラベルのないデータを使用すると、低密度領域のサンプル サイズを効果的に増やすことができ、モデルが境界をより適切にモデル化できるようになります。

ただし、半教師あり学習の使用が難しい極端なケースでは、依然として自己教師あり学習が必要になります。

これは、自己監督によって適切な初期化が生成されると、ネットワークは事前トレーニング タスクの恩恵を受け、より一般的な表現を学習できるためです。

[[376121]]

実験もこの点を証明しています。

通常の事前トレーニングの決定境界はヘッドクラスのサンプルによって大きく変更され、テールクラスのサンプルの「漏れ」が大量に発生し、一般化がうまくいかなくなります。

自己教師あり事前トレーニングを使用すると、学習したサンプルは明確な分離効果を維持し、テールクラスサンプルの漏洩を減らすことができます。

つまり、自己教師を用いてラベルバイアスを克服するためには、ロングテール学習の第一段階で、ラベル情報を放棄し、自己教師による事前学習を行う必要があるのです。

この段階の後は、任意の標準的なトレーニング方法を使用して最終モデルをトレーニングできます。 (例えば、以前に使用された転移学習、再重み付け、ドメイン適応など)

この方法により、ロングテールの問題をより適切に解決できます。

著者について

論文の筆頭著者であるヤン・ユジェ氏は現在、MITでコンピューターサイエンスの博士課程3年生であり、北京大学で学士号を取得している。

[[376122]]

現在、Yang Yuzhe は、ヘルスケア分野への応用を目的とした学習ベースのワイヤレス センシング技術と、機械学習と強化学習の堅牢性に主に焦点を当てた機械学習という 2 つの主要な研究分野に取り組んでいます。

論文の2番目の著者であるZhi Xuは、イリノイ大学アーバナ・シャンペーン校を卒業し、学士号を取得しており、MITの博士課程の学生でもあります。彼の研究対象は、機械学習の理論と最新のアプリケーションです。現在は、強化学習の安定性、効率性、構造、複雑性に焦点を当てています。

[[376123]]

論文の宛先:

出典: http://arxiv.org/abs/2006.07529

プロジェクトアドレス:

https://github.com/YyzHarry/imbalanced-semi-self

論文の解釈@Yang Yuzhe:

https://zhuanlan.zhihu.com/p/259710601

<<:  PyTorch「錬金術」の速度を向上させるにはどうすればいいですか?この人は直接変更できる17の方法をまとめました

>>:  人工知能の知られざる12の秘密

ブログ    
ブログ    
ブログ    

推薦する

Keras よりも優れた機械学習「モデル パッケージ」: コード 0 個でモデルの作成を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

表現学習: 自然言語のための高度なディープラーニング

表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデー...

機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがま...

アリババ人工知能ラボ:テクノロジーがあなたの生活をどう変えるかを見てみましょう

[PConline News] ジャカルタアジア競技大会が閉幕し、アジア競技大会は正式に杭州タイムに...

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

AIが建物をスマートにする5つの方法

[[407368]]今の世界は30年前とは大きく異なります。この変化の理由の一部は技術の発展です。今...

...

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシ...

...

パナソニック、カナダ事業所への標的型サイバー攻撃を確認

「当社はサイバーセキュリティの専門家とサービスプロバイダーの協力を得て、問題解決に向けて直ちに行動を...

...

ドローンの用途は急速に拡大しています。これらの 4 つの驚くべき用途をご存知ですか?

近年、ドローン産業の発展は急速です。業界の段階的な改善と成熟により、製品の種類、数量、市場規模の継続...

開発のボトルネックを打破し、人工知能の未来は何に頼って「はしごを登る」のでしょうか?

[[411053]]ファーウェイは7月9日、2021年世界人工知能大会およびアセンド人工知能サミッ...

...

2021年の機械学習ライフサイクル

機械学習プロジェクトを実際に完了するにはどうすればよいでしょうか? 各ステップを支援するツールにはど...