MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルをトレーニングしているときに、次のような「気まずい」瞬間に遭遇したことはありませんか。

ようやく必要なデータセットを見つけましたが、それをクリックすると、サンプルのほとんどが同じタイプのオブジェクトであることがわかりました。 (たとえば、データセットのラベルは「動物」で、サンプルの 80% は「猫」です)

上記のデータセットでトレーニングされた動物検出モデルは、「猫」しか認識できない可能性があります。

この種のデータの不均衡 (1 つのラベルのラベルが多すぎる一方で、他のラベルのラベルが少なすぎる) は、機械学習では「ロングテール問題」と呼ばれます。

この問題により、データセット内のサンプル数が少ないオブジェクト (特に大規模なデータセット) の一般化効果は非常に悪くなります。

△長いしっぽのように

しかし、実際には、データセットには共通のカテゴリと共通でないカテゴリがほぼ必ず存在し、その中で共通でないカテゴリが識別する必要のあるターゲットになることがよくあります。

たとえば、自動運転認識モデルでは、AI が事前に起こりうる違反を予測し、適時に防止する必要があります。

ただし、自動運転データセット内のすべてのシーンが事故や違反であるということはあり得ません(ほとんどのシーンは依然として安全です)。

では、これらの「不均衡な」データセットは本当に使用できないのでしょうか?

MITの2人の博士課程の学生、Yang Yuzhe氏とZhi Xu氏が新しい解決策を考案し、その研究結果がNeurIPS 2020カンファレンスで発表されました。

見てみましょう。

既存のソリューション

実際、研究者たちは「不均衡な」データセットの問題を解決するためにさまざまな方法を試してきました。

主流のアルゴリズムだけでも、次の 7 つのカテゴリに分類されます。

再サンプリング: 少数のサンプルのオーバーサンプリングと多数のサンプルのアンダーサンプリングに分けられますが、どちらの方法にも欠点があります。その中で、オーバーサンプリングは少数のサンプルの過剰適合を引き起こしやすく、より堅牢で一般化しやすい特徴を学習することができず、不均衡なデータではパフォーマンスが低下します。一方、アンダーサンプリングは複数のサンプルで重大な情報損失を引き起こし、アンダーフィッティングにつながります。

データ合成: いくつかのサンプルに類似した新しいデータを生成します。 SMOTE メソッドを例にとると、選択された少数サンプルに対して、K 個の最近傍を使用して類似サンプルを選択し、サンプルの線形補間によって新しいサンプルを取得します。これはミックスアップ方式に似ているため、アンバランスなミックスアップバージョンも存在します。

再重み付け: 異なるクラス (または異なるサンプル) に異なる重みを割り当てます。その中で、重量は適応可能です。この方法には、カテゴリ数の逆数の重み付け、有効なサンプル数の重み付け、最良の分類結果を得るためにサンプル数を最適化する際の損失の重み付けなど、さまざまなバリエーションが生まれています。

転移学習: マルチクラス サンプルと少数クラス サンプルを別々にモデル化し、学習したマルチクラス サンプルの情報/表現/知識を少数クラス サンプルに転送して使用します。

メトリック学習: 少数クラスの近くの境界/エッジをより適切にモデル化するために、より優れた埋め込みを学習したいと考えています。

メタ学習/ドメイン適応: 先頭データと末尾データを別々に処理し、それらの重み付けを変更する方法を適応的に学習するか、ドメイン適応問題として計画します。

表現と分類器の分離: 研究により、特徴学習と分類器学習を分離し、不均衡な学習を 2 段階に分割し、特徴学習段階で通常のサンプリングを実行し、分類器学習段階でバランスのとれたサンプリングを実行すると、より優れたロングテール学習結果が得られることがわかりました。これは現在、最良のロングテール分類アルゴリズムです。

ただし、サンプルが極端に不均衡な場合には、これらは適用できません。サンプル数が少ない場合、モデルのパフォーマンスの違いは避けられません。

鍵となるのは、ここでの「不均衡」をどう理解するかということでしょうか?

「アンバランス」というレッテルの本質的な価値

本質的に不均衡なデータ ラベルの値はありますか?

研究では、これらの不均衡なデータラベルは「諸刃の剣」のようなものだということがわかった。

一方で、これらのラベルは非常に貴重な監督情報を提供します。

教師あり学習は、不均衡でラベルがすべて「正の値」を持つ場合でも、特定のタスクでは教師なし学習よりも正確であることがよくあります。

一方、ラベルの不均衡により、トレーニング中にモデルにラベルバイアスが課され、決定領域でメインカテゴリが大きく影響を受けることになります。

研究者たちは、ラベルのバランスが取れていなくても、その価値を十分に活用してモデル分類の精度を大幅に向上させることができると考えています。

まず「ラベル情報を破棄」し、自己教師あり事前トレーニングを通じてモデルが適切な開始表現を学習できるようにすれば、分類精度を効果的に向上できるでしょうか?

半教師あり事前学習から自己教師あり事前学習へ

著者らは最初に半教師あり不均衡学習を実験した。

実験により、ラベルなしデータを使用した半教師あり学習により分類結果が大幅に改善されることが示されました。

図からわかるように、ラベルのないデータは、より明確なクラス境界をモデル化し、クラス間の分離を促進するのに役立ちます。

これは、末尾クラスのサンプルが配置されている領域のデータ密度が低いためです。学習プロセス中に、モデルは低密度領域をうまくモデル化できず、一般化が不十分になります。

ラベルのないデータを使用すると、低密度領域のサンプル サイズを効果的に増やすことができ、モデルが境界をより適切にモデル化できるようになります。

ただし、半教師あり学習の使用が難しい極端なケースでは、依然として自己教師あり学習が必要になります。

これは、自己監督によって適切な初期化が生成されると、ネットワークは事前トレーニング タスクの恩恵を受け、より一般的な表現を学習できるためです。

[[376121]]

実験もこの点を証明しています。

通常の事前トレーニングの決定境界はヘッドクラスのサンプルによって大きく変更され、テールクラスのサンプルの「漏れ」が大量に発生し、一般化がうまくいかなくなります。

自己教師あり事前トレーニングを使用すると、学習したサンプルは明確な分離効果を維持し、テールクラスサンプルの漏洩を減らすことができます。

つまり、自己教師を用いてラベルバイアスを克服するためには、ロングテール学習の第一段階で、ラベル情報を放棄し、自己教師による事前学習を行う必要があるのです。

この段階の後は、任意の標準的なトレーニング方法を使用して最終モデルをトレーニングできます。 (例えば、以前に使用された転移学習、再重み付け、ドメイン適応など)

この方法により、ロングテールの問題をより適切に解決できます。

著者について

論文の筆頭著者であるヤン・ユジェ氏は現在、MITでコンピューターサイエンスの博士課程3年生であり、北京大学で学士号を取得している。

[[376122]]

現在、Yang Yuzhe は、ヘルスケア分野への応用を目的とした学習ベースのワイヤレス センシング技術と、機械学習と強化学習の堅牢性に主に焦点を当てた機械学習という 2 つの主要な研究分野に取り組んでいます。

論文の2番目の著者であるZhi Xuは、イリノイ大学アーバナ・シャンペーン校を卒業し、学士号を取得しており、MITの博士課程の学生でもあります。彼の研究対象は、機械学習の理論と最新のアプリケーションです。現在は、強化学習の安定性、効率性、構造、複雑性に焦点を当てています。

[[376123]]

論文の宛先:

出典: http://arxiv.org/abs/2006.07529

プロジェクトアドレス:

https://github.com/YyzHarry/imbalanced-semi-self

論文の解釈@Yang Yuzhe:

https://zhuanlan.zhihu.com/p/259710601

<<:  PyTorch「錬金術」の速度を向上させるにはどうすればいいですか?この人は直接変更できる17の方法をまとめました

>>:  人工知能の知られざる12の秘密

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2023 年の AI セキュリティに関するトップ 10 の話題

生成 AI は 2022 年末までに世界を席巻し、2023 年には AI 分野が脚光を浴びることにな...

MITの自律ロボットはUVC光を使用して表面のコロナウイルス粒子を殺します

MITの研究者らは新型コロナウイルスとの戦いに役立つ新しいロボットを開発した。この自律型機械は、微生...

.Net Framework ガベージ コレクション固有のアルゴリズムの詳細な説明

.Net Framework は、Microsoft が提供する .NET 開発に基づいた基本環境で...

顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

8月8日、IT Homeは中国サイバースペース事務局から、顔認識技術の応用を標準化するため、「中華人...

市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...

TIC 2018で人工知能が熱く議論され、AIが応用段階に突入

[51CTO.com からのオリジナル記事] クラウド コンピューティング、ビッグ データ、ブロック...

国際ビデオ品質評価アルゴリズムコンテスト:Volcano Engine が優勝

7月26日、マルチメディア分野の世界最高峰の学術会議であるICME 2021で開催された「圧縮UGC...

...

5四半期連続で前年同期比で減少: AIはデルの危機を逆転できるか?

企業の時代はなく、時代の企業だけがある!新たなトレンドに直面しても、古い大手企業は反応が遅く、固定観...

あるプログラマーは仕事を辞めて人工知能に転職した。4か月後に後悔し、多くの挫折を経験した。

転職すると3ヶ月貧乏になるが、転職すると3年間貧乏になるという諺があるようです。科学的な根拠はありま...

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...

すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...

...

マーケターが人工知能を採用する時が来た

[[275753]] [51CTO.com クイック翻訳] あらゆる業界の先進的な企業は、人工知能を...