MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルをトレーニングしているときに、次のような「気まずい」瞬間に遭遇したことはありませんか。

ようやく必要なデータセットを見つけましたが、それをクリックすると、サンプルのほとんどが同じタイプのオブジェクトであることがわかりました。 (たとえば、データセットのラベルは「動物」で、サンプルの 80% は「猫」です)

上記のデータセットでトレーニングされた動物検出モデルは、「猫」しか認識できない可能性があります。

この種のデータの不均衡 (1 つのラベルのラベルが多すぎる一方で、他のラベルのラベルが少なすぎる) は、機械学習では「ロングテール問題」と呼ばれます。

この問題により、データセット内のサンプル数が少ないオブジェクト (特に大規模なデータセット) の一般化効果は非常に悪くなります。

△長いしっぽのように

しかし、実際には、データセットには共通のカテゴリと共通でないカテゴリがほぼ必ず存在し、その中で共通でないカテゴリが識別する必要のあるターゲットになることがよくあります。

たとえば、自動運転認識モデルでは、AI が事前に起こりうる違反を予測し、適時に防止する必要があります。

ただし、自動運転データセット内のすべてのシーンが事故や違反であるということはあり得ません（ほとんどのシーンは依然として安全です）。

では、これらの「不均衡な」データセットは本当に使用できないのでしょうか?

MITの2人の博士課程の学生、Yang Yuzhe氏とZhi Xu氏が新しい解決策を考案し、その研究結果がNeurIPS 2020カンファレンスで発表されました。

見てみましょう。

既存のソリューション

実際、研究者たちは「不均衡な」データセットの問題を解決するためにさまざまな方法を試してきました。

主流のアルゴリズムだけでも、次の 7 つのカテゴリに分類されます。

再サンプリング: 少数のサンプルのオーバーサンプリングと多数のサンプルのアンダーサンプリングに分けられますが、どちらの方法にも欠点があります。その中で、オーバーサンプリングは少数のサンプルの過剰適合を引き起こしやすく、より堅牢で一般化しやすい特徴を学習することができず、不均衡なデータではパフォーマンスが低下します。一方、アンダーサンプリングは複数のサンプルで重大な情報損失を引き起こし、アンダーフィッティングにつながります。

データ合成: いくつかのサンプルに類似した新しいデータを生成します。 SMOTE メソッドを例にとると、選択された少数サンプルに対して、K 個の最近傍を使用して類似サンプルを選択し、サンプルの線形補間によって新しいサンプルを取得します。これはミックスアップ方式に似ているため、アンバランスなミックスアップバージョンも存在します。

再重み付け: 異なるクラス (または異なるサンプル) に異なる重みを割り当てます。その中で、重量は適応可能です。この方法には、カテゴリ数の逆数の重み付け、有効なサンプル数の重み付け、最良の分類結果を得るためにサンプル数を最適化する際の損失の重み付けなど、さまざまなバリエーションが生まれています。

転移学習: マルチクラスサンプルと少数クラスサンプルを別々にモデル化し、学習したマルチクラスサンプルの情報/表現/知識を少数クラスサンプルに転送して使用します。

メトリック学習: 少数クラスの近くの境界/エッジをより適切にモデル化するために、より優れた埋め込みを学習したいと考えています。

メタ学習/ドメイン適応: 先頭データと末尾データを別々に処理し、それらの重み付けを変更する方法を適応的に学習するか、ドメイン適応問題として計画します。

表現と分類器の分離: 研究により、特徴学習と分類器学習を分離し、不均衡な学習を 2 段階に分割し、特徴学習段階で通常のサンプリングを実行し、分類器学習段階でバランスのとれたサンプリングを実行すると、より優れたロングテール学習結果が得られることがわかりました。これは現在、最良のロングテール分類アルゴリズムです。

ただし、サンプルが極端に不均衡な場合には、これらは適用できません。サンプル数が少ない場合、モデルのパフォーマンスの違いは避けられません。

鍵となるのは、ここでの「不均衡」をどう理解するかということでしょうか?