マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

これはおそらく、マルチラベル分類のための最も実用的なヒントです。

ご存知のとおり、バイナリ分類タスクは、与えられた入力を 0 と 1 の 2 つのカテゴリに分類することを目的としています。マルチラベル分類 (マルチターゲット分類とも呼ばれます) は、指定された入力に基づいて、複数のバイナリ分類ターゲットを一度に予測します。たとえば、モデルは、与えられた画像が犬か猫かを予測したり、毛が長いか短いかを予測したりすることができます。

マルチ分類タスクでは、予測ターゲットは相互に排他的であり、1 つの入力が複数のカテゴリに対応する可能性があることを意味します。この記事では、マルチラベル分類モデルのパフォーマンスを向上させるためのヒントをいくつか紹介します。

モデル評価関数

各列 (クラスラベル) でモデル評価関数を計算し、平均スコアを取得することで、ほとんどのバイナリ分類評価関数をマルチラベル分類タスクに使用できます。対数損失またはバイナリクロスエントロピーは、そのような評価関数の 1 つです。クラスの不均衡現象をより適切に考慮するために、評価関数として ROC-AUC を使用できます。

図1: ROC-AUC曲線

モデリングのヒント

この記事では、特徴を構築する手法を紹介する前に、マルチラベル分類シナリオに適したモデルを設計するためのヒントをいくつか紹介します。

ほとんどの非ニューラルネットワークモデルの場合、唯一の選択肢は、各ターゲットの分類器をトレーニングし、予測を融合することです。この目的のために、「scikit-learn」ライブラリは、シンプルなラッパークラス「OneVsRestClassifier」を提供します。このラッパークラスにより分類器はマルチラベルタスクを実行できるようになりますが、次の欠点があるためこのアプローチを採用すべきではありません。(1) ターゲットごとに新しいモデルをトレーニングするため、トレーニング時間が比較的長くなります。（２）モデルは異なるラベル間の関係やラベルの相関関係を学習できない。

2 番目の問題は、2 段階のトレーニングプロセスを実行することで解決できます。その中で、ターゲットの予測結果と元の特徴を第 2 段階のトレーニングの入力として組み合わせます。この方法の欠点は、トレーニングが必要なモデルの数が以前の 2 倍になるため、トレーニング時間が大幅に増加することです。ニューラルネットワーク (NN) は、ラベルの数がネットワーク内の出力ニューロンの数と等しいこのシナリオに適しています。任意のバイナリ分類損失をニューラルネットワークモデルに直接適用することができ、モデルはすべてのターゲットを出力します。この時点では、1 つのモデルをトレーニングするだけで済み、ネットワークは出力ニューロンを通じて異なるラベル間の相関関係を学習できるため、前述の非ニューラルネットワークモデルの 2 つの問題が解決されます。

図2: ニューラルネットワーク

教師あり特徴選択法

特徴エンジニアリングまたは特徴選択を開始する前に、特徴を正規化および標準化する必要があります。「scikit-learn」ライブラリの「Quantile Transformer」を使用すると、データの歪度が軽減され、特徴が正規分布に従うようになります。さらに、平均値を減算し、標準偏差で割ることで特徴量を標準化できます。このプロセスは、「Quantile Transformer」と同様の作業を完了し、データを変換してより堅牢にすることを目的としています。ただし、「Quantile Transformer」の計算オーバーヘッドは高くなります。

ほとんどのアルゴリズムは単一の目的のために設計されているため、教師あり特徴選択方法の使用は少し困難です。この問題を解決するには、マルチラベル分類タスクをマルチクラス分類問題に変換します。 Label Powerset は、トレーニングデータ内の各一意のラベルの組み合わせをクラスに変換する、人気のあるソリューションの 1 つです。「scikit-multilearn」ライブラリには、このアプローチを実装するためのツールが含まれています。

図3: ラベルパワーセット法

変換が完了したら、「情報ゲイン」や「カイ二乗」などの方法を使用して特徴を選択できます。このアプローチは機能しますが、数百、あるいは数千もの異なる固有のタグの組み合わせを処理するのは困難です。この場合、教師なし特徴選択方法を使用する方が適切である可能性があります。

教師なし特徴選択法

教師なし学習法ではラベルに依存しないため、マルチラベルタスクの特性を考慮する必要はありません。典型的な教師なし特徴選択方法には以下のものがあります。

主成分分析 (PCA) またはその他の因子分析方法。このタイプの方法は、特徴内の冗長な情報を削除し、モデルに役立つ特徴を抽出します。 PCA を使用する前に、各機能が分析に均等に寄与するようにデータを正規化してください。 PCA のもう 1 つのコツは、簡略化されたデータを直接使用するのではなく、アルゴリズムからの簡略化されたデータを元のデータと連結して、モデルがオプションで使用できる追加情報とすることができることです。
差異しきい値。これは、特徴の次元を削減するシンプルで効果的な方法です。分散性や離散性が低い特徴は破棄します。これは、選択のためのより良いしきい値を見つけることによって最適化できます。0.5 は適切な開始しきい値です。
クラスタリング。入力データに基づいてクラスターを作成することによって新しい機能が構築され、対応するクラスターが入力データの各行に新しい機能の列として割り当てられます。

図4: K平均法クラスタリング

アップサンプリング方法

分類データのバランスが非常に悪い場合は、アップサンプリング手法を使用して希少クラスの人工サンプルを生成し、モデルを希少クラスに集中させることができます。マルチラベルシナリオで新しいサンプルを作成するには、マルチラベル合成少数クラスオーバーサンプリング手法 (MLSMOTE) を使用できます。

コードリンク: https://github.com/niteshsukhwani/MLSMOTE

このメソッドは、元の SMOTE メソッドから変更されています。少数派クラスのデータを生成し、少数派ラベルを割り当てた後、隣接するデータポイントで各ラベルが出現する回数をカウントして他の関連ラベルも生成し、統計の半分よりも頻繁に出現するデータポイントのラベルを保持します。

<<: 「中国版ダヴィンチ」ロボットが人気！ブドウの皮を縫うだけでなく、このような創造的な作業もあります

>>: TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

ブログ

マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

モデル評価関数

モデリングのヒント

教師あり特徴選択法

教師なし特徴選択法

アップサンプリング方法

スーパーマリオをプレイする3本の機械指がサイエンス誌に掲載された

AIの開発パターンは「データ」から「知識」へと進化している

AIとデータが未来のスマートシティを強化する5つの方法

ChatGPT コンテキストが 64K オープンソースモデルを圧倒!カリフォルニア大学バークレー校: オープンソースモデルの機能は深刻な「誤ったラベル付け」を受けている | 最新のハードコア評価が暴露される

マイクロソフトはWindows 11の組み込みアプリにAI機能を導入すると報じられている。写真、スクリーンショット、描画などに新しい機能が追加される。

ノーコードプラットフォームトップ 8: 2020 年に見逃せない機械学習プラットフォーム

推薦する

李徳義：自動運転のバブルを破るには、技術、市場、エコロジー、コストを無視することはできない

家庭では人工知能がどのように活用されているのでしょうか?

「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

2020 年の世界トップ 10 AI ガバナンスイベントと変革トレンドの展望

北京冬季オリンピックのブラックテクノロジーが開会式から暴露された！日本のネットユーザー：人類は過去6か月間で技術の面で大きな進歩を遂げた

滴滴出行のスマート交通建設における3つの短期目標：信号機の改善、バスシステムのオンライン化、予測スケジュール

科学：ChatGPTは労働者と非労働者の間の格差を縮小する

推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ディープラーニングの限界を理解していますか?

顔認識は「ワーテルロー」に見舞われ、ビッグデータが将来の方向性を明らかに

2020 年以降のソフトウェア開発のトレンド

EfficientViT-SAM: 精度を変えずにその場で離陸!