3つの論文が「セマンティックセグメンテーションの最適化と評価」の問題を解決します！ルーヴェン、清華大学、オックスフォード大学が共同で新しい方法を提案

セマンティックセグメンテーションモデルの最適化によく使用される損失には、ソフト Jaccard 損失、ソフト Dice 損失、ソフト Tversky 損失などがありますが、これらはすべてソフトラベルと互換性がないため、いくつかの重要なトレーニング手法 (ラベルスムージング、知識蒸留、半教師あり学習、複数のアノテーターなど) をサポートできません。

一方、セマンティックセグメンテーションの評価指標として一般的に使用されているのは mAcc と mIoU ですが、これらはデータセット内のより大きなオブジェクトを優先する傾向があるため、モデルの安全性パフォーマンスの評価に重大な影響を与えます。

これらの問題に対処するために、ルーヴェン・カトリック大学と清華大学の研究者が最初に JDT 損失を提案しました。 JDT 損失は、Jaccard Metric 損失、Dice Semimetric 損失、および compatible Tversky 損失を含む、元の損失関数のバリエーションです。 JDT 損失は、ハードラベルでの元の損失関数と同等ですが、ソフトラベルと完全に互換性があります。

研究者らは、ラベルスムージング、知識蒸留、半教師あり学習、マルチアノテーターというソフトラベリングの 4 つの重要なシナリオに JDT 損失を適用し、モデルの精度とキャリブレーションを向上させる能力を実証しました。

写真

論文リンク: https://arxiv.org/pdf/2302.05666.pdf

写真

論文リンク: https://arxiv.org/pdf/2303.16296.pdf

さらに、研究者らはきめ細かい評価指標も提案した。これらのきめ細かい評価メトリックは、大規模なオブジェクトに対する偏りが少なく、より豊富な統計情報を提供し、モデルとデータセットの監査に貴重な洞察を提供できます。

さらに、研究者らは広範なベンチマーク研究を実施し、単一のメトリックに基づいて評価する必要がないことを強調し、きめ細かいメトリックを最適化する上でニューラルネットワーク構造と JDT 損失が重要な役割を果たすことを発見しました。

写真

論文リンク: https://arxiv.org/pdf/2310.19252.pdf

コードリンク: https://github.com/zifuwanggg/JDTLosses

既存の損失関数

Jaccard 指数とダイススコアは集合上で定義されているため、微分化できません。これらを微分可能にするために、現在 2 つの一般的な方法があります。1 つは、ソフトジャカード損失 (SJL)、ソフトダイス損失 (SDL)、ソフトトヴェルスキー損失 (STL) など、セットと対応するベクトルの Lp ノルムの関係を使用する方法です。

集合の大きさは対応するベクトルの L1 ノルムとして表され、2 つの集合の交差は対応する 2 つのベクトルの内積として表されます。もう 1 つは、Jaccard 指数のサブモジュラー特性を使用して、Lovasz-Softmax 損失 (LSL) などの集約関数に対して Lovasz 拡張を実行することです。

写真

これらの損失関数はすべて、ニューラルネットワークの出力 x が連続ベクトルであり、ラベル y が離散バイナリベクトルであると想定しています。ラベルがソフトラベルの場合、つまり y が離散バイナリベクトルではなく連続ベクトルになった場合、これらの損失関数は互換性がなくなります。

SJL を例に、単純な 1 ピクセルのケースを考えてみましょう。

写真

任意の y > 0 に対して、SJL は x = 1 のときに最小化され、x = 0 のときに最大化されることがわかります。損失関数は x = y のときに最小化される必要があるため、これは明らかに不合理です。

ソフトラベルと互換性のある損失関数

元の損失関数をソフトラベルと互換性のあるものにするには、2 つのセットの交差と結合を計算するときに、2 つのセットの対称差を導入する必要があります。

写真

2 つの集合の対称差は、対応する 2 つのベクトルの差の L1 ノルムとして表すことができることに注意してください。

写真

上記をまとめると、JDT 損失を提案しました。これらは、SJL の変種である Jaccard Metric Loss (JML)、SDL の変種である Dice Semimetric Loss (DML)、および STL の変種である compatible Tversky Loss (CTL) です。

写真

JDTの損失の性質

JDT 損失には次の特性があることを証明します。

プロパティ 1: JML はメトリックであり、DML はセミメトリックです。

プロパティ 2: y がハードラベルの場合、JML は SJL と同等、DML は SDL と同等、CTL は STL と同等です。

プロパティ 3: y がソフトラベルの場合、JML、DML、CTL はすべてソフトラベルと互換性があります。つまり、x = y ó f(x, y) = 0 です。

特性 1 のため、これらは Jaccard Metric 損失および Dice Semimetric 損失とも呼ばれます。プロパティ 2 は、ハードラベルのみを使用してトレーニングする一般的なシナリオでは、JDT 損失を直接使用して、変更を加えることなく既存の損失関数を置き換えることができることを示しています。

JDTロスの使い方

私たちは広範囲にわたる実験を行い、JDT 損失を使用する際の注意事項をまとめました。

注1: 評価指標に応じて対応する損失関数を選択してください。評価指標が Jaccard Index の場合は JML を選択し、評価指標が Dice Score の場合は DML を選択し、偽陽性と偽陰性に異なる重み付けをする場合は CTL を選択する必要があります。第二に、きめ細かい評価メトリックを最適化する場合、JDT 損失もそれに応じて変更する必要があります。

注 2: JDT 損失をピクセルレベルの損失関数 (クロスエントロピー損失、焦点損失など) と組み合わせます。この記事では、0.25CE + 0.75JDT が一般的に適切な選択であることがわかりました。

注 3: トレーニングには短いエポックを使用することをお勧めします。 JDT 損失を追加した後は、通常、クロスエントロピー損失トレーニングのエポックの半分だけが必要になります。

注 4: 複数の GPU で分散トレーニングを実行する場合、GPU 間に追加の通信がないと、JDT 損失によってきめ細かい評価メトリックが誤って最適化され、従来の mIoU でのパフォーマンスが低下します。

注 5: 極端に不均衡なデータセットでトレーニングする場合、JDL 損失はクラスごとに個別に計算され、平均化されるため、トレーニングが不安定になる可能性があることに注意してください。

実験結果

実験では、ハードラベルでトレーニングした場合、JDT 損失を追加すると、クロスエントロピー損失のベースラインと比較してモデルの精度が効果的に向上することが示されています。ソフトラベルを導入すると、モデルの精度とキャリブレーションがさらに向上します。

写真

この論文では、トレーニング中に JDT 損失項を追加するだけで、知識蒸留、半教師あり学習、およびセマンティックセグメンテーションのマルチアノテーターにおける SOTA を達成しています。

写真

既存の評価指標

セマンティックセグメンテーションはピクセルレベルの分類タスクであるため、各ピクセルの精度 (全体的なピクセル単位の精度 (Acc)) を計算できます。ただし、Acc は多数派クラスを優先する傾向があるため、PASCAL VOC 2007 では、各カテゴリのピクセル精度を個別に計算し、平均をとる評価メトリック、つまり平均ピクセル単位の精度 (mAcc) を採用しました。

ただし、mAcc では偽陽性が考慮されないため、PASCAL VOC 2008 以降は平均交差和集合 (データセットごとの mIoU、mIoUD) が評価指標として使用されています。 PASCAL VOC はセマンティックセグメンテーションタスクを導入した最初のデータセットであり、そこで使用される評価指標はその後のデータセットで広く採用されています。

具体的には、IoU は次のように記述できます。

写真

mIoUDを計算するには、まずデータセット全体のすべてのI写真の真陽性（TP）、偽陽性（FP）、偽陰性（FN）を各カテゴリcごとに数える必要があります。

写真

各クラスの値がわかったので、クラス全体の平均を取って、多数派クラスへの偏りを排除します。

写真

mIoUD はデータセット全体のすべてのピクセルの TP、FP、FN を合計するため、必然的に大きなサイズのオブジェクトに偏ります。

自動運転や医療用画像処理など、安全性が求められるアプリケーションシナリオでは、小さいながらも無視できないオブジェクトがしばしば存在します。

下の写真を見るとわかるように、写真によって車のサイズが明らかに異なります。したがって、mIoUD の大型オブジェクトに対する好みは、モデルの安全性能の評価に重大な影響を及ぼします。

きめ細かな評価指標

mIoUD問題を解決するために、きめ細かい評価指標を提案します。これらのメトリックは、写真ごとに IoU を個別に計算し、大きなオブジェクトの優先順位を効果的に下げることができます。

ミニUI

各カテゴリ c について、各写真 i の IoU を計算します。

写真

次に、各写真 i について、その写真に表示されたすべてのカテゴリの平均を計算します。

写真

最後に、すべての写真の値を平均します。

写真

iGO

同様に、各写真 i の各カテゴリ c の IoU を計算した後、各カテゴリ c が出現するすべての写真を平均化できます。

最後に、すべてのカテゴリの値を平均します。

すべてのカテゴリがすべての写真に表示されるわけではないため、下の図に示すように、カテゴリと写真の組み合わせによっては NULL 値が表示されます。 mIoUI を計算するときは、まずカテゴリの平均を計算し、次に写真を平均します。一方、mIoUC を計算するときは、まず写真の平均を計算し、次にカテゴリの平均を計算します。

その結果、mIoUI は頻繁に表示されるカテゴリ (下の図の C1 など) に偏る可能性があり、これは一般的に好ましいことではありません。しかし一方で、mIoUI を計算する場合、各写真には IoU 値があるため、モデルとデータセットの監査と分析に役立ちます。

写真

最悪のケースの評価指標

セキュリティに重点を置いた一部のアプリケーションシナリオでは、最悪のケースのセグメンテーション品質についてより懸念されることがよくあります。きめ細かいインジケーターの利点の 1 つは、対応する最悪のケースのインジケーターを計算できることです。 mIoUC を例にとると、同様の方法で、mIoUI の対応する最悪ケース指標を計算することもできます。

各カテゴリ c について、まず、そのカテゴリが含まれるすべての写真 (そのような写真が Ic 枚あると仮定) の IoU 値を昇順に並べ替えます。次に、q を 1 や 5 などの非常に小さい数に設定します。次に、並べ替えられた写真の最初の Ic * q% のみを使用して最終的な値を計算します。

写真

各クラス c の値がわかったので、前と同じようにクラス全体の平均を取って、mIoUC の最悪ケースのメトリックを取得できます。

実験結果

12 のデータセットで 15 のモデルをトレーニングしたところ、次の現象が見つかりました。

現象 1: すべての評価指標で最良の結果を達成できるモデルはありません。各評価指標は重点が異なるため、総合的な評価を行うためには複数の評価指標を同時に考慮する必要があります。

現象 2: 一部のデータセットには、ほぼすべてのモデルが非常に低い IoU 値を達成する写真がいくつかあります。その理由は、これらの写真は被写体が小さく、明暗のコントラストが強いため、本質的に難しいことと、これらの写真のラベル付けに問題があることが一因です。したがって、きめ細かい評価メトリックは、モデル監査 (モデルが間違いを犯すシナリオを見つける) とデータセット監査 (誤ったラベルを見つける) を実行するのに役立ちます。

現象 3: ニューラルネットワークの構造は、きめ細かい評価指標の最適化において重要な役割を果たします。一方では、ASPP（DeepLabV3およびDeepLabV3+で採用）などの構造によってもたらされる受容野の改善により、モデルは大型の物体を認識できるようになり、mIoUDの価値が効果的に向上します。他方では、エンコーダーとデコーダー間の長い接続（UNetおよびDeepLabV3+で採用）により、モデルは小型の物体を認識できるようになり、きめ細かい評価指標の価値が向上します。

現象 4: 最悪ケースの指標の値は、対応する平均指標の値よりもはるかに低くなります。次の表は、複数のデータセットにおける DeepLabV3-ResNet101 の mIoUC と対応する最悪ケースの指標値を示しています。将来検討する価値のある質問は、最悪のケースの指標の下でモデルのパフォーマンスを向上させるために、ニューラルネットワーク構造と最適化方法をどのように設計すべきかということです。

写真

現象 5: 損失関数は、きめ細かい評価指標を最適化する上で重要な役割を果たします。クロスエントロピー損失のベースラインと比較すると、次の表の (0, 0, 0) に示すように、評価指標が細粒度になると、対応する損失関数を使用することで、細粒度評価指標におけるモデルのパフォーマンスが大幅に向上します。たとえば、ADE20K では、JML とクロスエントロピー損失の mIoUC の差は 7% を超えます。

写真