誰かが1週間でPASCALデータセットの17,120枚の画像をクリーンアップし、mAPを13%向上させました。

ある研究では、PASCAL VOC 2012 データセット内の 17,120 枚の画像を 1 週間でクリーンアップする手法を使用したところ、PASCAL 内の画像の 6.5% にさまざまなエラー (ラベルの欠落、クラスラベルの誤りなど) があることがわかったと主張しています。彼らはこれらのバグを記録的な速さで修正し、モデルのパフォーマンスを 13% mAP 向上させました。

多くの場合、モデルのパフォーマンスが低下する原因は、トレーニングデータの品質が低いことにあります。 2022 年になっても、データは企業にとって最も重要な資産の 1 つであるにもかかわらず、開発者はデータ品質の低さに悩まされることがよくあります。この記事では、ドイツのベルリンに拠点を置き、ビジュアル AI 実践者向けの次世代注釈ツールを提供する Hasty が、データをより迅速かつ効率的にクリーニングすることで、ビジュアル AI ソリューションの開発を簡素化し、リスクを軽減したいと考えています。

同社は、Hasty エコシステム (Hasty は同社が開発したエンドツーエンドの AI プラットフォームで、ML エンジニアやドメインエキスパートがコンピュータービジョンモデルをより迅速に提供できるようにし、革新的な製品やサービスの市場投入までの時間を短縮します) の一部として AI コンセンサススコアリング (AI CS) 機能を開発しました。この機能により、手動のコンセンサススコアリングは過去のものとなり、AI が品質管理プロセスに統合され、ユーザーがデータを追加するにつれてプロセスが高速化、低コスト化、拡張性が向上します。

この論文では、研究者が AI CS 機能を使用して、最も人気のある物体検出ベンチマークデータセット PASCAL VOC 2012 を改善、更新、アップグレードします。

まず、物体検出やセマンティックセグメンテーションなどの視覚 AI タスクのベンチマークモデルとして使用できる有名な学術データセットである PASCAL について簡単に紹介します。 PASCALは10年以上の歴史があり、現在でも広く使われています。過去4年間で160本の論文で使用されています。

PASCAL は過去 10 年間変更されておらず、世界中のチームが科学研究のためにデータセットを「そのまま」維持してきました。しかし、このデータセットはかなり昔に注釈が付けられたもので、当時のアルゴリズムは今日ほど正確ではなく、注釈の要件もそれほど厳しくなかったため、多くのエラーが発生していました。たとえば、次の図に示すように、馬は前景にあり、見えていますが、馬のラベルがありません。これらの品質の問題は、PASCAL ではよく見られます。

PASCAL データセットを手動で処理すると、コストと時間がかかります。この研究では、品質管理に AI を使用し、PASCAL の品質を向上させます。目的は、データ品質が十分に高ければモデルのパフォーマンスが向上するかどうかを確認することです。このテストを実行するために、次の手順で実験を設定しました。

Hasty で AI コンセンサススコアリングを使用して PASCAL VOC 2012 をクリーンアップします。
Faster R-CNN アーキテクチャを使用して、オリジナルの PASCAL トレーニングセットでカスタムモデルをトレーニングします。
同じ Faster R-CNN アーキテクチャとパラメータを使用して、クリーンアップされた PASCAL トレーニングセットでカスタムモデルを準備します。
実験後、結論が導き出されました。

以下は、一人称視点でまとめられ整理された実験プロセスです。どのように実行され、どのような結果になったかを見てみましょう。

クリーニング PASCAL VOC 2012

私たちの最優先事項はデータセットを改善することです。 Kaggle からデータセットを取得し、それを Hasty プラットフォームにアップロードし、注釈をインポートして、2 回の AI CS 実行をスケジュールしました。 AI CS 機能に馴染みのない方のために説明すると、この機能はクラス、オブジェクト検出、インスタンスセグメンテーションのレビューをサポートしており、注釈付きのクラスラベル、境界ボックス、ポリゴン、マスクをチェックします。レビュー時に、AI CS は余分なラベルや欠落したラベル、アーティファクト、間違ったカテゴリの注釈、境界ボックスや不正確な形状のインスタンスなどを探します。

PASCAL VOC 2012 には、20 の異なるカテゴリに 17,120 枚の画像と約 37,700 個のラベルが含まれています。タスクのオブジェクト検出とクラスレビューを実行したところ、潜在的なエラーは 28,900 (OD) と 1.320 (Class) でした。

AI CS を使用すると、潜在的な問題を検出できます。そうすれば、バグの追跡に何日も何週間も費やすのではなく、バグの修正に集中できるようになります。

私たちは、これらの潜在的なエラーをチェックして修正し、最も重要なことは、修正された注釈が元の注釈よりも正確になることを望んでいます。具体的には以下が含まれます:

AI CS が潜在的なエラーを検出すると、各画像で発生する可能性のあるすべてのエラーを修正しようとします。
考えられるすべてのオブジェクトに注釈を付けるつもりはなく、注釈が付かなかったオブジェクトが前景またはズームなしで肉眼で見える場合は、注釈を付けました。
境界ボックスをピクセル単位で完璧に作成するよう努めます。
また、元のデータセットに特性があるためクラスオブジェクトが注釈付けされていないデータセットの一部にも注釈付けします。

上記の目標を念頭に置いて、まずクラスレビューを実行し、既存の注釈付きクラスラベルを調べて、潜在的なエラーを特定しようとしました。 AI CS の推奨事項の 60% 以上は、元のデータセットでは明らかではなかった問題を特定するのに役立つため、有用です。たとえば、注釈者はソファと椅子を混同しました。この問題に対処するために、データセット全体を 500 を超えるタグで再ラベル付けします。

オリジナルの注釈の例。写真にはソファーが 2 つとアームチェアが 2 つあります。 2 つのアームチェアのうち 1 つはソファーとしてラベル付けされており、もう 1 つは椅子としてラベル付けされています。

改訂後、アームチェアは椅子、ソファはソファになります。

OD および Class レビューを分析すると、PASCAL の最も顕著な問題は、誤分類された注釈、奇妙な境界ボックス、または余分なラベルではないことがわかりました。最大の問題は、潜在的な注釈がほとんどないことです。正確な数を見積もることは困難ですが、ラベルを付ける必要があるラベルのないオブジェクトは数千あると感じています。

OD はデータセットを監査し、余分なラベルや欠落したラベル、誤った形状の境界ボックスを探します。欠落している注釈がすべて AI CS によって強調表示されるわけではありませんが、少なくとも 1 つのラベルが欠落している AI CS によって予測されたすべての画像を改善するために最善を尽くしました。その結果、OD レビューにより、1,140 枚の画像で 6,600 個の欠落した注釈を見つけることができました。

すべての提案を確認してデータセットをクリーンアップするのに約 80 時間かかりましたが、これは驚くべき結果です。

生の PASCAL でカスタムモデルをトレーニングする

前述のように、2 セットの実験を設定し、2 つのモデルをトレーニングすることにしました。1 つはオリジナルの PASCAL で、もう 1 つは PASCAL のクリーンバージョンでトレーニングします。ニューラルネットワークのトレーニングを実行するために、Hasty の別の機能である Model Playground を使用しました。これは、アーキテクチャと各主要なニューラルネットワークパラメータを制御しながら、簡素化された UI で AI モデルを構築できるコーディング不要のソリューションです。

この作業全体を通して、タスクに最適なハイパーパラメータを見つけるために、モデルを何度も反復しました。最終的に、私たちは次のことを選択しました。

ResNet101 FPN をバックボーンとする高速 R-CNN アーキテクチャ。
R101-FPN COCO 重みを使用してモデルを初期化します。
ぼかし、水平反転、ランダム切り抜き、回転、カラージッターなどの拡張機能。
AdamW はソルバーであり、ReduceLROnPlateau はスケジューラーです。
他の OD タスクと同様に、損失の組み合わせ (RPN バウンディングボックス損失、RPN 分類損失、最終バウンディングボックス回帰損失、最終分類損失) が使用されます。
メトリックとして COCO mAP があり、これは幸運にも Model Playground に直接実装されています。

トレーニングには約1日半かかります。アーキテクチャの深さ、ネットワークが処理する画像の数、計画されているトレーニング反復回数 (10,000)、および COCO mAP が 5,000 枚の画像に対して 50 反復ごとに計算されるという事実を考慮すると、それほど時間はかかりませんでした。モデルによって得られた結果は次のとおりです。

元のモデルトレーニング反復における平均損失。

元のモデル検証反復にわたる COCO mAP プロット。

このアーキテクチャを使用して達成された最終的な COCO mAP 結果は、検証で 0.42 mAP です。オリジナルの PASCAL でトレーニングされたモデルは、最先端のアーキテクチャほど優れたパフォーマンスを発揮しません。それでも、モデルの構築に費やした時間と労力が少なかったことを考慮すると、これは良い結果です (各 1 時間の反復が 3 回)。いずれにせよ、このような結果は私たちの実験をより興味深いものにするでしょう。モデルパラメータを微調整せずに、データを改善して目的のメトリック値を取得できるかどうかを確認しましょう。

更新されたPASCALでトレーニングされたカスタムモデル

ここでは、トレーニングと検証に同じ画像を使用して、次のモデルをベースラインとしてトレーニングします。唯一の違いは、分割されたデータの方が優れていることです (ラベルが追加され、一部のラベルが修正されました)。

残念ながら、元のデータセットには、トレーニング/テストに分割された 17,120 枚の画像がすべて含まれておらず、一部の画像が欠落していました。したがって、元のデータセットに 6600 個のラベルを追加したにもかかわらず、トレーニング/テスト分割では約 3000 個の新しいラベルと約 190 個の修復されたラベルしか取得されません。

それでも、PASCAL VOC 2012 で修正されたトレーニング/テスト分割を使用してモデルのトレーニングと検証を継続し、そのパフォーマンスを確認します。

モデルのトレーニング反復全体で AverageLoss プロットを更新します。

更新されたモデルの検証反復における COCO mAP グラフ。

直接比較

ご覧のとおり、新しいモデルは元のモデルよりもパフォーマンスが優れています。検証では、以前のモデルの 0.42 と比較して、0.49 COCO mAP を達成しました。実験が成功したことは明らかだ。

結果は 45 ～ 55 COCO mAP 以内であり、更新されたモデルは元のモデルよりもパフォーマンスが優れており、必要なメトリックを提供していることを意味します。私たちが目撃した出来事について結論を出し、議論する時が来ました。

結論は

この記事では、データ中心の AI 開発の概念について説明します。私たちの考えは、データを改善してより良いモデルを取得し、望ましい結果を得ることです。現在、モデルがパフォーマンスの上限に近づき始めると、主要な指標の結果を 1 ～ 2% 以上改善するためにモデルを調整するのは困難でコストがかかる場合があります。ただし、機械学習マシンの構築はモデルとパラメータだけではなく、アルゴリズムとデータという 2 つの重要な要素があることを見逃してはなりません。

この研究では、SOTA に勝ったり、以前の研究よりも優れた結果を達成したりすることは試みませんでした。私たちは、実験結果を通じて、データの改善に時間を費やすことがモデルのパフォーマンスに有益であることを示したいと考えています。うまくいけば、欠落している 3000 個のラベルを追加することで COCO mAP が 13% 増加するというケースは十分に説得力があるでしょう。

データをクリーニングし、画像にラベルを追加することで得られる結果を予測することは困難です。パフォーマンスは、タスク、NN パラメータ、その他多くの要因によって大きく異なります。この例でも、ラベルが 3000 個増えると mAP が 13% 増加するかどうかはわかりません。それにもかかわらず、結果はそれを物語っています。より良いデータを取得することでモデルメトリックをどの程度改善できるかの上限を決定するのは難しい場合もありますが、試してみる価値はあります。

<<: MITが家中に設置できる紙のように薄いスピーカーを開発

>>: エンタープライズ AI プラットフォーム選択ガイド