誰かが1週間でPASCALデータセットの17,120枚の画像をクリーンアップし、mAPを13%向上させました。

誰かが1週間でPASCALデータセットの17,120枚の画像をクリーンアップし、mAPを13%向上させました。

ある研究では、PASCAL VOC 2012 データセット内の 17,120 枚の画像を 1 週間でクリーンアップする手法を使用したところ、PASCAL 内の画像の 6.5% にさまざまなエラー (ラベルの欠落、クラス ラベルの誤りなど) があることがわかったと主張しています。彼らはこれらのバグを記録的な速さで修正し、モデルのパフォーマンスを 13% mAP 向上させました。

多くの場合、モデルのパフォーマンスが低下する原因は、トレーニング データの品質が低いことにあります。 2022 年になっても、データは企業にとって最も重要な資産の 1 つであるにもかかわらず、開発者はデータ品質の低さに悩まされることがよくあります。この記事では、ドイツのベルリンに拠点を置き、ビジュアル AI 実践者向けの次世代注釈ツールを提供する Hasty が、データをより迅速かつ効率的にクリーニングすることで、ビジュアル AI ソリューションの開発を簡素化し、リスクを軽減したいと考えています。

同社は、Hasty エコシステム (Hasty は同社が開発したエンドツーエンドの AI プラットフォームで、ML エンジニアやドメイン エキスパートがコンピューター ビジョン モデルをより迅速に提供できるようにし、革新的な製品やサービスの市場投入までの時間を短縮します) の一部として AI コンセンサス スコアリング (AI CS) 機能を開発しました。この機能により、手動のコンセンサス スコアリングは過去のものとなり、AI が品質管理プロセスに統合され、ユーザーがデータを追加するにつれてプロセスが高速化、低コスト化、拡張性が向上します。

この論文では、研究者が AI CS 機能を使用して、最も人気のある物体検出ベンチマーク データセット PASCAL VOC 2012 を改善、更新、アップグレードします。

まず、物体検出やセマンティックセグメンテーションなどの視覚 AI タスクのベンチマークモデルとして使用できる有名な学術データセットである PASCAL について簡単に紹介します。 PASCALは10年以上の歴史があり、現在でも広く使われています。過去4年間で160本の論文で使用されています。

PASCAL は過去 10 年間変更されておらず、世界中のチームが科学研究のためにデータセットを「そのまま」維持してきました。しかし、このデータセットはかなり昔に注釈が付けられたもので、当時のアルゴリズムは今日ほど正確ではなく、注釈の要件もそれほど厳しくなかったため、多くのエラーが発生していました。たとえば、次の図に示すように、馬は前景にあり、見えていますが、馬のラベルがありません。これらの品質の問題は、PASCAL ではよく見られます。

PASCAL データセットを手動で処理すると、コストと時間がかかります。この研究では、品質管理に AI を使用し、PASCAL の品質を向上させます。目的は、データ品質が十分に高ければモデルのパフォーマンスが向上するかどうかを確認することです。このテストを実行するために、次の手順で実験を設定しました。

  • Hasty で AI コンセンサス スコアリングを使用して PASCAL VOC 2012 をクリーンアップします。
  • Faster R-CNN アーキテクチャを使用して、オリジナルの PASCAL トレーニング セットでカスタム モデルをトレーニングします。
  • 同じ Faster R-CNN アーキテクチャとパラメータを使用して、クリーンアップされた PASCAL トレーニング セットでカスタム モデルを準備します。
  • 実験後、結論が導き出されました。

以下は、一人称視点でまとめられ整理された実験プロセスです。どのように実行され、どのような結果になったかを見てみましょう。

クリーニング PASCAL VOC 2012

私たちの最優先事項はデータセットを改善することです。 Kaggle からデータセットを取得し、それを Hasty プラットフォームにアップロードし、注釈をインポートして、2 回の AI CS 実行をスケジュールしました。 AI CS 機能に馴染みのない方のために説明すると、この機能はクラス、オブジェクト検出、インスタンス セグメンテーションのレビューをサポートしており、注釈付きのクラス ラベル、境界ボックス、ポリゴン、マスクをチェックします。レビュー時に、AI CS は余分なラベルや欠落したラベル、アーティファクト、間違ったカテゴリの注釈、境界ボックスや不正確な形状のインスタンスなどを探します。

PASCAL VOC 2012 には、20 の異なるカテゴリに 17,120 枚の画像と約 37,700 個のラベルが含まれています。タスクのオブジェクト検出とクラスレビューを実行したところ、潜在的なエラーは 28,900 (OD) と 1.320 (Class) でした。

AI CS を使用すると、潜在的な問題を検出できます。そうすれば、バグの追跡に何日も何週間も費やすのではなく、バグの修正に集中できるようになります。

私たちは、これらの潜在的なエラーをチェックして修正し、最も重要なことは、修正された注釈が元の注釈よりも正確になることを望んでいます。具体的には以下が含まれます:

  • AI CS が潜在的なエラーを検出すると、各画像で発生する可能性のあるすべてのエラーを修正しようとします。
  • 考えられるすべてのオブジェクトに注釈を付けるつもりはなく、注釈が付かなかったオブジェクトが前景またはズームなしで肉眼で見える場合は、注釈を付けました。
  • 境界ボックスをピクセル単位で完璧に作成するよう努めます。
  • また、元のデータセットに特性があるためクラス オブジェクトが注釈付けされていないデータセットの一部にも注釈付けします。

上記の目標を念頭に置いて、まずクラスレビューを実行し、既存の注釈付きクラス ラベルを調べて、潜在的なエラーを特定しようとしました。 AI CS の推奨事項の 60% 以上は、元のデータセットでは明らかではなかった問題を特定するのに役立つため、有用です。たとえば、注釈者はソファと椅子を混同しました。この問題に対処するために、データセット全体を 500 を超えるタグで再ラベル付けします。

オリジナルの注釈の例。写真にはソファーが 2 つとアームチェアが 2 つあります。 2 つのアームチェアのうち 1 つはソファーとしてラベル付けされており、もう 1 つは椅子としてラベル付けされています。

改訂後、アームチェアは椅子、ソファはソファになります。

OD および Class レビューを分析すると、PASCAL の最も顕著な問題は、誤分類された注釈、奇妙な境界ボックス、または余分なラベルではないことがわかりました。最大の問題は、潜在的な注釈がほとんどないことです。正確な数を見積もることは困難ですが、ラベルを付ける必要があるラベルのないオブジェクトは数千あると感じています。

OD はデータセットを監査し、余分なラベルや欠落したラベル、誤った形状の境界ボックスを探します。欠落している注釈がすべて AI CS によって強調表示されるわけではありませんが、少なくとも 1 つのラベルが欠落している AI CS によって予測されたすべての画像を改善するために最善を尽くしました。その結果、OD レビューにより、1,140 枚の画像で 6,600 個の欠落した注釈を見つけることができました。

すべての提案を確認してデータセットをクリーンアップするのに約 80 時間かかりましたが、これは驚くべき結果です。

生の PASCAL でカスタム モデルをトレーニングする

前述のように、2 セットの実験を設定し、2 つのモデルをトレーニングすることにしました。1 つはオリジナルの PASCAL で、もう 1 つは PASCAL のクリーン バージョンでトレーニングします。ニューラル ネットワークのトレーニングを実行するために、Hasty の別の機能である Model Playground を使用しました。これは、アーキテクチャと各主要なニューラル ネットワーク パラメータを制御しながら、簡素化された UI で AI モデルを構築できるコーディング不要のソリューションです。

この作業全体を通して、タスクに最適なハイパーパラメータを見つけるために、モデルを何度も反復しました。最終的に、私たちは次のことを選択しました。

  • ResNet101 FPN をバックボーンとする高速 R-CNN アーキテクチャ。
  • R101-FPN COCO 重みを使用してモデルを初期化します。
  • ぼかし、水平反転、ランダム切り抜き、回転、カラージッターなどの拡張機能。
  • AdamW はソルバーであり、ReduceLROnPlateau はスケジューラーです。
  • 他の OD タスクと同様に、損失の組み合わせ (RPN バウンディング ボックス損失、RPN 分類損失、最終バウンディング ボックス回帰損失、最終分類損失) が使用されます。
  • メトリックとして COCO mAP があり、これは幸運にも Model Playground に直接実装されています。

トレーニングには約1日半かかります。アーキテクチャの深さ、ネットワークが処理する画像の数、計画されているトレーニング反復回数 (10,000)、および COCO mAP が 5,000 枚の画像に対して 50 反復ごとに計算されるという事実を考慮すると、それほど時間はかかりませんでした。モデルによって得られた結果は次のとおりです。

元のモデルトレーニング反復における平均損失。

元のモデル検証反復にわたる COCO mAP プロット。

このアーキテクチャを使用して達成された最終的な COCO mAP 結果は、検証で 0.42 mAP です。オリジナルの PASCAL でトレーニングされたモデルは、最先端のアーキテクチャほど優れたパフォーマンスを発揮しません。それでも、モデルの構築に費やした時間と労力が少なかったことを考慮すると、これは良い結果です (各 1 時間の反復が 3 回)。いずれにせよ、このような結果は私たちの実験をより興味深いものにするでしょう。モデルパラメータを微調整せずに、データを改善して目的のメトリック値を取得できるかどうかを確認しましょう。

更新されたPASCALでトレーニングされたカスタムモデル

ここでは、トレーニングと検証に同じ画像を使用して、次のモデルをベースラインとしてトレーニングします。唯一の違いは、分割されたデータの方が優れていることです (ラベルが追加され、一部のラベルが修正されました)。

残念ながら、元のデータセットには、トレーニング/テストに分割された 17,120 枚の画像がすべて含まれておらず、一部の画像が欠落していました。したがって、元のデータセットに 6600 個のラベルを追加したにもかかわらず、トレーニング/テスト分割では約 3000 個の新しいラベルと約 190 個の修復されたラベルしか取得されません。

それでも、PASCAL VOC 2012 で修正されたトレーニング/テスト分割を使用してモデルのトレーニングと検証を継続し、そのパフォーマンスを確認します。

モデルのトレーニング反復全体で ​​AverageLoss プロットを更新します。

更新されたモデルの検証反復における COCO mAP グラフ。

直接比較

ご覧のとおり、新しいモデルは元のモデルよりもパフォーマンスが優れています。検証では、以前のモデルの 0.42 と比較して、0.49 COCO mAP を達成しました。実験が成功したことは明らかだ。

結果は 45 ~ 55 COCO mAP 以内であり、更新されたモデルは元のモデルよりもパフォーマンスが優れており、必要なメトリックを提供していることを意味します。私たちが目撃した出来事について結論を出し、議論する時が来ました。

結論は

この記事では、データ中心の AI 開発の概念について説明します。私たちの考えは、データを改善してより良いモデルを取得し、望ましい結果を得ることです。現在、モデルがパフォーマンスの上限に近づき始めると、主要な指標の結果を 1 ~ 2% 以上改善するためにモデルを調整するのは困難でコストがかかる場合があります。ただし、機械学習マシンの構築はモデルとパラメータだけではなく、アルゴリズムとデータという 2 つの重要な要素があることを見逃してはなりません。

この研究では、SOTA に勝ったり、以前の研究よりも優れた結果を達成したりすることは試みませんでした。私たちは、実験結果を通じて、データの改善に時間を費やすことがモデルのパフォーマンスに有益であることを示したいと考えています。うまくいけば、欠落している 3000 個のラベルを追加することで COCO mAP が 13% 増加するというケースは十分に説得力があるでしょう。

データをクリーニングし、画像にラベルを追加することで得られる結果を予測することは困難です。パフォーマンスは、タスク、NN パラメータ、その他多くの要因によって大きく異なります。この例でも、ラベルが 3000 個増えると mAP が 13% 増加するかどうかはわかりません。それにもかかわらず、結果はそれを物語っています。より良いデータを取得することでモデル メトリックをどの程度改善できるかの上限を決定するのは難しい場合もありますが、試してみる価値はあります。

<<:  MITが家中に設置できる紙のように薄いスピーカーを開発

>>:  エンタープライズ AI プラットフォーム選択ガイド

ブログ    
ブログ    
ブログ    

推薦する

...

注目すべき新たな AI 統計とトレンド

『2001年宇宙の旅』のHAL 9000の恐ろしい宣言から『ターミネーター』映画における終末的な機械...

ジェネレーティブAIがヘルスケアを変える

生成 AI はヘルスケア分野で重要な役割を果たしており、その応用は医療業界に多くの変化をもたらしまし...

...

...

2022年の中国人工知能産業の発展状況と市場規模の分析 市場規模は3000億元を超える

人工知能業界の主要上場企業:Hikvision(002415)、iFlytek(002230)、Sa...

顔認証でお金を引き出すのは安全ですか?

広州市のある商業銀行は最近、顔認証引き出し機能を備えたATMを導入し、利用者が銀行カードを持っていな...

「顔認証」は大人気だけど、知らないことも多い

[[185752]] CeBITカンファレンスでのジャック・マー氏の「顔スキャン」支払いから、マイク...

自分の写真がディープフェイクに使われるのではないかと心配ですか?ボストン大学の新しい研究を試してみてください

顔を入れ替えた動画は、DL を悪用した大きな結果です。インターネット上にあなたの写真がある限り、あな...

データセキュリティ認識システムにおける機械学習の応用

私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることが...

ロボット工学は良いが、誇張しすぎるのは良くない

現在、ロボット工学は科学技術分野における最先端技術となっており、先進国は、この技術面で優位に立つこと...

...

イタリアの規制当局はChatGPTがEUのプライバシー法に違反していると主張

海外メディアの報道によると、1月31日、イタリアの規制当局は、OpenAIの人工知能チャットボット「...

AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

7月24日のニュース:昨年末にチャットボットChatGPTがリリースされて以来、人工知能がトレンド...