ある研究では、PASCAL VOC 2012 データセット内の 17,120 枚の画像を 1 週間でクリーンアップする手法を使用したところ、PASCAL 内の画像の 6.5% にさまざまなエラー (ラベルの欠落、クラス ラベルの誤りなど) があることがわかったと主張しています。彼らはこれらのバグを記録的な速さで修正し、モデルのパフォーマンスを 13% mAP 向上させました。 多くの場合、モデルのパフォーマンスが低下する原因は、トレーニング データの品質が低いことにあります。 2022 年になっても、データは企業にとって最も重要な資産の 1 つであるにもかかわらず、開発者はデータ品質の低さに悩まされることがよくあります。この記事では、ドイツのベルリンに拠点を置き、ビジュアル AI 実践者向けの次世代注釈ツールを提供する Hasty が、データをより迅速かつ効率的にクリーニングすることで、ビジュアル AI ソリューションの開発を簡素化し、リスクを軽減したいと考えています。 同社は、Hasty エコシステム (Hasty は同社が開発したエンドツーエンドの AI プラットフォームで、ML エンジニアやドメイン エキスパートがコンピューター ビジョン モデルをより迅速に提供できるようにし、革新的な製品やサービスの市場投入までの時間を短縮します) の一部として AI コンセンサス スコアリング (AI CS) 機能を開発しました。この機能により、手動のコンセンサス スコアリングは過去のものとなり、AI が品質管理プロセスに統合され、ユーザーがデータを追加するにつれてプロセスが高速化、低コスト化、拡張性が向上します。 この論文では、研究者が AI CS 機能を使用して、最も人気のある物体検出ベンチマーク データセット PASCAL VOC 2012 を改善、更新、アップグレードします。 まず、物体検出やセマンティックセグメンテーションなどの視覚 AI タスクのベンチマークモデルとして使用できる有名な学術データセットである PASCAL について簡単に紹介します。 PASCALは10年以上の歴史があり、現在でも広く使われています。過去4年間で160本の論文で使用されています。 PASCAL は過去 10 年間変更されておらず、世界中のチームが科学研究のためにデータセットを「そのまま」維持してきました。しかし、このデータセットはかなり昔に注釈が付けられたもので、当時のアルゴリズムは今日ほど正確ではなく、注釈の要件もそれほど厳しくなかったため、多くのエラーが発生していました。たとえば、次の図に示すように、馬は前景にあり、見えていますが、馬のラベルがありません。これらの品質の問題は、PASCAL ではよく見られます。 PASCAL データセットを手動で処理すると、コストと時間がかかります。この研究では、品質管理に AI を使用し、PASCAL の品質を向上させます。目的は、データ品質が十分に高ければモデルのパフォーマンスが向上するかどうかを確認することです。このテストを実行するために、次の手順で実験を設定しました。
以下は、一人称視点でまとめられ整理された実験プロセスです。どのように実行され、どのような結果になったかを見てみましょう。 クリーニング PASCAL VOC 2012私たちの最優先事項はデータセットを改善することです。 Kaggle からデータセットを取得し、それを Hasty プラットフォームにアップロードし、注釈をインポートして、2 回の AI CS 実行をスケジュールしました。 AI CS 機能に馴染みのない方のために説明すると、この機能はクラス、オブジェクト検出、インスタンス セグメンテーションのレビューをサポートしており、注釈付きのクラス ラベル、境界ボックス、ポリゴン、マスクをチェックします。レビュー時に、AI CS は余分なラベルや欠落したラベル、アーティファクト、間違ったカテゴリの注釈、境界ボックスや不正確な形状のインスタンスなどを探します。 PASCAL VOC 2012 には、20 の異なるカテゴリに 17,120 枚の画像と約 37,700 個のラベルが含まれています。タスクのオブジェクト検出とクラスレビューを実行したところ、潜在的なエラーは 28,900 (OD) と 1.320 (Class) でした。 AI CS を使用すると、潜在的な問題を検出できます。そうすれば、バグの追跡に何日も何週間も費やすのではなく、バグの修正に集中できるようになります。 私たちは、これらの潜在的なエラーをチェックして修正し、最も重要なことは、修正された注釈が元の注釈よりも正確になることを望んでいます。具体的には以下が含まれます:
上記の目標を念頭に置いて、まずクラスレビューを実行し、既存の注釈付きクラス ラベルを調べて、潜在的なエラーを特定しようとしました。 AI CS の推奨事項の 60% 以上は、元のデータセットでは明らかではなかった問題を特定するのに役立つため、有用です。たとえば、注釈者はソファと椅子を混同しました。この問題に対処するために、データセット全体を 500 を超えるタグで再ラベル付けします。 オリジナルの注釈の例。写真にはソファーが 2 つとアームチェアが 2 つあります。 2 つのアームチェアのうち 1 つはソファーとしてラベル付けされており、もう 1 つは椅子としてラベル付けされています。 改訂後、アームチェアは椅子、ソファはソファになります。 OD および Class レビューを分析すると、PASCAL の最も顕著な問題は、誤分類された注釈、奇妙な境界ボックス、または余分なラベルではないことがわかりました。最大の問題は、潜在的な注釈がほとんどないことです。正確な数を見積もることは困難ですが、ラベルを付ける必要があるラベルのないオブジェクトは数千あると感じています。 OD はデータセットを監査し、余分なラベルや欠落したラベル、誤った形状の境界ボックスを探します。欠落している注釈がすべて AI CS によって強調表示されるわけではありませんが、少なくとも 1 つのラベルが欠落している AI CS によって予測されたすべての画像を改善するために最善を尽くしました。その結果、OD レビューにより、1,140 枚の画像で 6,600 個の欠落した注釈を見つけることができました。 すべての提案を確認してデータセットをクリーンアップするのに約 80 時間かかりましたが、これは驚くべき結果です。 生の PASCAL でカスタム モデルをトレーニングする前述のように、2 セットの実験を設定し、2 つのモデルをトレーニングすることにしました。1 つはオリジナルの PASCAL で、もう 1 つは PASCAL のクリーン バージョンでトレーニングします。ニューラル ネットワークのトレーニングを実行するために、Hasty の別の機能である Model Playground を使用しました。これは、アーキテクチャと各主要なニューラル ネットワーク パラメータを制御しながら、簡素化された UI で AI モデルを構築できるコーディング不要のソリューションです。 この作業全体を通して、タスクに最適なハイパーパラメータを見つけるために、モデルを何度も反復しました。最終的に、私たちは次のことを選択しました。
トレーニングには約1日半かかります。アーキテクチャの深さ、ネットワークが処理する画像の数、計画されているトレーニング反復回数 (10,000)、および COCO mAP が 5,000 枚の画像に対して 50 反復ごとに計算されるという事実を考慮すると、それほど時間はかかりませんでした。モデルによって得られた結果は次のとおりです。 元のモデルトレーニング反復における平均損失。 元のモデル検証反復にわたる COCO mAP プロット。 このアーキテクチャを使用して達成された最終的な COCO mAP 結果は、検証で 0.42 mAP です。オリジナルの PASCAL でトレーニングされたモデルは、最先端のアーキテクチャほど優れたパフォーマンスを発揮しません。それでも、モデルの構築に費やした時間と労力が少なかったことを考慮すると、これは良い結果です (各 1 時間の反復が 3 回)。いずれにせよ、このような結果は私たちの実験をより興味深いものにするでしょう。モデルパラメータを微調整せずに、データを改善して目的のメトリック値を取得できるかどうかを確認しましょう。 更新されたPASCALでトレーニングされたカスタムモデルここでは、トレーニングと検証に同じ画像を使用して、次のモデルをベースラインとしてトレーニングします。唯一の違いは、分割されたデータの方が優れていることです (ラベルが追加され、一部のラベルが修正されました)。 残念ながら、元のデータセットには、トレーニング/テストに分割された 17,120 枚の画像がすべて含まれておらず、一部の画像が欠落していました。したがって、元のデータセットに 6600 個のラベルを追加したにもかかわらず、トレーニング/テスト分割では約 3000 個の新しいラベルと約 190 個の修復されたラベルしか取得されません。 それでも、PASCAL VOC 2012 で修正されたトレーニング/テスト分割を使用してモデルのトレーニングと検証を継続し、そのパフォーマンスを確認します。 モデルのトレーニング反復全体で AverageLoss プロットを更新します。 更新されたモデルの検証反復における COCO mAP グラフ。 直接比較 ご覧のとおり、新しいモデルは元のモデルよりもパフォーマンスが優れています。検証では、以前のモデルの 0.42 と比較して、0.49 COCO mAP を達成しました。実験が成功したことは明らかだ。 結果は 45 ~ 55 COCO mAP 以内であり、更新されたモデルは元のモデルよりもパフォーマンスが優れており、必要なメトリックを提供していることを意味します。私たちが目撃した出来事について結論を出し、議論する時が来ました。 結論はこの記事では、データ中心の AI 開発の概念について説明します。私たちの考えは、データを改善してより良いモデルを取得し、望ましい結果を得ることです。現在、モデルがパフォーマンスの上限に近づき始めると、主要な指標の結果を 1 ~ 2% 以上改善するためにモデルを調整するのは困難でコストがかかる場合があります。ただし、機械学習マシンの構築はモデルとパラメータだけではなく、アルゴリズムとデータという 2 つの重要な要素があることを見逃してはなりません。 この研究では、SOTA に勝ったり、以前の研究よりも優れた結果を達成したりすることは試みませんでした。私たちは、実験結果を通じて、データの改善に時間を費やすことがモデルのパフォーマンスに有益であることを示したいと考えています。うまくいけば、欠落している 3000 個のラベルを追加することで COCO mAP が 13% 増加するというケースは十分に説得力があるでしょう。 データをクリーニングし、画像にラベルを追加することで得られる結果を予測することは困難です。パフォーマンスは、タスク、NN パラメータ、その他多くの要因によって大きく異なります。この例でも、ラベルが 3000 個増えると mAP が 13% 増加するかどうかはわかりません。それにもかかわらず、結果はそれを物語っています。より良いデータを取得することでモデル メトリックをどの程度改善できるかの上限を決定するのは難しい場合もありますが、試してみる価値はあります。 |
<<: MITが家中に設置できる紙のように薄いスピーカーを開発
現在、5Gや人工知能産業が活況を呈しており、さまざまな大手企業が利益を最大化するために「応用シナリオ...
夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...
[[432441]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
最近の教育プロセスの中で、何人かの子供たちが私に大学で何を専攻すればいいかと尋ねました。将来的に発展...
「女性は間違った男性と結婚することを恐れ、男性は間違った職業を選択することを恐れる」という古い中国...
電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...
チャットボットはかつて大々的に宣伝された期待に応えようとしており、Intercom が委託した新しい...
ドローンは、1960年代以降、政府と軍隊によるインテリジェントな戦闘装備の需要から生まれました。米軍...
人工知能(AI)については多くの報道や解説がなされてきました。奇跡を起こすことができると言う人もいれ...
1新しいインテリジェンス集出典: arXiv、Github張毅編纂[新しいインテリジェンスの紹介]自...
GPT-4 はまったく推論できません!最近、2 つの研究により、GPT-4 の推論パフォーマンスが...