CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました。精度率が向上したかどうかを見ることで、新しい技術が登場したかどうかを知ることができます。

「ランキング操作」は常にモデルの革新の原動力であり、モデルのトップ 1 精度を 90% 以上まで押し上げ、これは人間の精度を上回っています。

しかし、ImageNet データセットは本当に私たちが考えているほど有用なのでしょうか?

多くの論文では、データの範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に関する疑問が提起されています。

最も重要な質問は、モデルの 90% の精度は本当に正確であるかということです。

最近、Google Brain チームとカリフォルニア大学バークレー校の研究者がいくつかの SOTA モデルの予測結果を再検討したところ、モデルの真の精度が過小評価されている可能性があることを発見しました。

論文リンク: https://arxiv.org/pdf/2205.04596.pdf

研究者らは、ベンチマーク データセットのロングテール エラーに関する洞察を得るために、トップ モデルの一部が犯したすべての間違いを手動で確認し、分類しました。

主な焦点は ImageNet のマルチラベル サブセット評価にあり、最良のモデルは 97% の Top-1 精度を達成できます。


この研究の分析結果によると、いわゆる予測エラーの約半分はまったくエラーではなく、画像に新しいマルチラベルが見つかりました。つまり、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスは「過小評価」される可能性があります。

熟練していないクラウドソーシング データ ラベラーは、データに誤ったラベルを付けることが多く、モデルの精度の信頼性に大きな影響を与えます。

ImageNet データセットを調整し、将来の健全な進歩を促進するために、研究者は記事で更新されたマルチラベル評価セットを提供し、sota モデルの予測に明らかなエラーがある 68 の例を新しいデータセット ImageNet-Major に統合して、将来の CV 研究者がこれらの悪いケースを克服できるようにしています。

技術的負債の返済

記事のタイトル「生地はいつベーグルになるのか?」から、著者は主に、歴史的な問題でもある ImageNet のラベル付け問題に関心を持っていることがわかります。

下の図はラベルの曖昧さの典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?

理論的には、このモデルには予測誤差はありません。生地は焼かれており、すぐにベーグルになるため、生地であると同時にベーグルでもあるからです。

モデルは実際に生地がベーグル「になる」ことを予測できたことがわかりますが、正確さの点数は獲得できませんでした。

実際、標準的な ImageNet データセットの分類タスクを評価基準として使用すると、マルチラベルの欠如、ラベルノイズ、カテゴリの未指定などの問題が避けられません。

このようなオブジェクトの識別を担当するクラウドソーシングの注釈者の観点から見ると、これはマルチラベリングによってのみ解決できる意味論的かつ哲学的な問題であるため、ImageNet の派生データセットの主な改善点はラベリングの問題です。

ImageNet が設立されてから 16 年が経ちました。当時のラベル作成者やモデル開発者は、今日ほどデータに対する理解が深かったわけではありません。ImageNet は初期の大容量で、比較的ラベル付けが行き届いたデータセットであったため、CV ランキングの標準として自然に定着しました。

しかし、データのラベル付けにかかる予算はモデルの開発にかかる予算ほど多くないことは明らかであり、ラベル付けの問題の改善も一種の技術的負債となっています。

ImageNet に残っているエラーを見つけるために、研究者らは、30 億のパラメータ (89.5% の精度を達成可能) を持つ標準の ViT-3B モデルと、事前トレーニング済みモデルとして ImageNet-1K で微調整された JFT-3B を使用しました。

ViT-3B は、ImageNet2012_multilabel データセットをテスト セットとして使用し、当初 96.3% の精度を達成しました。そのうち、モデルは 676 枚の画像を明らかに誤って予測したため、これらの例について詳細な調査を実施しました。

データを再ラベル付けする際、著者らはクラウドソーシングを選択せず​​、代わりに 5 人の専門家レビュー担当者のチームを結成してラベル付けを行った。これは、このようなラベル付けのエラーは専門家以外の人が特定するのが難しいためである。

たとえば、図 (a) では、一般的な注釈者は単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像には他にも多くのオブジェクトがあります。

図 (b) の主題は 2 人ですが、ラベルはピケット フェンスであり、明らかに不完全です。他の可能性のあるラベルとしては、蝶ネクタイ、制服などがあります。

図(c)も明らかな例です。「アフリカゾウ」とだけ記しておけば、象牙は見落とされてしまう可能性があります。

図(d)は湖岸と表示されていますが、実際には海岸と表示しても問題ありません。

研究者らは、注釈付けの効率を高めるために、モデルの予測カテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。

場合によっては、専門家グループ内でラベルをめぐって論争が起こることもあります。このとき、ラベル付けを支援するために、画像は Google 検索にかけられます。

たとえば、ある例では、モデルの予測にはタクシーが含まれていましたが、画像には「少し黄色」以外にタクシーの標識はありませんでした。

この画像は主にGoogle画像検索を通じて注釈が付けられ、画像の背景には象徴的な橋があることが判明した。研究者らはその後、画像が位置する都市を特定し、その都市のタクシーの画像を取得し、画像には普通の車ではなくタクシーが含まれていることを確認した。また、ナンバープレートのデザインを比較することで、モデルの予測が正しいことも検証されています。

研究のいくつかの段階で発見されたエラーを最初に検討した後、著者らはまず、エラーの重大度に基づいてエラーを 2 つのカテゴリに分類しました。

1. 重大なエラー: 人間はラベルの意味を理解できますが、モデルの予測はラベルとはまったく関係がありません。

2. 軽微なエラー: ラベルが間違っているか不完全で、予測エラーが発生する可能性があります。データをレビューして修正するには専門家が必要です。

ViT-3B モデルによって発生した 155 の主要なエラーについては、研究者らは予測結果の多様性を向上させるために、他の 3 つのモデルに共同予測を行うよう依頼しました。

4 つのモデルすべてが予測できなかった重大なエラーは 68 件ありました。次に、これらの例についてすべてのモデルの予測を分析し、いずれも正しい新しいマルチラベルではない、つまり各モデルの予測が重大なエラーであったことを確認しました。

これら 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた Sota モデルがすべてこのサブセットで間違いを犯し、専門家のレビューでも予測結果が正確性とはまったく関係がないと判断されたことです。

68 枚の画像のデータセットは、後続の研究者による手動評価を容易にするのに十分なほど小さいです。将来、これらの 68 の例が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。

研究者たちはデータを分析して、予測誤差を次の 4 つのタイプに分類しました。

1. 予測されたクラスは実際のラベルに似ているが、まったく同じではない、きめ細かいエラー。

2. 語彙外(OOV)を含む細粒度。モデルは正しいカテゴリを識別しますが、オブジェクトは ImageNet に存在しません。

3. 予測ラベルが画像のコンテキストから読み取られる誤った相関関係。

4. 非プロトタイプ。ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません。

研究者らは、元の 676 件の誤りを検討した結果、そのうち 298 件は正しいはずであり、そうでなければ元のラベルが間違っていたか問題があったと判断できることを発見しました。

一般的に、この記事の研究結果からは 4 つの結論を導き出すことができます。

1. 大規模で高精度なモデルが他のモデルにはない新しい予測を行った場合、そのうちの約 50% が正しい新しいマルチラベルです。

2. より高精度のモデルでは、カテゴリとエラーの重大度の間に有意な相関関係は見られませんでした。

3. 今日の SOTA モデルは、人間による評価のマルチラベル サブセットにおいて、最高の専門家のパフォーマンスとほぼ同等か、それを上回ります。

4. ノイズの多いトレーニング データと未指定のクラスは、画像分類の改善を効果的に測定する能力を制限する要因となる可能性があります。

おそらく、画像のラベル付け問題は、自然言語処理技術によって解決されるまで待たなければならないのでしょうか?

<<:  人工知能時代のアルゴリズムガバナンスの核心と道筋

>>:  10年後には自動運転車が普及するでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

2019 年の人工知能のトレンド トップ 25!一つの記事が未来を予見する

人工知能の次なる展開は?先週、有名な組織 CBinsights のアナリストがさまざまな業界を分析し...

...

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

データ駆動型進化的最適化とは何ですか? それは単なるデータ + 最適化アルゴリズムですか? データ駆...

AI Factory がコンセプトから産業化まで迅速かつ安全に移行する方法

[[374390]]人工知能 (AI) は、組織によって競争上の優位性を獲得するための重要なテクノロ...

...

数百万人の乗客を「迅速に配達」する人工知能の応用

ほとんどの人がテイクアウトを注文しており、今ではテイクアウトは中国人にとってもう一つの食事方法となっ...

AIが農業用水効率の課題をどう解決するか

[[388190]] • 食糧需要が増加するにつれて、世界は水の使用を管理する必要があります。 • ...

AI起業家にとって、これら4つの新たな方向性は注目に値するかもしれない

AI 起業家にとって、次の 4 つの新しい方向性は注目する価値があるかもしれません。第 1 に、人間...

2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

人工知能革命の到来は、IBMの先駆的な研究者アーサー・サミュエルが世界初のコンピューターにチェッカー...

革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

[[410176]]予測時間を可能な限り延長することが時系列予測の中心的な課題であり、エネルギー、輸...

PyTorch ガイド: ディープラーニング モデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...

GPU + 生成AIが時空間データ分析の改善に貢献

翻訳者|朱 仙中レビュー | Chonglou導入携帯電話、気候センサー、金融市場取引、車両や輸送コ...

ぜひ見に来てください!数千の「AIブラックテクノロジー」がここに集結

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

「インターネット情報サービスアルゴリズム推奨管理規則」が公布され、3月1日に発効される。

最近、中国サイバースペース管理局、工業情報化部、公安部、国家市場監督管理総局は共同で「インターネット...