CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました。精度率が向上したかどうかを見ることで、新しい技術が登場したかどうかを知ることができます。

「ランキング操作」は常にモデルの革新の原動力であり、モデルのトップ 1 精度を 90% 以上まで押し上げ、これは人間の精度を上回っています。

しかし、ImageNet データセットは本当に私たちが考えているほど有用なのでしょうか?

多くの論文では、データの範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に関する疑問が提起されています。

最も重要な質問は、モデルの 90% の精度は本当に正確であるかということです。

最近、Google Brain チームとカリフォルニア大学バークレー校の研究者がいくつかの SOTA モデルの予測結果を再検討したところ、モデルの真の精度が過小評価されている可能性があることを発見しました。

論文リンク: https://arxiv.org/pdf/2205.04596.pdf

研究者らは、ベンチマークデータセットのロングテールエラーに関する洞察を得るために、トップモデルの一部が犯したすべての間違いを手動で確認し、分類しました。

主な焦点は ImageNet のマルチラベルサブセット評価にあり、最良のモデルは 97% の Top-1 精度を達成できます。

この研究の分析結果によると、いわゆる予測エラーの約半分はまったくエラーではなく、画像に新しいマルチラベルが見つかりました。つまり、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスは「過小評価」される可能性があります。

熟練していないクラウドソーシングデータラベラーは、データに誤ったラベルを付けることが多く、モデルの精度の信頼性に大きな影響を与えます。

ImageNet データセットを調整し、将来の健全な進歩を促進するために、研究者は記事で更新されたマルチラベル評価セットを提供し、sota モデルの予測に明らかなエラーがある 68 の例を新しいデータセット ImageNet-Major に統合して、将来の CV 研究者がこれらの悪いケースを克服できるようにしています。

技術的負債の返済

記事のタイトル「生地はいつベーグルになるのか？」から、著者は主に、歴史的な問題でもある ImageNet のラベル付け問題に関心を持っていることがわかります。

下の図はラベルの曖昧さの典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?

理論的には、このモデルには予測誤差はありません。生地は焼かれており、すぐにベーグルになるため、生地であると同時にベーグルでもあるからです。

モデルは実際に生地がベーグル「になる」ことを予測できたことがわかりますが、正確さの点数は獲得できませんでした。

実際、標準的な ImageNet データセットの分類タスクを評価基準として使用すると、マルチラベルの欠如、ラベルノイズ、カテゴリの未指定などの問題が避けられません。

このようなオブジェクトの識別を担当するクラウドソーシングの注釈者の観点から見ると、これはマルチラベリングによってのみ解決できる意味論的かつ哲学的な問題であるため、ImageNet の派生データセットの主な改善点はラベリングの問題です。

ImageNet が設立されてから 16 年が経ちました。当時のラベル作成者やモデル開発者は、今日ほどデータに対する理解が深かったわけではありません。ImageNet は初期の大容量で、比較的ラベル付けが行き届いたデータセットであったため、CV ランキングの標準として自然に定着しました。

しかし、データのラベル付けにかかる予算はモデルの開発にかかる予算ほど多くないことは明らかであり、ラベル付けの問題の改善も一種の技術的負債となっています。

ImageNet に残っているエラーを見つけるために、研究者らは、30 億のパラメータ (89.5% の精度を達成可能) を持つ標準の ViT-3B モデルと、事前トレーニング済みモデルとして ImageNet-1K で微調整された JFT-3B を使用しました。

ViT-3B は、ImageNet2012_multilabel データセットをテストセットとして使用し、当初 96.3% の精度を達成しました。そのうち、モデルは 676 枚の画像を明らかに誤って予測したため、これらの例について詳細な調査を実施しました。

データを再ラベル付けする際、著者らはクラウドソーシングを選択せず、代わりに 5 人の専門家レビュー担当者のチームを結成してラベル付けを行った。これは、このようなラベル付けのエラーは専門家以外の人が特定するのが難しいためである。

たとえば、図 (a) では、一般的な注釈者は単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像には他にも多くのオブジェクトがあります。

図 (b) の主題は 2 人ですが、ラベルはピケットフェンスであり、明らかに不完全です。他の可能性のあるラベルとしては、蝶ネクタイ、制服などがあります。

図(c)も明らかな例です。「アフリカゾウ」とだけ記しておけば、象牙は見落とされてしまう可能性があります。

図(d)は湖岸と表示されていますが、実際には海岸と表示しても問題ありません。

研究者らは、注釈付けの効率を高めるために、モデルの予測カテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。

場合によっては、専門家グループ内でラベルをめぐって論争が起こることもあります。このとき、ラベル付けを支援するために、画像は Google 検索にかけられます。

たとえば、ある例では、モデルの予測にはタクシーが含まれていましたが、画像には「少し黄色」以外にタクシーの標識はありませんでした。

この画像は主にGoogle画像検索を通じて注釈が付けられ、画像の背景には象徴的な橋があることが判明した。研究者らはその後、画像が位置する都市を特定し、その都市のタクシーの画像を取得し、画像には普通の車ではなくタクシーが含まれていることを確認した。また、ナンバープレートのデザインを比較することで、モデルの予測が正しいことも検証されています。

研究のいくつかの段階で発見されたエラーを最初に検討した後、著者らはまず、エラーの重大度に基づいてエラーを 2 つのカテゴリに分類しました。

1. 重大なエラー: 人間はラベルの意味を理解できますが、モデルの予測はラベルとはまったく関係がありません。

2. 軽微なエラー: ラベルが間違っているか不完全で、予測エラーが発生する可能性があります。データをレビューして修正するには専門家が必要です。

ViT-3B モデルによって発生した 155 の主要なエラーについては、研究者らは予測結果の多様性を向上させるために、他の 3 つのモデルに共同予測を行うよう依頼しました。

4 つのモデルすべてが予測できなかった重大なエラーは 68 件ありました。次に、これらの例についてすべてのモデルの予測を分析し、いずれも正しい新しいマルチラベルではない、つまり各モデルの予測が重大なエラーであったことを確認しました。

これら 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた Sota モデルがすべてこのサブセットで間違いを犯し、専門家のレビューでも予測結果が正確性とはまったく関係がないと判断されたことです。

68 枚の画像のデータセットは、後続の研究者による手動評価を容易にするのに十分なほど小さいです。将来、これらの 68 の例が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。

研究者たちはデータを分析して、予測誤差を次の 4 つのタイプに分類しました。

1. 予測されたクラスは実際のラベルに似ているが、まったく同じではない、きめ細かいエラー。

2. 語彙外（OOV）を含む細粒度。モデルは正しいカテゴリを識別しますが、オブジェクトは ImageNet に存在しません。

3. 予測ラベルが画像のコンテキストから読み取られる誤った相関関係。

4. 非プロトタイプ。ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません。

研究者らは、元の 676 件の誤りを検討した結果、そのうち 298 件は正しいはずであり、そうでなければ元のラベルが間違っていたか問題があったと判断できることを発見しました。

一般的に、この記事の研究結果からは 4 つの結論を導き出すことができます。

1. 大規模で高精度なモデルが他のモデルにはない新しい予測を行った場合、そのうちの約 50% が正しい新しいマルチラベルです。

2. より高精度のモデルでは、カテゴリとエラーの重大度の間に有意な相関関係は見られませんでした。

3. 今日の SOTA モデルは、人間による評価のマルチラベルサブセットにおいて、最高の専門家のパフォーマンスとほぼ同等か、それを上回ります。

4. ノイズの多いトレーニングデータと未指定のクラスは、画像分類の改善を効果的に測定する能力を制限する要因となる可能性があります。

おそらく、画像のラベル付け問題は、自然言語処理技術によって解決されるまで待たなければならないのでしょうか?

<<: 人工知能時代のアルゴリズムガバナンスの核心と道筋

>>: 10年後には自動運転車が普及するでしょうか？

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

一貫性のあるハッシュは難しいですか?これを読んで全て理解できました

10分で多言語チャットボットを作成する方法

この履歴書は人気があります：14nmコーヒーを手で挽き、マイクロソフトで性感染症を広め、90％の企業が和解の手を差し伸べる

大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

自動運転車の実現はAIと人間のゲームである

専門家の議論：AIの冬は本当に来るのか？

武器化されたAIとIoT攻撃は最大の技術的脅威となる

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

Google は Gen-2 を殴り、ピカを蹴り、大規模な AI ビデオモデルを開発するために 7 か月間懸命に取り組みました。時空構造の最初の言及、持続時間は壮大なレベルにまで延長される

推薦する

Apriori アルゴリズムの紹介 (Python 実装)

新技術により大規模人工知能モデルの処理性能が効果的に向上

AIGC時代のビデオ普及モデル、復旦チームらが分野初のレビューを発表

Pythonを使用して独自の音声認識システムをトレーニングします。この操作の波は安定しています

OpenAIがChatGPTをアップデート：画像と音声入力をサポート

人工知能の驚くべき5つの例

VR時代、eスポーツは新たな輝きを放つ

MySQLにおける結合アルゴリズムの実装原理の分析

ディープラーニングに基づくターゲット検出ネットワークが誤検出を起こす可能性がある理由と、ターゲット検出の誤検出問題を最適化する方法について説明します。

TikTokの背後にあるAIの仕組み

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?