CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる:トップモデルはすべて予測に失敗する

過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました。精度率が向上したかどうかを見ることで、新しい技術が登場したかどうかを知ることができます。

「ランキング操作」は常にモデルの革新の原動力であり、モデルのトップ 1 精度を 90% 以上まで押し上げ、これは人間の精度を上回っています。

しかし、ImageNet データセットは本当に私たちが考えているほど有用なのでしょうか?

多くの論文では、データの範囲、バイアスの問題、ラベルが完全かどうかなど、ImageNet に関する疑問が提起されています。

最も重要な質問は、モデルの 90% の精度は本当に正確であるかということです。

最近、Google Brain チームとカリフォルニア大学バークレー校の研究者がいくつかの SOTA モデルの予測結果を再検討したところ、モデルの真の精度が過小評価されている可能性があることを発見しました。

論文リンク: https://arxiv.org/pdf/2205.04596.pdf

研究者らは、ベンチマーク データセットのロングテール エラーに関する洞察を得るために、トップ モデルの一部が犯したすべての間違いを手動で確認し、分類しました。

主な焦点は ImageNet のマルチラベル サブセット評価にあり、最良のモデルは 97% の Top-1 精度を達成できます。


この研究の分析結果によると、いわゆる予測エラーの約半分はまったくエラーではなく、画像に新しいマルチラベルが見つかりました。つまり、予測結果が手動でレビューされていない場合、これらのモデルのパフォーマンスは「過小評価」される可能性があります。

熟練していないクラウドソーシング データ ラベラーは、データに誤ったラベルを付けることが多く、モデルの精度の信頼性に大きな影響を与えます。

ImageNet データセットを調整し、将来の健全な進歩を促進するために、研究者は記事で更新されたマルチラベル評価セットを提供し、sota モデルの予測に明らかなエラーがある 68 の例を新しいデータセット ImageNet-Major に統合して、将来の CV 研究者がこれらの悪いケースを克服できるようにしています。

技術的負債の返済

記事のタイトル「生地はいつベーグルになるのか?」から、著者は主に、歴史的な問題でもある ImageNet のラベル付け問題に関心を持っていることがわかります。

下の図はラベルの曖昧さの典型的な例です。図のラベルは「生地」ですが、モデルの予測結果は「ベーグル」です。これは間違っていますか?

理論的には、このモデルには予測誤差はありません。生地は焼かれており、すぐにベーグルになるため、生地であると同時にベーグルでもあるからです。

モデルは実際に生地がベーグル「になる」ことを予測できたことがわかりますが、正確さの点数は獲得できませんでした。

実際、標準的な ImageNet データセットの分類タスクを評価基準として使用すると、マルチラベルの欠如、ラベルノイズ、カテゴリの未指定などの問題が避けられません。

このようなオブジェクトの識別を担当するクラウドソーシングの注釈者の観点から見ると、これはマルチラベリングによってのみ解決できる意味論的かつ哲学的な問題であるため、ImageNet の派生データセットの主な改善点はラベリングの問題です。

ImageNet が設立されてから 16 年が経ちました。当時のラベル作成者やモデル開発者は、今日ほどデータに対する理解が深かったわけではありません。ImageNet は初期の大容量で、比較的ラベル付けが行き届いたデータセットであったため、CV ランキングの標準として自然に定着しました。

しかし、データのラベル付けにかかる予算はモデルの開発にかかる予算ほど多くないことは明らかであり、ラベル付けの問題の改善も一種の技術的負債となっています。

ImageNet に残っているエラーを見つけるために、研究者らは、30 億のパラメータ (89.5% の精度を達成可能) を持つ標準の ViT-3B モデルと、事前トレーニング済みモデルとして ImageNet-1K で微調整された JFT-3B を使用しました。

ViT-3B は、ImageNet2012_multilabel データセットをテスト セットとして使用し、当初 96.3% の精度を達成しました。そのうち、モデルは 676 枚の画像を明らかに誤って予測したため、これらの例について詳細な調査を実施しました。

データを再ラベル付けする際、著者らはクラウドソーシングを選択せず​​、代わりに 5 人の専門家レビュー担当者のチームを結成してラベル付けを行った。これは、このようなラベル付けのエラーは専門家以外の人が特定するのが難しいためである。

たとえば、図 (a) では、一般的な注釈者は単に「テーブル」と書くかもしれませんが、実際には、画面、モニター、マグカップなど、画像には他にも多くのオブジェクトがあります。

図 (b) の主題は 2 人ですが、ラベルはピケット フェンスであり、明らかに不完全です。他の可能性のあるラベルとしては、蝶ネクタイ、制服などがあります。

図(c)も明らかな例です。「アフリカゾウ」とだけ記しておけば、象牙は見落とされてしまう可能性があります。

図(d)は湖岸と表示されていますが、実際には海岸と表示しても問題ありません。

研究者らは、注釈付けの効率を高めるために、モデルの予測カテゴリ、予測スコア、ラベル、画像を同時に表示できる専用ツールも開発しました。

場合によっては、専門家グループ内でラベルをめぐって論争が起こることもあります。このとき、ラベル付けを支援するために、画像は Google 検索にかけられます。

たとえば、ある例では、モデルの予測にはタクシーが含まれていましたが、画像には「少し黄色」以外にタクシーの標識はありませんでした。

この画像は主にGoogle画像検索を通じて注釈が付けられ、画像の背景には象徴的な橋があることが判明した。研究者らはその後、画像が位置する都市を特定し、その都市のタクシーの画像を取得し、画像には普通の車ではなくタクシーが含まれていることを確認した。また、ナンバープレートのデザインを比較することで、モデルの予測が正しいことも検証されています。

研究のいくつかの段階で発見されたエラーを最初に検討した後、著者らはまず、エラーの重大度に基づいてエラーを 2 つのカテゴリに分類しました。

1. 重大なエラー: 人間はラベルの意味を理解できますが、モデルの予測はラベルとはまったく関係がありません。

2. 軽微なエラー: ラベルが間違っているか不完全で、予測エラーが発生する可能性があります。データをレビューして修正するには専門家が必要です。

ViT-3B モデルによって発生した 155 の主要なエラーについては、研究者らは予測結果の多様性を向上させるために、他の 3 つのモデルに共同予測を行うよう依頼しました。

4 つのモデルすべてが予測できなかった重大なエラーは 68 件ありました。次に、これらの例についてすべてのモデルの予測を分析し、いずれも正しい新しいマルチラベルではない、つまり各モデルの予測が重大なエラーであったことを確認しました。

これら 68 の例には、いくつかの共通の特徴があります。1 つ目は、さまざまな方法でトレーニングされた Sota モデルがすべてこのサブセットで間違いを犯し、専門家のレビューでも予測結果が正確性とはまったく関係がないと判断されたことです。

68 枚の画像のデータセットは、後続の研究者による手動評価を容易にするのに十分なほど小さいです。将来、これらの 68 の例が克服されれば、CV モデルは新たなブレークスルーを達成する可能性があります。

研究者たちはデータを分析して、予測誤差を次の 4 つのタイプに分類しました。

1. 予測されたクラスは実際のラベルに似ているが、まったく同じではない、きめ細かいエラー。

2. 語彙外(OOV)を含む細粒度。モデルは正しいカテゴリを識別しますが、オブジェクトは ImageNet に存在しません。

3. 予測ラベルが画像のコンテキストから読み取られる誤った相関関係。

4. 非プロトタイプ。ラベル内のオブジェクトは予測されたラベルに似ていますが、まったく同じではありません。

研究者らは、元の 676 件の誤りを検討した結果、そのうち 298 件は正しいはずであり、そうでなければ元のラベルが間違っていたか問題があったと判断できることを発見しました。

一般的に、この記事の研究結果からは 4 つの結論を導き出すことができます。

1. 大規模で高精度なモデルが他のモデルにはない新しい予測を行った場合、そのうちの約 50% が正しい新しいマルチラベルです。

2. より高精度のモデルでは、カテゴリとエラーの重大度の間に有意な相関関係は見られませんでした。

3. 今日の SOTA モデルは、人間による評価のマルチラベル サブセットにおいて、最高の専門家のパフォーマンスとほぼ同等か、それを上回ります。

4. ノイズの多いトレーニング データと未指定のクラスは、画像分類の改善を効果的に測定する能力を制限する要因となる可能性があります。

おそらく、画像のラベル付け問題は、自然言語処理技術によって解決されるまで待たなければならないのでしょうか?

<<:  人工知能時代のアルゴリズムガバナンスの核心と道筋

>>:  10年後には自動運転車が普及するでしょうか?

ブログ    
ブログ    

推薦する

従来のグラフエンジンから GNN へ: 計算グラフと機械学習の進化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能の時代に人権と民主主義をどう守るか

人工知能 (AI) システムは近年急速に普及しており、特に 2023 年には大規模言語モデル (LL...

LeCun の最新インタビュー: 物理世界が最終的に LLM の「アキレス腱」となるのはなぜでしょうか?

人工知能の分野では、65歳になってもソーシャルメディアで活発に活動しているヤン・ルカンのような学者は...

米国のAI雇用市場の現在の規模を解読する

[[342720]] 人工知能の分野でのこの国の雇用機会はどのようなものでしょうか?私たちはすべてが...

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

プルーフ・オブ・ワーク最も一般的なブロックチェーンのコンセンサス アルゴリズムは、ビットコインのプル...

ディープラーニングの本質を探りますか?

[[184749]] 1. 人工知能の波が再び高まっている画期的な出来事:AlphaGoがイ・セド...

2018年、ブロックチェーンは監査人の仕事を破壊するでしょうか?

電卓が普及した後、そろばんの使い方しか知らなかった会計士は失業した。ゴールドマン・サックスは最盛期に...

今年の春節旅行は異例、テクノロジーが鍵

今年も春節の旅行シーズンがやってきましたが、今年は明らかに例年とは違います。今年は、感染症予防・抑制...

...

...

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

プライバシー技術: 「AI レース」に勝つための秘密のアドバンテージ

AI 競争が始まっており、世界中の企業が AI ベースのイノベーションにおける世界的優位性を求めて競...

持続可能なスマートシティの開発におけるスマートビルの重要な役割

[[388162]]画像ソース: https://pixabay.com/images/id-158...