強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

▲ テーブルの上にいるのはマンホールの蓋でしょうか、それともトンボでしょうか?(写真提供:ダン・ヘンドリックス)

▲ 写真はグリーンイグアナでしょうか、それともリスでしょうか?(写真提供:ダン・ヘンドリックス)

▲これは一輪車でしょうか、それとも道路を横断するワニでしょうか?(写真提供:ダン・ヘンドリックス)

人間にとって、答えは明白です。しかし、世界最強の画像認識人工知能でも、上記の問題は解決できません。

これは、各写真が慎重に選択され、画像認識技術を「騙す」ように特別に設計されているためです。これらの写真は、カリフォルニア大学バークレー校、ワシントン大学、シカゴ大学の研究者らが収集した7,000枚の写真の専門データセットから集められたものである。

「現在の(機械学習)モデルは完璧ではない」と、カリフォルニア大学バークレー校のコンピューターサイエンスの博士課程の学生で、論文の著者でもあるダン・ヘンドリックス氏は言う。「人工データを使ってモデルを改善しようとする研究は数多くあるが、こうしたモデルは、(実際の写真から得た)特定の実データに直面すると、深刻かつ一貫して非常に大きな誤りを犯すことが多いことがわかった。」

この問題の重要性を説明するために、まず画像認識技術の発展を振り返ってみましょう。

画像認識ツールはここ数年で性能が向上し、高速化しました。これは主に、スタンフォード大学によって作成され、規模が拡大し続けているオープン データセットである ImageNet のおかげです。現在、データセットには 1,400 万枚以上の写真が含まれており、それぞれに「木」や「空」などのタグが付けられています。この巨大なデータベースは、人工知能のトレーニング教材の重要なコレクションとなっており、新しい AI システムが画像認識システムをトレーニングするための参照ベンチマークとしても使用できます。例えるなら、幼児が新しい言葉を学ぶための絵本のようなものです。現在、ImageNetを使用してトレーニングされた人工知能は、物体認識精度が最大95%と非常に高い精度を誇り、画像の内容の判別においては人間よりも優れています。

しかし、この最後の 5% の精度ギャップに対処することは大きな課題です。 2017年以降、コンピューターは画像を正確に認識することが比較的苦手になっています。そのため、研究者たちは、コンピューターが特定の画像を解釈できない理由を理解しようとしています。

研究者らは、新しい画像コレクションを使用して、ヤフーが所有する写真共有サイトFlickrでAIソフトウェアを混乱させる可能性のある写真を手動で検索した。次に、ImageNet データセットでトレーニングされた AI モデルでテストを行い、モデルが写真の内容を認識できなかった場合は、ImageNet-A (明らかに、名前は Anti-ImageNet の略) と呼ばれる新しいデータセットに追加されました。これら 7,000 枚の写真を識別する際、AI の精度は急速に 90% から 2% に低下しました。はい、お読みの通り、世界で最も先進的な視覚 AI モデルは、これらの写真の 98% を正しく識別できませんでした。

AI システムがこれらの画像を理解できない理由については、かなり複雑な問題です。

現在の AI トレーニングでは、基本的に大量のデータを「ブラックボックス」に投入します。つまり、最終結果に基づいてのみ精度を判断できます。たとえば、「ブラック ボックス」が木のさまざまな画像を十分に確認すると、新しい写真内の木のオブジェクトを認識し始め、トレーニングが成功したとみなされます (このタイプの反復タスクは機械学習と呼ばれます)。しかし問題は、AIが木を識別するためにどのような指標に頼っているのかが分からないことです。形でしょうか?色でしょうか?背景でしょうか?質感でしょうか?それとも、木には人間が気付いたことのない統一された核となる幾何学的パターンがあるのでしょうか?科学者は今のところこの疑問に答えることができません。

つまり、AI の能力の判断は、推論プロセスではなく結果によって行われます。これは、AI に予期せぬ偏りが発見される可能性があり、それが自動運転車や刑事司法などの分野における AI システムの実用化に影響を及ぼす可能性があることを意味します。とりわけ、これは画像認識システムが真にインテリジェントなものではなく、むしろ強力なマッチング ツールであることを意味します。

ImageNet-A データセットは、まさに AI を「騙す」ために構築され、これらの画像がシステムが正しい答えを見つけるのを妨げる理由を結論付けています。たとえば、AI がリスの写真をアシカと間違えると、AI の深い知性と推論能力の欠如が直接露呈します。システムは、識別のために、物体の相対的な大きさや形状ではなく、動物の質感のみに依存する場合があります。 「物体の形状の正しい判断を必要とする写真は、AIモデルを騙す可能性が最も高いようです」とヘンドリックス氏は語った。

研究者たちは、ImageNet-A を使用して、視覚 AI における 7,000 個の盲点を発見することに成功しました。しかし、これは、これらの画像を使用して、AI モデルのこの大きな問題を修正するための新しいトレーニング セットを構築できることを意味するのでしょうか。答えはおそらく「いいえ」です。 「現実世界には膨大な多様性と複雑さがあるため、これらの画像でトレーニングしても、モデルが視覚入力情報の全範囲を本当に確実に管理する方法を学習できない可能性があります」とヘンドリックス氏は言います。「たとえば、1兆枚の画像を収集してラベル付けすれば、モデルの盲点の一部に対処するのに十分かもしれませんが、新しいシーンが現れたり、環境が変化したりすると、以前は修正されていた盲点が再び露呈する可能性があります。」

言い換えれば、機械学習データセットに写真を追加するだけでは、AI モデルのロジックの根本的な欠陥は解決されません。結局のところ、コンピューターがこれまで見たことのない画像が必ず存在するのです。では、研究者はこの最後の 5% の精度ギャップにどのように対処するのでしょうか。ヘンドリックス氏は、より洗練された AI システムを作成するには、現代の機械学習の範囲外で新しい方法を開発する必要があると説明しています。そして、この目標を達成するまで、人間はまだ小さな優越感を保つことができます。現時点では、AI はまだいくつかの面で人間に匹敵することができません。

<<:  Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

>>:  Github で 12000 以上のスターを獲得した機械学習のチュートリアル。理論、コード、デモが含まれています。

ブログ    
ブログ    

推薦する

...

...

5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド

あらゆるもののインターネット化への道のりにおいて、自動化、5G、人工知能、音声技術、ブロックチェーン...

人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リア...

推奨システムでよく使用される推奨アルゴリズム

[[172692]] 1. 推奨システムと共通評価指標の概要1.1 推薦システムの特徴私は Zhih...

インベントリ | 知らないかもしれないディープラーニングの応用事例 8 つ

ディープラーニングは、多層人工ニューラル ネットワークを使用してコンピューター ビジョンから自然言語...

...

「ニューラル+シンボリック」:知識グラフの観点から見た認知推論の発展

[[376956]]過去10年間の人工知能の波の中で、ディープラーニングに代表される人工知能技術は、...

デジタルマーケティング: AI はどのようにして人間の行動パターンを「見抜く」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

何が足りないのでしょうか?現在の機械学習教育の欠点

[[347910]]ビッグデータダイジェスト制作出典: thegradient編集者: フィッシャー...

ガートナーが中国のAIスタートアップに関するレポートを発表:ほとんどの企業がこれら3つの技術に注目

最近、著名な国際データ調査機関であるガートナーが「市場ガイド:中国AIスタートアップ」調査レポートを...

...

最終支払いを控える人々のダブル11不安:配達ロボットは解決できるか?

今年のダブル11のクライマックスが終わり、最後の支払いをしなければならなかった人たちも、速達を待つ苦...