AI の知覚を人間の知覚と直接比較できないのはなぜですか?

AI の知覚を人間の知覚と直接比較できないのはなぜですか?

人間レベルのパフォーマンス、人間レベルの精度…顔認識、物体検出、問題解決など、AI システムを開発する企業では、このような発言をよく耳にします。機械学習とディープラーニングの継続的な進歩により、近年ではますます多くの優れた製品が AI アルゴリズムを実装の基盤として使い始めています。

ただし、このような比較では、限られたデータセットでディープラーニング アルゴリズムをテストした結果のみが考慮されることがよくあります。重要なタスクが AI モデルに急いで引き渡されると、このようなずさんな評価基準によって AI システムに対する誤った期待が生じることが多く、危険な結果をもたらす可能性さえあります。

ドイツの組織と大学による最近の調査では、視覚データ処理の分野におけるディープラーニング技術のパフォーマンスを評価する際に直面する実際的な課題が強調されています。 「人間と機械の知覚の比較:悪名高いほど難しい問題」と題された論文の中で、研究者らは、ディープニューラルネットワークの認識能力を人間の視覚システムの認識能力と比較する現在の方法のいくつかの重要な問題点を指摘している。

この研究では、科学者たちは、ディープラーニングの結果の深い内容を掘り下げ、それを人間の視覚システムの機能と比較するなど、一連の実験を実施しました。彼らの研究結果は、AI が人間に近い、あるいはそれを凌駕する視覚認識能力を持っているように見えても、これらの結果を慎重に見る必要があることを私たちに思い出させます。

人間とコンピュータの視覚の複雑さ

人間の知覚の基礎、特にそれを再現する方法についての果てしない探求において、ディープラーニングに基づくコンピューター ビジョン テクノロジーは最も印象的な成果を達成しました。畳み込みニューラル ネットワーク (CNN) は、コンピューター ビジョンのディープラーニング アルゴリズムでよく使用されるアーキテクチャであり、従来のソフトウェアでは実現できない困難なタスクを実行できます。

しかし、ニューラル ネットワークを人間の知覚と比較することは、依然として大きな課題です。その理由は、一方では、人間の視覚システム、さらには人間の脳全体に対する理解が不十分であるからです。他方では、ディープラーニングシステム自体の複雑な動作メカニズムも、まだ解明されていません。実際、ディープ ニューラル ネットワークは非常に複雑なため、作成者でさえ困惑することがよくあります。

近年、ニューラル ネットワークの内部の仕組みと、現実世界の状況に対処する際の堅牢性を評価するための研究が数多く行われています。 「広範囲にわたる研究にもかかわらず、人間の知覚と機械の知覚を比較することは依然として極めて困難である」とドイツの研究者らは論文に記している。

この研究では、科学者たちは、人間とディープニューラルネットワークが視覚データを処理する方法を評価するために、3つの中核領域に焦点を当てました。

ニューラルネットワークはどのようにして輪郭を認識するのでしょうか?

最初のテストは輪郭検出です。この実験では、人間と AI の参加者に、提示された画像に閉じた輪郭が含まれているかどうかを尋ねる質問が行われました。目標は、ディープラーニング アルゴリズムが閉じた形状と開いた形状の概念を習得しているかどうか、またさまざまな条件下で概念定義を満たすオブジェクトを正常に検出できるかどうかを理解することです。

▲上の画像のうち、閉じた図形が含まれているものはどれかわかりますか?

「人間にとって、画像は多数の開いた輪郭に囲まれた閉じた輪郭として見える」と研究者らは書いている。「対照的に、DNN は閉じた輪郭を検出するのが難しいかもしれない。なぜなら、ニューラル ネットワークは閉じた輪郭を他の形状と一体化したものとして扱う可能性があるからだ。」

科学者たちは実験で、マイクロソフトの AI 研究者が開発した人気の畳み込みニューラル ネットワークである ResNet-50 を使用しました。彼らは転移学習技術を用いて、14,000枚の閉じた輪郭画像と開いた輪郭画像を使用してAIモデルを微調整しました。

次に、他の同様のトレーニングデータ(異なる方向のグラフィックを使用)を使用して AI をテストしました。予備調査の結果、訓練されたニューラル ネットワークは閉じた輪郭の基本概念を理解したようだと示唆されています。トレーニング データセットには直線のみが含まれていますが、モデルは曲線でも優れたパフォーマンスを発揮します。

「これらの結果は、私たちのモデルが開いた輪郭と閉じた輪郭の概念を理解しており、その判断プロセスが人間のものと非常に似ていることを示唆している」と科学者らは書いている。

▲トレーニングデータセットに直線のみが含まれている場合でも、モデルは曲線を処理する際に優れたパフォーマンスを発揮します。

しかし、さらに調査を進めると、人間の判断には影響しない特定の要因が AI モデルの精度を低下させる可能性があることが判明しました。たとえば、線の色や幅を調整すると、ディープラーニング モデルの精度が大幅に低下する可能性があります。このモデルは、一定の大きさを超える形状について正しい判断を下すのにも問題があるようでした。

▲グラフィックにさまざまな色や線の太さが含まれており、全体のサイズがトレーニングセットの画像よりもはるかに大きい場合、ResNet-50ニューラルネットワークが正確な判断を下すことは困難になります。

さらに、ニューラル ネットワークは敵対的摂動に対しても非常に敏感です。いわゆる敵対的干渉は、慎重に計画された変更の一種です。これらの変化は人間の目には見えませんが、機械学習システムの動作に大きな影響を与える可能性があります。

▲右の画像は敵対的干渉処理を施したものです。人間の目には、2 つの画像に違いは見えませんが、ニューラル ネットワークにとっては、2 つの画像はまったく異なります。

AI の意思決定プロセスをさらに調査するために、科学者たちは、深層学習モデルの決定に使用されるデータのビットを見つけるために設計された手法である Bag-of-Feature ネットワークを使用しました。分析結果は、「ニューラル ネットワークは、分類にラベルを付けるときに、エンドポイントや短いエッジなどの特定のローカル機能を強力な証拠として使用する」ことを証明しています。

機械学習は画像について推論できますか?

2 番目の実験は、抽象的な視覚的推論におけるディープラーニング アルゴリズムのパフォーマンスをテストすることを目的としました。実験に使用されたデータは、合成視覚推論テスト(SVRT)に基づいており、AI は画像内のさまざまな形状の関係についての一連の質問に答える必要があります。テストの質問は、違いを見つけること(例:画像内の 2 つの図形は同じですか?)から空間の判断(例:小さい図形は大きい図形の中央にありますか?)まで多岐にわたります。人間の観察者はこれらの問題を簡単に解決できます。

▲SVRTチャレンジでは、違いの発見や空間判断などのタスクを解決するAIモデルが必要です。
実験では、研究者らはRESNet-50を使用して、さまざまなサイズのトレーニングデータセットでのパフォーマンスをテストしました。結果は、28,000 個のサンプルで微調整した後のモデルが、差異の検出と空間判断のタスクの両方で優れたパフォーマンスを発揮することを示しています。 (以前の実験では、小さなニューラルネットワークと100万枚のサンプル画像が使用されていました。)研究者がトレーニング例の数を減らすと、AIのパフォーマンスが低下し始め、間違い探しのタスクでは低下が加速しました。

「しかしながら、スポット差異タスクが空間判断タスクよりも多くのトレーニング例を必要とするという事実は、フィードフォワードニューラルネットワークと人間の視覚システムとの間の体系的な違いの証拠にはならない」と研究者らは書いている。

研究者らは、人間の視覚システムは、多数の抽象的な視覚的推論タスクで自然に訓練されていると指摘している。したがって、低いデータサンプルサイズでしか学習できないディープラーニング モデルを直接比較することは公平ではありません。したがって、人間と AI が内部情報を処理する方法に違いがあると早急に結論付けることはできません。

「人間の視覚システムは、ゼロから訓練すれば、両方の認識タスクにおいてResNet-50と同様のパフォーマンスを発揮する可能性が高い」と研究者らは書いている。

ディープラーニングにおけるギャップ識別の測定

ギャップ別れは、視覚システムの最も興味深いテストの 1 つと考えることができます。次の写真を例にとると、完成した画像に何が写っているか推測できますか?

これは猫であることに疑いの余地はない。左上の部分画像から、画像の内容を簡単に予測できるはずです。言い換えれば、人間は画像内の物体を認識する前に、ある程度の全体的な形状やパターンを見る必要があるのです。局所的な拡大が誇張されるほど、失われる特徴が増え、画像内の内容を区別することが難しくなります。

▲画像に含まれる特徴に応じて、子猫の画像のさまざまな部分を局所的に拡大すると、人間の知覚にさまざまな影響が及びます。

ディープラーニングシステムの判断も特徴に基づいていますが、具体的な方法はより微妙です。ニューラル ネットワークは、肉眼では見えない小さな特徴を検出できる場合があり、局所領域を拡大した場合でも、これらの特徴を正しく検出できます。

最後の実験では、研究者らは、AIモデルの精度が大幅に低下し始めるまで画像を徐々にズームインすることで、ディープニューラルネットワークのギャップ識別を測定しようとした。

この実験は、人間の画像ギャップ識別とディープニューラルネットワークの間に大きな違いがあることを示しています。しかし研究者らは論文の中で、ニューラルネットワークによるギャップ識別のこれまでのテストのほとんどは、人間が選択したローカルグラフに基づいていたと指摘している。こうした局所的な選択は、多くの場合、人間の視覚システムに利益をもたらします。

研究者たちは、「機械が選択した」ローカルグラフを使用してディープラーニングモデルをテストしたところ、ギャップの特定において人間と AI のパフォーマンスはほぼ同じであることを発見しました。

▲ギャップ識別テストでは、局所画像がAI判断の精度に及ぼす具体的な影響を評価できます。

「これらの結果は、人為的なバイアスを避けるために、人間と機械の比較は同一の基準で実施する場合にのみ避けられることを示唆している」と研究者らは記している。「観察される違いがテスト手順ではなく意思決定戦略の違いによるものであることを保証するために、すべての条件、コマンド、手順は人間と機械の間で可能な限り近いものにすべきである。」

AIと人間の知能のギャップを埋める

AI システムの複雑さが増すにつれて、AI テストのためのより洗練された方法を開発する必要が出てきます。この分野におけるこれまでの研究では、コンピューター ビジョン システムの精度を測定するために使用される一般的なベンチマークのほとんどが、いくぶん誤解を招くものであることが示されています。ドイツの研究者によるこの研究は、人工知能のパフォーマンスをより正確に測定し、AIと人間の知能の真の違いを正確に定量化することを目的としています。彼らが得た結論は、将来の AI 研究の方向性も示すことになるでしょう。

「人間と機械の比較研究は、人間の解釈の心の強い偏りの影響を受けることが多い」と研究者らは結論付けている。「適切な分析ツールを選択し、広範囲にわたるクロスチェック(ネットワーク アーキテクチャのバリエーション、統一された実験手順、一般化テスト、敵対的サンプル、制約付きネットワーク テストなど)を実施することによってのみ、結果を解釈し、この自動的な偏りに対処することができます。要約すると、人間と機械の認識を比較する場合、体系的な偏りを課さないように注意する必要があります。」

<<:  初心者ガイド: アルゴリズムとは何ですか? 11行の擬似コードで説明します

>>:  世界のAI支出は2024年に1100億ドルに達すると予想

ブログ    
ブログ    
ブログ    

推薦する

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

ナスダックがAIGCに対して強気であることは疑いの余地がない。 Nasdaq の CIO 兼 CTO...

必要なものを教えていただければ、当社のAIがコードを作成します

何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...

...

拡散モデル画像理解力がSOTAをリフレッシュ! ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

テキストから画像への (T2I) 拡散モデルは、大規模な画像とテキストのペアで事前トレーニングされて...

機械学習モデルをトレーニングする際に避けるべき 6 つの間違い

[51CTO.com クイック翻訳] AI や機械学習モデルの開発は簡単ではありません。さまざまなシ...

ChatGPT、画像や動画コンテンツを生成するCanvaプラグインをリリース

9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...

一般的なスマートカーの7つの技術についてお話ししましょう

ハイテク業界は常に進化しており、毎週新たな革命的な変化が起こっています。当然のことながら、関連するニ...

...

...

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。これらの機械学習アルゴリズムが理解できません。アルゴリ...

PS 2021 では、さまざまな新しい AI テクノロジーが導入されます。 Meitu Xiuxiuよりも使いやすい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

誰でも使えるディープラーニング: 3 つの主要な自動化ディープラーニング プラットフォームの紹介

ディープラーニング技術は複雑で、ゼロから開発するのが難しい場合が多いですが、Microsoft の ...

自動運転がどんどん近づき、高精度地図の実用化も加速

近年、自動運転技術の急速な発展とインテリジェントコネクテッドカーの導入が進む中、鍵となる高精度地図の...