人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

[[270985]]

研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャから手がかりを得るため、画像分類に苦労することが多いことに驚きました。

猫の写真を見ると、オレンジ色の猫なのかトラ猫なのかをすぐに見分けられることがよくあります。さらに、画像が白黒かどうか、斑点があるかどうか、摩耗や色あせがあるかどうかなども、観察の過程で簡単に得られる結論です。さらに、これらの小さな生き物が枕の後ろに丸まっていたり、テーブルの上に素早く飛び乗ったりしているのも見られます。つまり、人間は気づかないうちに子猫をすぐに認識できるようになるのです。対照的に、ディープ ニューラル ネットワークによって駆動されるマシン ビジョン システムは、特定の状況では人間よりも優れた認識機能を提供できますが、構成がまれであったり、ノイズやその他の干渉要因があったりすると、システムは明確な内容の画像に対して無力になる可能性があります。

最近、ドイツの研究チームが意外な理由を発見しました。人間は画像内の物体の形状に敏感であるのに対し、ディープラーニングのコンピュータービジョンアルゴリズムは通常、物体の質感により注意を払っているのです。

5月に国際学習表現会議で発表されたこの研究結果は、人間と機械の「思考」方法の大きな違いと、人間の直感が人工知能を誤らせる可能性があることを浮き彫りにしている。この研究は、人間の視覚がなぜ現在の形に発達したのかについても示唆を与えている。

象の皮をかぶった子猫と時計でできた飛行機

たとえば、ディープラーニング アルゴリズムは、何千もの猫の画像や猫がいない画像が入力されるニューラル ネットワークです。システムはこのデータ内のパターンを見つけ、それを使用して、これまで見たことのない画像に適切なラベルを付ける方法を決定することができます。ネットワークのアーキテクチャは人間の視覚システムに似ていますが、より緩やかにモデル化されています。これは、接続のレイヤーによってネットワークが画像から段階的に抽象的な特徴を抽出できるためです。しかし、このシステムは実際には「ブラックボックス」プロセスです。正しい答えは得られますが、その答えがどこから来るのかはわかりません。 「私たちは、ディープラーニングのコンピュータービジョンアルゴリズムが機能する仕組みと、その能力を妨げる要因は何かを理解しようと努めてきました」と、この研究には関わっていないオレゴン州立大学のコンピューター科学者、トーマス・ディートリッヒ氏は述べた。

この目標を達成するために、一部の研究者は、画像の内容を変更した後、ネットワークが欺瞞によってどのような結論を導き出すかを調査し始めました。研究者たちは、ごく小さな変更によってシステムが画像内のオブジェクトにまったく誤ったラベルを付ける可能性がある一方で、大きな変更によってシステムがラベルを変更することはないことを発見しました。一方、他の専門家はネットワークを遡って画像内の個々の「ニューロン」の反応を分析し、これを使ってシステムが学習した特徴のいわゆる「活性化アトラス」を生成した。

ドイツのテュービンゲン大学の計算神経科学者マティアス・ベトゲ氏と精神物理学者フェリックス・ヴィッヒマン氏の研究室の科学者チームは、より定性的なアプローチを採用した。昨年、研究チームは、特定の種類のノイズで歪んだ画像でニューラルネットワークをトレーニングしたところ、同様の歪みを持つ新しい画像を分類する能力が人間よりも優れていたと報告した。しかし、これらの画像を新しいパターンで微調整するだけで、ネットワークを完全に騙すことができました。たとえ、新しい歪みが画像にすでに存在するものと何ら変わらないように見えたとしてもです。

この結果を説明するために、研究者たちは、おそらく非常に低い騒音レベルでも判断に大きな重みを持つ可能性があると推測した。この点では、テクスチャがかなり良い手がかりになるようです。 「長時間にわたって大量のノイズを追加しても、画像内の物体の形状係数はそれほど影響を受けません」と、ベスゲとヴィッヒマンの研究室の大学院生で、この研究論文の主執筆者であるロバート・ゲイロス氏は述べた。「一方、画像内の一部の局所構造は、わずかなノイズが追加されると極端に歪む可能性があります。」そこで、彼らは人間とディープラーニングシステムがどのように画像を処理するかをテストする巧妙な方法を思いついた。

Geirhos、Bethge、および彼らの同僚は、矛盾する手がかりを含む 2 つの画像を作成した。物体の形状は 1 つの物体から取得され、テクスチャは別の物体から取得された。たとえば、猫の輪郭をひび割れた灰色のテクスチャ (象の皮) で塗りつぶしたり、クマのテクスチャでアルミ缶を作成したり、時計の文字盤を積み重ねて飛行機の形を作成したりすることもできます。こうした画像は何百枚もありますが、人間は画像内の形状(猫、クマ、飛行機など)に基づいて、非常に正確にラベル付けすることができます。対照的に、4 つの異なる分類アルゴリズムは、オブジェクトを異なる方法で解釈し、象、缶、時計など、オブジェクトの質感を反映したラベルを付ける傾向がありました。

「これは、ディープフィードフォワードニューラルネットワークがどのように視覚認識を可能にし、どのように訓練されるかについての私たちの理解を変えるものです」と、この研究には関与していないコロンビア大学の計算神経科学者ニコラウス・クリーゲスコルテ氏は言う。

奇妙なことに、形状よりも質感を理解するという AI のアプローチは、ある程度理にかなっているように思えます。 「テクスチャは、より細かい形状として考えることができます」とクリーゲスコルテ氏は言います。ニューラル システムは、高精度の形状比率をより簡単に把握できます。テクスチャ情報を持つピクセルの数は、オブジェクトの境界を構成するピクセルの数をはるかに超えており、ニューラル ネットワークの最初のステップは、線やエッジなどのローカルな特徴を検出することです。 「それがテクスチャです」と、この研究には関わっていないトロントのヨーク大学の計算視覚科学者、ジョン・ツォトス氏は言う。「線分のグループはすべて同じように配置されています。」

Geirhos 氏とその同僚は、これらのローカルな特徴がニューラル ネットワークが画像分類タスクを完了するのに十分であることを示しました。実際、ベスゲ氏とこの研究のもう一人の著者であるポスドク研究員のヴィーランド・ブレンデル氏も、今年5月の会議で発表した論文の中でこれについて言及している。この研究ではディープラーニングシステムを構築しましたが、具体的な操作方法はディープラーニング技術が登場する前の分類アルゴリズムと非常に似ており、むしろ「機能パッケージ」に近いものです。最初に画像を多数の小さなブロックに分割しますが (Geirhos などの既存のモデルと同様)、他のモデルのように情報を徐々に統合して高レベルの特徴を抽出するのではなく、各小さなブロック内の画像コンテンツを即座に認識します (「このブロックには自転車の要素が含まれており、この他のブロックには鳥の要素が含まれています」など)。これらの決定を積み重ねて、異なるパッチ間の全体的な空間関係を考慮せずに、オブジェクトの実際の内容を決定します (「自転車を含むパッチがさらにある場合、画像には自転車が表示されます」)。しかし、この「愚かな方法」は驚くべき精度で物体を識別することができます。

「この発見は、ディープラーニングが従来のモデルとは根本的に異なるという仮定に疑問を投げかけるものだ」とブレンデル氏は言う。「ディープラーニングは依然として飛躍的な進歩ではあるが、一部の人が期待していたほど急進的ではないことは明らかだ」

この研究には関わっていないヨーク大学とトロント大学の博士研究員アミール・ローゼンフェルド氏によると、ニューラルネットワークの仕組みについて私たちが考えていることと、それが実際にどのように機能するか、人間の行動をどれだけ正確に再現できるかなどの間には、まだ「大きなギャップ」があるという。

ブレンデル氏も同様の見解を示し、ニューラルネットワークが人間と同じようにタスクを解決できると想定するのは簡単だが、「他の可能性があることを私たちは忘れたり、意図的に無視したりしている」と述べた。

より人間的な観察方法

現在のディープラーニング手法では、テクスチャなどのローカルな特徴をよりグローバルなパターンに統合できます。たとえば、形状に関して、「この論文は、アーキテクチャが形状に注意を払うことはできるものの、単に[標準的な画像を分類するように]トレーニングしただけでは、ニューラルネットワークが形状の概念を自動的に思いつくわけではないことを、驚くべき、しかし非常に説得力のある方法で実証しています」とクリーゲスコルテ氏は述べた。

Geirhos 氏は、チームがこれらのニューラル モデルにテクスチャを無視するよう強制すると何が起こるかを確認したかったのです。研究チームは、分類アルゴリズムのトレーニングに従来使用されてきた画像をさまざまなスタイルで「ペイント」し、実質的に有用なテクスチャ情報を取り除いた。新しい画像で各ディープラーニングモデルを再トレーニングすると、システムは次第に大きく、よりグローバルなパターンに焦点を当てるようになり、同時に人間に近い形状の好みも示すようになりました。

このようにして、アルゴリズムはノイズを含む画像をより適切に区別できるようになり、トレーニングなしでもコンテンツを認識できるようになります。 「形状ベースのネットワークは、より強力な認識機能を提供します」とゲイロス氏は言う。「これにより、特定のタスクに対して適切なバイアスの概念があることが分かります。」私たちの研究を例にとると、形状バイアスは視覚認識アルゴリズムをより斬新なシナリオに拡張することができます。 ”

この研究はまた、人間が自然にこの偏見を身につける可能性があることを示唆している。なぜなら、雑音や騒音が多い状況では、形状は私たちが見ているものをより明確に定義するのに役立つより強力な指標となるからだ。人間は三次元の世界に住んでおり、さまざまな条件や角度によって、多くの物体がさまざまな状態で現れます。また、触覚などの他の感覚は、必要に応じて物体認識機能を補完することができます。したがって、私たちの本来の思考では、形が質感よりも優先されると想定されています。 (一部の心理学者は、言語、学習、人間の形状バイアスの間に関連性があると提唱しています。幼い子供は訓練を受けると、形状要素に重点を置く特定のカテゴリの単語の学習に特化することができます。その結果、後に名詞や物体関連の語彙を習得すると、訓練を受けていない子供に比べて優れた学習能力を示すことがよくあります。)

ウィチャムン氏は、この研究は「データには私たちが認識している以上の偏見や影響力がある可能性がある」ということを思い出させるものだと語る。研究者がこの課題に直面したのは今回が初めてではない。顔認識プログラム、自動採用アルゴリズム、その他のニューラルネットワークは、特定の予期しない特徴を重視しすぎることがわかっている。これは、ニューラル ネットワークが使用しているトレーニング データにすでに根深いバイアスが組み込まれているためです。意思決定プロセスからこれらの不必要な偏見を排除することは非常に難しいことが多いことが判明していますが、ヴィッヒマン氏は、この新しい研究が新たな可能性を示しており、自信を与えてくれると考えています。

しかし、ゲイロスのモデルは形状に重点を置いているものの、大量のノイズや画像内の特定のピクセルの変動によって乱れる可能性があり、人間の視覚を再現できるようになるまでにはまだまだ長い道のりがあることを示唆している。 (同様に、ツォセノス研究室の大学院生であるローゼンフェルド、ツォトス、マルクス・ソルバッハは最近、機械学習アルゴリズムは人間と同じように異なる画像間の類似性を認識できないことを示す研究を発表しました。)しかし、クリゲスコルテは「この研究により、私たちはついに、コンピュータービジョン認識アルゴリズムが人間の脳のいくつかの重要なメカニズムを理解できないという実質的な問題に触れ始めています」と語り、ヴィッヒマンは「場合によっては、データセットに注意を払うことがより重要になる場合があります」と述べました。

この研究には関わっていないトロント大学のコンピューター科学者サンジャ・フィドラー氏も同意する。 「すべては、スマートなデータとスマートなタスクを設計できるかどうかにかかっています」と彼女は説明します。彼女と同僚は現在、ニューラル ネットワークに支援を提供して、最も重要な特徴を抽出できるようにする方法を研究しています。ゲイロス氏の研究結果に触発され、研究チームは最近、物体そのものを認識するだけでなく、どのピクセルが物体の輪郭や形状の一部であるかを判別できる画像分類アルゴリズムを訓練した。ネットワークは、一般的な物体認識タスクにおける判断レベルを自動的に向上させることができます。 「私たちは、単一のタスクを実行しているときは、当然のことながら、何に注意を向けるかを厳選し、さまざまな要因を無視します」とフィドラー氏は言う。「しかし、複数のタスクを実行しているときは、より多くの影響要因に気づく可能性が高くなります。そして、同じことがこれらのアルゴリズムにも当てはまります。」アルゴリズムがさまざまなタスクを解決するにつれて「さまざまな情報に対して偏りを持つようになる」という事実は、形と質感に関する実験でゲイロス氏が発見したこととよく一致している。

ディエトリッヒ氏は、この研究はすべて「ディープラーニングで何が起こっているのかをより深く理解するプロセスにおける刺激的な一歩」であると結論付けた。「これは、現在私たちを悩ませているいくつかの限界を克服するのに役立つかもしれません。ですから、私はこの一連の論文を称賛します。」

<<:  AI機能をエッジに拡張する方法: ストレージが基盤となる

>>:  Google Brain の新しいアルゴリズムは TPU を使用せずに AI トレーニングを高速化できる

ブログ    
ブログ    
ブログ    

推薦する

...

AIはサプライチェーンの脆弱性をある程度軽減できる

今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...

アルゴリズムは難しい、プログラミングは簡単ではない、プログラマーの苦労を誰が理解できるだろうか?

[[199239]]今日は、プログラマーにとっての困難がどこにあるのかについて議論しましょう。アル...

Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入

Nvidia は大きな注文を受けるのでしょうか? 1 回のトランザクションには 16,000 個の ...

Facebookは色を表現するために通信する2つのニューラルネットワークを作成

色をどのように表現するか考えたことはありますか?最新の研究によると、人間は個別の記号を使用して領域の...

15年以内に恐竜を繁殖させる、マスクは恐竜を​​月に送りたいのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

検討する価値がある: 197 億ドル、2021 年のマイクロソフトの AI 変革の道筋

モバイル インターネットと人工知能の時代、新しい波が古い波を浜辺で打ちのめし続ける中、マイクロソフト...

...

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...

Baidu Brainのインテリジェント会話エンジンが9つのコア機能のリリースで「警笛を鳴らす」

言語は思考と知識を伝達し、人類の文明を推進します。そして会話によって機械はより賢くなり、人間にとって...

AIとクラウドワークロードがデータセンターの需要を牽引

JLLの新しいレポートでは、人工知能とエッジコンピューティングの採用が増加するにつれて、データセンタ...

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

ドローンのアフターサービス市場の改善が必要

最近、ニュースの表紙でドローンが人を負傷させたというニュースが報道され、ネットワーク全体の注目を集め...

2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...