人間は形を見るが、AIは質感を見る：コンピュータービジョン分類の失敗についての議論

[[270985]]

研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャから手がかりを得るため、画像分類に苦労することが多いことに驚きました。

猫の写真を見ると、オレンジ色の猫なのかトラ猫なのかをすぐに見分けられることがよくあります。さらに、画像が白黒かどうか、斑点があるかどうか、摩耗や色あせがあるかどうかなども、観察の過程で簡単に得られる結論です。さらに、これらの小さな生き物が枕の後ろに丸まっていたり、テーブルの上に素早く飛び乗ったりしているのも見られます。つまり、人間は気づかないうちに子猫をすぐに認識できるようになるのです。対照的に、ディープニューラルネットワークによって駆動されるマシンビジョンシステムは、特定の状況では人間よりも優れた認識機能を提供できますが、構成がまれであったり、ノイズやその他の干渉要因があったりすると、システムは明確な内容の画像に対して無力になる可能性があります。

最近、ドイツの研究チームが意外な理由を発見しました。人間は画像内の物体の形状に敏感であるのに対し、ディープラーニングのコンピュータービジョンアルゴリズムは通常、物体の質感により注意を払っているのです。

5月に国際学習表現会議で発表されたこの研究結果は、人間と機械の「思考」方法の大きな違いと、人間の直感が人工知能を誤らせる可能性があることを浮き彫りにしている。この研究は、人間の視覚がなぜ現在の形に発達したのかについても示唆を与えている。

象の皮をかぶった子猫と時計でできた飛行機

たとえば、ディープラーニングアルゴリズムは、何千もの猫の画像や猫がいない画像が入力されるニューラルネットワークです。システムはこのデータ内のパターンを見つけ、それを使用して、これまで見たことのない画像に適切なラベルを付ける方法を決定することができます。ネットワークのアーキテクチャは人間の視覚システムに似ていますが、より緩やかにモデル化されています。これは、接続のレイヤーによってネットワークが画像から段階的に抽象的な特徴を抽出できるためです。しかし、このシステムは実際には「ブラックボックス」プロセスです。正しい答えは得られますが、その答えがどこから来るのかはわかりません。「私たちは、ディープラーニングのコンピュータービジョンアルゴリズムが機能する仕組みと、その能力を妨げる要因は何かを理解しようと努めてきました」と、この研究には関わっていないオレゴン州立大学のコンピューター科学者、トーマス・ディートリッヒ氏は述べた。

この目標を達成するために、一部の研究者は、画像の内容を変更した後、ネットワークが欺瞞によってどのような結論を導き出すかを調査し始めました。研究者たちは、ごく小さな変更によってシステムが画像内のオブジェクトにまったく誤ったラベルを付ける可能性がある一方で、大きな変更によってシステムがラベルを変更することはないことを発見しました。一方、他の専門家はネットワークを遡って画像内の個々の「ニューロン」の反応を分析し、これを使ってシステムが学習した特徴のいわゆる「活性化アトラス」を生成した。

ドイツのテュービンゲン大学の計算神経科学者マティアス・ベトゲ氏と精神物理学者フェリックス・ヴィッヒマン氏の研究室の科学者チームは、より定性的なアプローチを採用した。昨年、研究チームは、特定の種類のノイズで歪んだ画像でニューラルネットワークをトレーニングしたところ、同様の歪みを持つ新しい画像を分類する能力が人間よりも優れていたと報告した。しかし、これらの画像を新しいパターンで微調整するだけで、ネットワークを完全に騙すことができました。たとえ、新しい歪みが画像にすでに存在するものと何ら変わらないように見えたとしてもです。

この結果を説明するために、研究者たちは、おそらく非常に低い騒音レベルでも判断に大きな重みを持つ可能性があると推測した。この点では、テクスチャがかなり良い手がかりになるようです。「長時間にわたって大量のノイズを追加しても、画像内の物体の形状係数はそれほど影響を受けません」と、ベスゲとヴィッヒマンの研究室の大学院生で、この研究論文の主執筆者であるロバート・ゲイロス氏は述べた。「一方、画像内の一部の局所構造は、わずかなノイズが追加されると極端に歪む可能性があります。」そこで、彼らは人間とディープラーニングシステムがどのように画像を処理するかをテストする巧妙な方法を思いついた。

Geirhos、Bethge、および彼らの同僚は、矛盾する手がかりを含む 2 つの画像を作成した。物体の形状は 1 つの物体から取得され、テクスチャは別の物体から取得された。たとえば、猫の輪郭をひび割れた灰色のテクスチャ (象の皮) で塗りつぶしたり、クマのテクスチャでアルミ缶を作成したり、時計の文字盤を積み重ねて飛行機の形を作成したりすることもできます。こうした画像は何百枚もありますが、人間は画像内の形状（猫、クマ、飛行機など）に基づいて、非常に正確にラベル付けすることができます。対照的に、4 つの異なる分類アルゴリズムは、オブジェクトを異なる方法で解釈し、象、缶、時計など、オブジェクトの質感を反映したラベルを付ける傾向がありました。

「これは、ディープフィードフォワードニューラルネットワークがどのように視覚認識を可能にし、どのように訓練されるかについての私たちの理解を変えるものです」と、この研究には関与していないコロンビア大学の計算神経科学者ニコラウス・クリーゲスコルテ氏は言う。

奇妙なことに、形状よりも質感を理解するという AI のアプローチは、ある程度理にかなっているように思えます。「テクスチャは、より細かい形状として考えることができます」とクリーゲスコルテ氏は言います。ニューラルシステムは、高精度の形状比率をより簡単に把握できます。テクスチャ情報を持つピクセルの数は、オブジェクトの境界を構成するピクセルの数をはるかに超えており、ニューラルネットワークの最初のステップは、線やエッジなどのローカルな特徴を検出することです。「それがテクスチャです」と、この研究には関わっていないトロントのヨーク大学の計算視覚科学者、ジョン・ツォトス氏は言う。「線分のグループはすべて同じように配置されています。」

Geirhos 氏とその同僚は、これらのローカルな特徴がニューラルネットワークが画像分類タスクを完了するのに十分であることを示しました。実際、ベスゲ氏とこの研究のもう一人の著者であるポスドク研究員のヴィーランド・ブレンデル氏も、今年5月の会議で発表した論文の中でこれについて言及している。この研究ではディープラーニングシステムを構築しましたが、具体的な操作方法はディープラーニング技術が登場する前の分類アルゴリズムと非常に似ており、むしろ「機能パッケージ」に近いものです。最初に画像を多数の小さなブロックに分割しますが (Geirhos などの既存のモデルと同様)、他のモデルのように情報を徐々に統合して高レベルの特徴を抽出するのではなく、各小さなブロック内の画像コンテンツを即座に認識します (「このブロックには自転車の要素が含まれており、この他のブロックには鳥の要素が含まれています」など)。これらの決定を積み重ねて、異なるパッチ間の全体的な空間関係を考慮せずに、オブジェクトの実際の内容を決定します (「自転車を含むパッチがさらにある場合、画像には自転車が表示されます」)。しかし、この「愚かな方法」は驚くべき精度で物体を識別することができます。

「この発見は、ディープラーニングが従来のモデルとは根本的に異なるという仮定に疑問を投げかけるものだ」とブレンデル氏は言う。「ディープラーニングは依然として飛躍的な進歩ではあるが、一部の人が期待していたほど急進的ではないことは明らかだ」

この研究には関わっていないヨーク大学とトロント大学の博士研究員アミール・ローゼンフェルド氏によると、ニューラルネットワークの仕組みについて私たちが考えていることと、それが実際にどのように機能するか、人間の行動をどれだけ正確に再現できるかなどの間には、まだ「大きなギャップ」があるという。

ブレンデル氏も同様の見解を示し、ニューラルネットワークが人間と同じようにタスクを解決できると想定するのは簡単だが、「他の可能性があることを私たちは忘れたり、意図的に無視したりしている」と述べた。

より人間的な観察方法

現在のディープラーニング手法では、テクスチャなどのローカルな特徴をよりグローバルなパターンに統合できます。たとえば、形状に関して、「この論文は、アーキテクチャが形状に注意を払うことはできるものの、単に[標準的な画像を分類するように]トレーニングしただけでは、ニューラルネットワークが形状の概念を自動的に思いつくわけではないことを、驚くべき、しかし非常に説得力のある方法で実証しています」とクリーゲスコルテ氏は述べた。

Geirhos 氏は、チームがこれらのニューラルモデルにテクスチャを無視するよう強制すると何が起こるかを確認したかったのです。研究チームは、分類アルゴリズムのトレーニングに従来使用されてきた画像をさまざまなスタイルで「ペイント」し、実質的に有用なテクスチャ情報を取り除いた。新しい画像で各ディープラーニングモデルを再トレーニングすると、システムは次第に大きく、よりグローバルなパターンに焦点を当てるようになり、同時に人間に近い形状の好みも示すようになりました。

このようにして、アルゴリズムはノイズを含む画像をより適切に区別できるようになり、トレーニングなしでもコンテンツを認識できるようになります。「形状ベースのネットワークは、より強力な認識機能を提供します」とゲイロス氏は言う。「これにより、特定のタスクに対して適切なバイアスの概念があることが分かります。」私たちの研究を例にとると、形状バイアスは視覚認識アルゴリズムをより斬新なシナリオに拡張することができます。 ”

この研究はまた、人間が自然にこの偏見を身につける可能性があることを示唆している。なぜなら、雑音や騒音が多い状況では、形状は私たちが見ているものをより明確に定義するのに役立つより強力な指標となるからだ。人間は三次元の世界に住んでおり、さまざまな条件や角度によって、多くの物体がさまざまな状態で現れます。また、触覚などの他の感覚は、必要に応じて物体認識機能を補完することができます。したがって、私たちの本来の思考では、形が質感よりも優先されると想定されています。（一部の心理学者は、言語、学習、人間の形状バイアスの間に関連性があると提唱しています。幼い子供は訓練を受けると、形状要素に重点を置く特定のカテゴリの単語の学習に特化することができます。その結果、後に名詞や物体関連の語彙を習得すると、訓練を受けていない子供に比べて優れた学習能力を示すことがよくあります。）

ウィチャムン氏は、この研究は「データには私たちが認識している以上の偏見や影響力がある可能性がある」ということを思い出させるものだと語る。研究者がこの課題に直面したのは今回が初めてではない。顔認識プログラム、自動採用アルゴリズム、その他のニューラルネットワークは、特定の予期しない特徴を重視しすぎることがわかっている。これは、ニューラルネットワークが使用しているトレーニングデータにすでに根深いバイアスが組み込まれているためです。意思決定プロセスからこれらの不必要な偏見を排除することは非常に難しいことが多いことが判明していますが、ヴィッヒマン氏は、この新しい研究が新たな可能性を示しており、自信を与えてくれると考えています。

しかし、ゲイロスのモデルは形状に重点を置いているものの、大量のノイズや画像内の特定のピクセルの変動によって乱れる可能性があり、人間の視覚を再現できるようになるまでにはまだまだ長い道のりがあることを示唆している。（同様に、ツォセノス研究室の大学院生であるローゼンフェルド、ツォトス、マルクス・ソルバッハは最近、機械学習アルゴリズムは人間と同じように異なる画像間の類似性を認識できないことを示す研究を発表しました。）しかし、クリゲスコルテは「この研究により、私たちはついに、コンピュータービジョン認識アルゴリズムが人間の脳のいくつかの重要なメカニズムを理解できないという実質的な問題に触れ始めています」と語り、ヴィッヒマンは「場合によっては、データセットに注意を払うことがより重要になる場合があります」と述べました。

この研究には関わっていないトロント大学のコンピューター科学者サンジャ・フィドラー氏も同意する。「すべては、スマートなデータとスマートなタスクを設計できるかどうかにかかっています」と彼女は説明します。彼女と同僚は現在、ニューラルネットワークに支援を提供して、最も重要な特徴を抽出できるようにする方法を研究しています。ゲイロス氏の研究結果に触発され、研究チームは最近、物体そのものを認識するだけでなく、どのピクセルが物体の輪郭や形状の一部であるかを判別できる画像分類アルゴリズムを訓練した。ネットワークは、一般的な物体認識タスクにおける判断レベルを自動的に向上させることができます。「私たちは、単一のタスクを実行しているときは、当然のことながら、何に注意を向けるかを厳選し、さまざまな要因を無視します」とフィドラー氏は言う。「しかし、複数のタスクを実行しているときは、より多くの影響要因に気づく可能性が高くなります。そして、同じことがこれらのアルゴリズムにも当てはまります。」アルゴリズムがさまざまなタスクを解決するにつれて「さまざまな情報に対して偏りを持つようになる」という事実は、形と質感に関する実験でゲイロス氏が発見したこととよく一致している。

ディエトリッヒ氏は、この研究はすべて「ディープラーニングで何が起こっているのかをより深く理解するプロセスにおける刺激的な一歩」であると結論付けた。「これは、現在私たちを悩ませているいくつかの限界を克服するのに役立つかもしれません。ですから、私はこの一連の論文を称賛します。」

<<: AI機能をエッジに拡張する方法: ストレージが基盤となる

>>: Google Brain の新しいアルゴリズムは TPU を使用せずに AI トレーニングを高速化できる

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

人間は形を見るが、AIは質感を見る：コンピュータービジョン分類の失敗についての議論

象の皮をかぶった子猫と時計でできた飛行機

より人間的な観察方法

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

より良い生活を実現するために、Hongheの2019年の新製品が発売されました

AIとデータ分析を活用してデータを収益化する4つの手法

フェイフェイ・リーがツイッターの取締役に就任：AI技術を活用して変革を推進し続ける

ディープラーニングにおける多体問題の解決方法

Facebookの新しいAIモデルは、英語以外の言語から英語以外の言語に直接翻訳できる

また一人の科学者が学界に復帰、AI産業の発展は冷え込みつつあるのか？

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか？

近年の機械学習の奇妙な状況

Google は、大規模モデルが啓示を達成できること、特別な方法によってモデルを迅速に一般化できること、または大規模モデルのブラックボックスを破ることができることを証明しています。

推薦する

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

XNOR-NETテクノロジー詳細解説：AIテクノロジーがモバイル端末に搭載され、新時代が到来

顔認識アクセス制御システムが起動した後は、ゲートを簡単に通過する際に潜在的なリスクにも注意する必要があります。

30年以上前の主張が覆された？大規模モデルは人間レベルのシステム一般化能力を持つ

Google Project Ellman が Gemini AI モデルのシナリオを公開

顔認識は3月15日に再び命名されました。データのプライバシーとセキュリティをどのように保護するのでしょうか?

顔認識アルゴリズムはどのように機能するのでしょうか?

AIに「子犬」を認識させますか？ Facebookは変化を感知できるAIを構築

OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

2024年には、AI PCが目を見張るほど登場するでしょう。企業や消費者はどのように選択すべきでしょうか?