CNNを称賛するのはやめろ。類似点と相違点さえ区別できない

[[416629]]

セサミストリートには「One of These Things Is Not Like the Other」というゲームがあります。名前が示すように、このゲームに参加する子供たちは、いくつかのものの中から異なるものを見つける必要があります。人間の子どもにとって、この作業は非常に簡単なので、間違いを犯すことなく、さまざまな方法で何百回でも行うことができます。

しかし、ニューラルネットワークの場合、ゲームはそれほど単純ではありません。強力な畳み込みニューラルネットワーク (CNN) を例に挙げてみましょう。トレーニングされた CNN は、一連の複雑なタスクを人間よりも優れた方法で完了できます。ただし、最近の研究では、CNN は非常に限られた条件下でのみ、2 つの単純なパターンが同じかどうかを区別できることがわかっています。これらの条件を少しでも変更すると、ネットワークのパフォーマンスが低下する可能性があります。

2018年の研究では、CNNは(a)の2匹の犬の品種を区別できたものの、(b)(i)の2つの画像が実際には同じで、回転しただけであることに気付かなかったことが示されました。

これらの結果は、ディープラーニング研究者と認知科学研究者の間で論争を巻き起こした。技術が進歩すれば、CNN は人間の子供のように「同じ」と「違う」を区別できるようになるのでしょうか?それとも、CNN の設計がどれだけ洗練されていても、トレーニングにどれだけ多くのデータが使用されていても、CNN の抽象的推論能力は本質的に限られているのでしょうか?

どちらの仮説が正しいにせよ、類似点と相違点を理解することは、人工的なものであろうとなかろうと、知能の重要な特徴であるという点ではほとんどの研究者が同意している。

「『同じ』と『違う』を区別できるのはあなたや私だけではありません。アヒルやミツバチなど多くの動物もそれができます」とジョンズ・ホプキンス大学で視覚認知を研究しているチャズ・ファイアストーン氏は言う。

類似点と相違点をうまく区別する能力は、あらゆる種類の人間の推論の基礎と見ることができます。ディープマインド社の研究者アダム・サントロ氏は、同社が視覚的なシナリオだけでなく、自然言語や物理的なやりとりにおいても「同じもの同士の関係を総合的に研究している」と語った。

「AIエージェントに『おもちゃの車を拾いなさい』と指示するとき、私が言っているのは、隣の部屋にあるおもちゃの車ではなく、私たちが遊んでいるおもちゃの車を拾うように指示しているのです」と同氏は説明した。この点は、昨年 10 月に発表された類似点と相違点の推論に関する研究でも強調されました。「『同一性』を認識する能力がなければ、真に知的な視覚推論機械を構築するという夢は絶望的になる」とブラウン大学などの研究者らは記事に記した。

類似点と相違点は 2013 年以来、ニューラルネットワークを悩ませてきました。当時の人工知能の先駆者であったヨシュア・ベンジオ氏とその協力者チャグラル・グルセレ氏は、論文「知識は重要：最適化における事前情報の重要性」の中で、CNN ではテトリスのブロックの複数のグループが同じ形であるかどうかを判断できないことを示しました。しかし、この盲点は CNN が AI を支配するのを阻止していません。畳み込みニューラルネットワークは、AlphaGo が世界最高の囲碁プレイヤーに勝つのに役立ち、ディープラーニングをサポートする Android アプリケーションのほぼ 90% が畳み込みニューラルネットワークに依存しています。

この能力の急増により、ニューラルネットワークでは何ができないのかを探求することへの関心が一部の研究者の間で再燃しています。 CNN は、哺乳類の脳が視覚入力を処理する方法を大まかに模倣することで視覚処理を学習します。ニューラルネットワーク内の人工ニューロンの層は、生データ内の単純な特徴 (明るさやコントラストの違いなど) を検出します。次に、ニューラルネットワークはこれらの特徴を連続するレイヤーに渡し、より複雑で抽象的なカテゴリに組み合わせます。

ブラウン大学の機械学習研究者マシュー・リッチ氏によると、類似性・非類似性問題は「画像の特性に依存しない最も単純な問題」であるため、CNN の限界をテストするのに適しているようです。つまり、2 つのオブジェクトが同じかどうかは、青い三角形のペアか赤い円のペアかには依存しません。機能間の関係は機能自体よりも重要です。

2018 年、リッチ、ジュンキュン・キム、トーマス・セールは、ニューラルネットワークの抽象的推論スキルを調査するために設計された一連のシンプルなパターンである合成視覚推論テスト (SVRT) の画像で CNN をテストしました。パターンは、白い正方形の上に黒で輪郭が描かれた不規則な形状のペアで構成されています。パターンのペアが形状、サイズ、方向が同一の場合は「同じ」と分類され、そうでない場合は「異なる」と分類されます。

Ricci らは、SVRT 画像セットからの新しいサンプルを使用して CNN をトレーニングすると、類似点と相違点を区別する精度が最大 75% に達することを発見しました。しかし、形状が非常に単純な方法で変更されると（単に大きくしたり、間隔を広げたりするなど）、CNN の精度は大幅に低下しました。そのため研究者らは、ニューラルネットワークは依然として特徴に重点を置いており、「類似点と相違点」などの関係概念の学習は得意ではないと結論付けた。

昨年、テュービンゲン大学のクリスティーナ・フンケとジュディ・ボロフスキーによる研究では、ニューラルネットワークの層数を6から50に増やすと、SVRT類似性・相違性タスクの精度が90%以上に向上する可能性があることが示されました。しかし、彼らは、レイヤー数を増やしたこの CNN が SVRT データセット以外の例でどのように機能するかをテストしませんでした。したがって、この研究では、より深い CNN が「類似点と相違点」の定義を一般化できるという証拠は提供されていません。

ブリストル大学の認知科学者ギジェルモ・プエブラ氏とジェフリー・バウワーズ氏は今年初めに追跡調査を実施した。プエブラ氏は人間の知能を例に挙げ、「物事の関係を理解すれば、人はそれを関連するあらゆる物事に適用できる」と述べた。同氏は、CNNもこの基準に従うべきだと考えている。

Puebla と Bowers は、4 つの異なる初期設定 (Funke と Borowski が使用した設定の一部を含む) を使用して、SVRT 類似性-相違性タスクのいくつかのバリエーションで 4 つの CNN をトレーニングしました。パターンの低レベルの特徴を少し変更するだけで、たとえば図形の輪郭の太さを 1 ピクセルから 2 ピクセルに変更するだけで、CNN のパフォーマンスがほぼ完璧からほぼ役に立たないレベルまで半分に低下することがよくあることが分かりました。

これは AI にとって何を意味するのでしょうか?人によって答えは異なります。ファイアストーン氏とプエブラ氏は、最近のいくつかの研究の実験結果から、現在の CNN には基本的な推論能力が欠けており、この問題はデータを追加したり、より洗練されたトレーニングを設計したりしても解決できないことが示されていると考えています。「CNN は強力になってきていますが、類似点と相違点を区別するという問題を解決できる可能性は低いでしょう」とプエブラ氏は言う。「他の方法で解決できるかもしれませんが、CNN だけでは望みがありません。」

フンケ氏はプエブラ氏の結論に同意している。しかし彼女はこうアドバイスする。「深層畳み込みニューラルネットワークは概念を学習できないと主張することには十分注意してください」。DeepMind の研究者サントロ氏もこれに同意し、「証拠がないということは証拠がないということではなく、ニューラルネットワークは常にそうでした」と語る。サントロ氏は、ニューラルネットワークは原理的にどんな関数でも近似できることが数学的に証明されていると指摘し、「研究者がここですべきことは、関数に必要な実際の条件を判断することです」と語る。

リッチ氏は、機械に類似点と相違点を区別することを教えるには、学習そのものの理解における飛躍的進歩が必要だと考えています。人間の子犬は、長期間の訓練を必要とせず、一度ゲームをするだけで類似点と相違点を区別できるようになります。鳥、ミツバチ、そして人間は皆、このように学習することができ、これは類似点と相違点を識別すること以外にも多くの認知タスクに当てはまります。「小規模なサンプルや新しいデータサンプルから学習する方法がわかるまで、こうした問題の多くは完全には解決されないだろうと思う」とリッチ氏は語った。

<<: NLP タスクには Transformer が必要ですか? Googleの調査によると、事前学習済みの畳み込みモデルの方が優れていることが多い

>>: 推論コストが48分の1に削減されました！ 1つのGPUで静止画像を動かすことができる