識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、別の画像を見せ、それを繰り返すという非常に単純な方法で行われてきました。

このようなアプローチは、視覚処理が機械的な入力-出力変換として理解できるという仮定に基づいています。科学者たちは、細胞が画像内に存在する視覚的特徴に基づいて単純に反応しているかのように研究し、それらの反応を利用して異なる画像を区別することができた。

視覚システムに関するこの理解は多くの点で実りあるものであったが、一部の研究者は常に懐疑的であった。視覚系の解剖学と動力学に関する研究結果から、視覚系は単純に「ボトムアップ」方式で反応するのではないことが示唆されていると主張する人もいます。代わりに、世界がどのように機能するかのモデルに基づいて応答を生成する可能性があります。

「識別的」視覚アプローチと「生成的」視覚アプローチの間のこの論争は、何十年も激しく続いてきました。どちらのモデルも視覚処理を説明することを目的としていますが、2 つのアプローチは異なる哲学的および数学的伝統に由来しています。この状況の結果として、さまざまな研究者が協力するのではなく、それぞれが好む方法を使用することになり、2 つのパラダイムの間にギャップが生じます。

近年、コンピューター ビジョンと計算神経科学の両方の進歩により、この 2 進除算アプローチの限界が明らかになり、視覚処理のより広範なモデル化の開発が促進されています。これには、双方の代表者が集まり、それぞれの見解や合意点、相違点を整理することが必要です。

2021年9月、研究者らはバーチャル認知計算神経科学(CCN)カンファレンスにおけるGenerative Adversarial Collaboration(GAC)のオープニングイベントで、このトピックに関する提案を発表しました。

生成的敵対的コラボレーションは、研究者が科学的な意見の相違を明確かつ効果的に提起できるようにするために、CCN が 2020 年に開始したプロセスです。研究者は CCN に議論の余地のあるトピックの提案を提出することができ、少数の提案が選ばれて GAC 活動で議論されます。翌年、GAC 主催者は、これらのトピック領域における進捗計画を概説した立場表明書を提出し、その年の会議でその進捗状況を発表します。

2021 年の GAC では、視覚システムにおける生成モデルと識別モデルをテーマとし、11 人の研究者のチームが参加します。識別的方法を使用する人もいれば、生成的方法を使用する人もいますが、全員が両者の交差点を探求することに興味を持っています。彼らの提案によれば、この取り組みの目的は、「私たちの知的遺産が視覚アルゴリズムに関する直感を過度に二極化し、誤った二分法に陥らせているかどうか」を判断することです。

「シンプルで速い」と「柔軟で遅い」

議論の枠組みを構築するためには、まず識別システムと生成システムが何であるかを知る必要があります。しかし、おそらくそれが最初の相違点です。

統計学の分野では、識別モデルと生成モデルの定義は単純です。判別モデルは、観測された結果に基づいて潜在変数または潜在的な原因の確率を計算するモデルです。視覚処理の観点から見ると、これらの潜在変数は世界にある物体であり、観測は網膜に当たる光です。たとえば、モデルは画像内のピクセルに対していくつかの計算を実行し、どのオブジェクトが存在する可能性が最も高いかを判断します。対照的に、生成モデルは潜在変数と観測された結果の結合確率を計算します。これには、特定の画像内に存在する可能性だけでなく、特定のオブジェクトが一般的に存在する可能性を知ることが必要です。

これらの異なる確率分布の計算は技術的にはかなり異なりますが、これらの計算が脳にマッピングされると、2 つの間の境界があいまいになり始めます。 「よく見れば、すべてがバラバラになります」と、コロンビア大学の神経科学者でGACの広報担当者であるニコ・クリーゲスコルテ氏は言う。この分野には生成モデルと識別モデルの厳密な定義が欠けており、神経科学の研究文献に出てくるものは、緩やかな関連の集合として説明する方が適切です。

識別側を表すモデルは、フィードフォワード型、シンプル、高速になる傾向があります。たとえば、ディープフィードフォワード畳み込みニューラルネットワークは、識別処理の典型的な例です。これらのモデルは通常、教師あり方式でトレーニングされます。つまり、画像をラベルにマッピングすることを学習します。たとえば、猫と犬の画像を分類することを学習します。結果として得られるモデルは、新しい画像を取り込み、すぐにラベル付けすることができます。これらのネットワークのような識別システムは、通常、ボトムアップ方式で動作し、直接の入力に対して単純な応答を形成します。訓練方法により、物体認識などの特定のタスクに特化しているとも考えられています。

対照的に、生成モデルは低速ですが、より柔軟で厳密で表現力に優れています。彼らは通常、世界の統計と構造についての基本的な理解を獲得し、それを使用して予測を行うことを目標として、教師なしのトレーニング方法に依存しています。たとえば、犬よりも猫の方が一般的な世界では、生成モデルは足の視覚情報を使用して、長いひげも存在することを予測し、最終的に画像に猫がいると結論付ける可能性があります。構造的には、これらのモデルは反復的な接続、特に視覚系に予測を伝える高次の視覚領域または前頭皮質からのトップダウン接続を持つ可能性が高くなります。また、確率分布を使用して情報を表す可能性も高くなりますが、これは特定の視覚知覚に関連する不確実性につながる可能性があります。

科学者たちは、脳内で両方のプロセスが働いている可能性があると信じる理由を持っています。生成的アプローチの支持者は、その直感的な魅力と内省との一貫性を指摘しています。結局のところ、私たちは心のイメージや夢という形で視覚的な認識を生み出すことができますが、これはトップダウンの影響や世界の内部モデルがなければ不可能でしょう。世界の仕組みに関する一般原則を学ぶことで、生成システムを新しい環境にさらに適応させることができます。

GAC イベント中、MIT の神経科学者で Simons Collaboration on the Global Brain (SCGB) の研究者である Josh Tenenbaum 氏は、講演ビデオで画像フィルターを適用して、この点を説明しました。私たちの視覚システムは、色やコントラストの変更など、さまざまな視覚効果を使用してビデオをフィルターできることを認識しているため、そのような効果が適用された画像コンテンツを、たとえ私たちにとって新しいものであっても認識できます。

識別的アプローチの支持者は、神経データを説明する上でのその実証された成功を指摘している。画像を分類するようにトレーニングされた深層畳み込みニューラル ネットワークは、複雑な視覚入力に対する実際の神経活動を予測するための最良のモデルの一部を提供します。また、視覚システムのフィードフォワード経路は、識別モデルと一致して、非常に迅速に物体分類を達成できることもわかっています。

2 つのモデルは開発段階が異なり、その利点を比較することは困難です。現在の識別モデルは実用的な目的で画像を処理できるため、生成モデルよりも優れています。しかし、これは脳が何ができるかというよりも、研究者がコンピューターで何ができるかを反映しているのかもしれません。現在、生成モデルのトレーニングと構築は難しく、視覚システムが直面する実際の課題ではなく、おもちゃの問題に対してのみ実行できます。今日の識別モデルと同じくらい優れた画像処理モデルがなければ、生成手法は神経活動の定量的予測において識別モデルに勝つチャンスはありません。この比較は、今日の自動車と自動運転車を比較するのに少し似ています。自動運転車にはいくつか優れた機能があるかもしれないが、今日移動する必要がある場合にはあまり役に立たないだろう。

「結局のところ、テストするためのモデルが必要なのです」と、MITの神経科学者でSCGBの研究者であるジム・ディカルロ氏は言う。 GAC アクティビティでは、識別側を代表する DiCarlo 氏が、物体認識についてトレーニングされた識別モデルが神経活動を予測する強力な能力を実証しました。 「誰かが画像の新しい計算モデルを構築したら、そのモデルの精度を他のモデルと比較して判断するには、その時点で最新の実験データのみを使用できます。」

これにより、エンジニアリングの観点から、生成方法と識別方法に関する議論がある程度軽減されます。生成的手法は直感的に非常に理にかなっているが、研究者は脳の活動との大規模な比較を行うために、実際にそれを機能させる必要がある。現時点ではできません。しかし、生成モデルが常に不利になるわけではありません。これらの特性、特に大量のラベル付きデータなしでトレーニングできる能力を考えると、機械学習の研究者は、これらが将来役立つことを期待しています。

「私たちが簡単だと思っていることや今できることと、脳ができることとを混同しないことが重要だ」とロチェスター大学の神経科学者ラルフ・ヘフナー氏はイベントで語った。

探検の交差点

GAC チームのメンバーが指摘したように、多くのモデルはいずれかのカテゴリにきちんと当てはまりません。再帰的識別モデルが存在し、一部の生成モデルは高速化できるなどです。コロンビア大学の神経科学者ベンジャミン・ピーターズ氏は議論の中で、統計学者やエンジニアが定義した枠に脳を無理やり当てはめることにはリスクがあると述べた。 「あまり厳格になりすぎず、アルゴリズムからインスピレーションを得るべきです。」

たとえば、視覚システムは、高速で楽な視覚認識を可能にするために識別コンポーネントを使用しますが、より深い機能を実現するための生成要素も含んでいます。あるいは、組み込みの生成モデルは、世界についての予測を使用して、脳の識別部分にトレーニング データを提供することもできます。ハーバード大学の神経科学者タリア・コンクル氏は講演の中で、識別的なプロセスである知覚と、より生成的なプロセスである認知との分離を認識する必要があると主張した。

機械学習の分野では、いくつかのハイブリッド手法が普及してきました。たとえば、トレーニング手法である対照学習では、ネットワークは類似するもの(同じ画像の異なる切り抜きなど)をグループ化し、異なるものを区別することを学習します。このアプローチには生成コンポーネントがあり、トレーニングに明示的なターゲット ラベルは必要なく、作成される表現によってデータ内の関連する統計情報を多く取り込むことができます。同時に、識別モデルの典型的なフィードフォワード構造にもうまく適用できます。類似した画像と異なる画像を区別することを学習しました。

これらのモデルは同じ範囲に当てはまる可能性があるため、バイナリ分割に焦点を当てることが理にかなっているかどうか疑問視する研究者もいます。 「これらは本当に私たちが収束させたい用語なのでしょうか?」とディープマインドのキム・スタッチェンフェルド氏は尋ねた。科学者や技術者は、効果的なシステムを構築するには、生成処理と識別処理を明確に区別する必要はないことを認識しています。また、脳を理解するためにこの区別は必要ではありません。 「これが二者択一の問題だと考えているなら、要点を見失っている」とクリーゲスコルテ氏は言う。 「10年後、20年後も私たちがこのことを二元論的に考えているかどうかはわかりません。」

GAC の目的の一部は、分野を前進させる手段として、識別モデルと生成モデルの間の溝を探ることです。

スタッヘンフェルド氏は、視覚へのアプローチを 2 つの陣営に整理し、「何が残っているかを確認する」ことが有益だと考えています。どちらの陣営の外にも残っているものは、この分野に必要な新しい用語やアイデアを明らかにする可能性があります。他の人たちは、この議論によって、それぞれのタイプのモデリングアプローチに本当に必要な機能が何であるか、また脳内のそれぞれの思考の方向性の証拠をどのように考えるべきかが明らかになったことに同意しました。クリーゲスコルテ氏は、これらのモデルの用語を使用する際に「以前犯していた愚かな間違いを避けるようになった」と述べています。

こうした概念上の進歩は重要なのでしょうか?本当のテストは、それらが実験にどの程度影響を与えるかです。実験設計は、本当の進歩を遂げるのが難しい分野だとクリーゲスコルテ氏は語った。

カリフォルニア工科大学の神経科学者でSCGBの研究者であるドリス・ツァオ氏は、神経系の生成要素を分離し、世界の現状に関するフィードフォワード入力がない場合に神経活動に対するその効果を研究するという実験的アプローチを提案した。脳梁(左右の大脳半球をつなぐ神経線維の水平束)の病変を持つ患者を対象としたこれまでの研究から、いくつかの手がかりが得られている。両半球間の経路の一部が切断された状態で、左眼から右半球に「騎士」などの単語を見せると、患者は(左半球のフィードバック接続の助けを借りて)視覚刺激や単語の意識的な認識がなくても、騎士の視覚的なシーンを説明することができました。ツァオ氏は、動物で同様の実験を行うことで、そのようなイメージを喚起するトップダウンの生成経路を特定するのに役立つ可能性があると考えている。しかし、GAC 参加者の間では、生成されたシステムを人工的に分離することで、通常の状況下でのその機能の解明に役立つかどうかについて意見が分かれました。

参加者のほとんどは、脳の生成能力に焦点を当てたさらなる実験が必要であることに同意した。ペンシルバニア大学の神経科学者でSCGB研究員のニコール・ラスト氏は、ビデオで次に何が起こるかを予測する能力など、視覚予測を研究すべきだと主張した。ディカルロ氏は、生成処理の利点に触発されて、さらなる実験を行う予定だと語った。

今後 1 年間、グループは研究を進めるための具体的な手順について議論を続け、出版物やイベントを通じてその進捗状況をより広いコミュニティと共有していきます。

<<:  インタラクティブにパラメータを変更し、360 度回転します。このツールを使用すると、ゼロから始めることなく NN アーキテクチャ ダイアグラムを構築できます。

>>:  モデルが 10 倍大きくなると、パフォーマンスは何倍向上しますか? Googleの研究者が調査を実施

ブログ    
ブログ    

推薦する

分析技術は、2019-nCoVの潜在的な感染を追跡し予測するのに役立っています。

[[314175]] 2019-nCoVの最も危険な特徴は人から人へと感染する能力であり、中国では...

画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

画像スタイルの転送?声の感情移入?いいえ、それはイメージの感情的な伝達です。コンピュータビジョンの分...

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

ディープな旅行がますます高品質の観光オプションに浸透するにつれて、観光型の観光はもはや現代人の旅行ニ...

中秋節には月餅を食べます。今日はロボットがどのように月餅を作るかについてお話します。

最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...

顔認識、マルチターゲット追跡…Suningのスマートストアのその他のブラックテクノロジーを公開!

[51CTO.comからのオリジナル記事] インターネット+の急速な発展に伴い、オフライン小売業界...

人工知能に関するTEDトークトップ10

この一連の講演では、人工知能 (AI) と機械学習に関する興味深い議論やセッションを「全体像」の観点...

2020 年の CIO にとっての 5 つの戦略的優先事項

ヘルスケア、小売、テクノロジー業界の IT リーダーが 2020 年の戦略的優先事項を共有します。ヒ...

...

...

Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏:より正確なAIにはより正確なデータが必要

アプリケーションの可観測性と AI の信頼、リスク、セキュリティ管理は、ガートナーが 2023 年に...

AIは病気の診断や新薬の設計に大きな可能性を秘めている

ヘルスケア業界は常にイノベーションの先駆者であり続けています。しかし、病気やウイルスが変異し続ける中...

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

先月、投資会社a16zがAIスタートアップが直面する困難を分析した記事を発表しました。AIスタートア...

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論...

機械学習モデルのパフォーマンスを評価する方法

教師あり機械学習モデルを一日中トレーニングすることはできますが、そのパフォーマンスを評価しなければ、...