畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では、関連研究におけるいくつかのアイデアや手法も、脳のナビゲーションとドーパミン機能を探るために AI を使用する DeepMind の最近の研究のように、神経科学の研究に役立っています。最近、コロンビア大学で神経生物学と行動学の博士号を持つグレース・リンゼイ氏が自身のブログに記事を投稿し、質疑応答形式で CNN と生物の視覚システムの違いとつながりについて議論しました。

私の最近のブログ投稿のほとんどと同様に、この記事は、深層畳み込みニューラル ネットワーク (CNN) のコンポーネントを脳に関連付ける方法に関する最近の Twitter での議論に触発されたものです。しかし、ここでの考えのほとんどは、私が以前に考え、議論したことのあるものです。誰かが CNN をビジョン システムのモデルとして使用する場合、私は通常 (研究に関する議論やその他の会話の中で) この選択を奨励し、サポートする必要があります。これは、部分的には神経科学における(やや)比較的新しいアプローチであるためであり、部分的には人々がそれらに対して懐疑的であるためです。計算モデルは、一般的に神経科学の分野では発展が遅れており、その原因の多くは(すべてではありませんが)、計算モデルを使用したり構築したりしない人々によるものであり、計算モデルは非実用的または役に立たないと言われることがよくあります。オタクに対する一般的な反感と、ディープラーニング/AI の過大評価された雰囲気 (その価値はどれくらいになるのか?) の中で、どんなモデルを入手しても、それを嫌う人がいるでしょう。

そこで、ここでは、単純な(しかし長い)質疑応答形式を使用して、CNN を使用して生物学的視覚システムをモデル化する方法を比較的合理的かつ正確に説明したいと思います。このサブフィールドはまだ発展途上であるため、この記事には明確な事実はあまり記載されていませんが、可能な限り引用するように努めます。また、これらは明らかにこれらの質問(および私が個人的に尋ねる質問)に対する私の個人的な回答ですので、信じられるものとして受け止めてください。

私は、「ディープラーニングは脳を理解するのに役立ちますか?」のようなより広範な質問ではなく、視覚システムのモデルとしての CNN に焦点を当てています。これは、比較が最も合理的で、有益で、実り多い領域であると信じているからです (そして、それは私が取り組んでいる領域でもあります)。しかし、生物学的情報に基づいてアーキテクチャを指定し、関連するデータでそれをトレーニングするというこの一般的なプロセスは、他の脳領域や機能を理解し、再現するのにも役立ちます。もちろん、これはすでに行われています。以下を参照してください。

https://www.frontiersin.org/articles/10.3389/fncom.2016.00094/full

(この投稿が機械学習やデータサイエンス分野の読者にとって分かりやすいものであることを願っていますが、定義されていない神経科学用語がいくつかあります。)

1. CNNとは何ですか?

畳み込みニューラル ネットワーク (CNN) は、人工ニューラル ネットワークの一種です。そのため、それらは「ニューロン」と呼ばれるユニットで構成されており、入力の加重合計に基づいて活動レベルを出力します。このアクティビティ レベルは通常、入力の非線形関数であり、多くの場合は単なる正規化線形ユニット (ReLU) であり、入力がすべて正の場合、アクティビティは入力に等しく、入力がすべて非正の場合、アクティビティは 0 に等しくなります。

CNN のユニークな点は、ニューロン間の接続が構築される方法です。フィードフォワード ニューラル ネットワークでは、ユニットは層に編成され、特定の層のユニットは、その下の層からの入力のみを受け取ります (つまり、同じ層または後続の層の他のユニットからの入力はなく、ほとんどの場合、1 つ以上の層からの入力はありません)。 CNN はフィードフォワード ネットワークです。しかし、標準的な純粋なフィードフォワード ネットワークとは異なり、CNN 内のユニットは空間的に配置されています。各レイヤーでは、ユニットは特徴マップと呼ばれる 2D グリッドに編成されます。各特徴マップは、その下のレイヤーでの畳み込みの結果です (そのため、CNN と呼ばれます)。これは、同じ畳み込みフィルター (重みのセット) が、その下のレイヤーのすべての位置に適用されることを意味します。したがって、この 2D グリッド上の特定の位置にあるセルは、その下のレイヤーの同様の位置にあるセルからの入力のみを受け取ることができます。さらに、入力に付加される重みは、特徴マップ内のすべてのユニットで同じです (ただし、特徴マップごとに異なります)。

畳み込み(および非線形性)の後には、通常、他の計算が行われます。考えられる計算方法の 1 つは、クロスフィーチャ正規化です (ただし、このアプローチは、最新の高性能 CNN ではもはや一般的ではありません)。ここでは、特徴マップ内の特定の空間位置にあるユニットのアクティビティが、他の特徴マップ内の同じ位置にあるユニットのアクティビティで除算されます。より一般的な操作はプーリングです。その中で、各 2D 特徴マップの小さな空間領域における *** アクティビティがその領域を表すために使用されます。これにより、機能マップのサイズを縮小できます。この一連の操作 (畳み込み + 非線形性 → 正規化 → プーリング) は総称してレイヤーと呼ばれます。ネットワーク アーキテクチャは、レイヤーの数とさまざまな関連パラメーター (畳み込みフィルターのサイズなど) の選択によって定義されます。

最近の CNN のほとんどには、このようなレイヤーが複数 (少なくとも 5 つ) あり、最後のレイヤーは完全に接続されたレイヤーにデータを供給します。完全に接続されたレイヤーは、空間レイアウトや制限された接続のない標準的なフィードフォワード ネットワークのようなものです。通常、2〜3 つの完全接続層が一緒に使用され、ネットワークの最後の層が分類を実行します。たとえば、ネットワークが 10 カテゴリのオブジェクト分類を実行している場合、最後のレイヤーには 10 個のユニットがあり、各クラスに関連付けられた確率を取得するために、アクティビティ レベルにソフトマックス操作が適用されます。

これらのネットワークは主に教師あり学習とバックプロパゲーションによってトレーニングされます。この時点で、ネットワークに提供される入力は、画像のペアとそれに関連付けられたクラス ラベルです。画像のピクセル値はネットワークの最初の層に入力され、ネットワークの最後の層で予測カテゴリが生成されます。この予測ラベルが指定されたラベルと一致しない場合は、分類を正しくするために重み(つまり、畳み込みフィルターの値)をどのように変更するかを決定するために勾配が計算されます。これを何度も繰り返すことで (多くのネットワークは、1,000 個のオブジェクト カテゴリの 100 万を超える画像を含む ImageNet データベースでトレーニングされます)、保持されたテスト画像に対して高い精度を持つモデルを取得できます。 CNN モデルのいくつかのバリアントは、現在 4.94% またはそれ以下のエラー率を達成しており、これは人間のレベルよりも優れています。優れたパフォーマンスを得るには通常、スマートな学習率の選択や重みの正規化(主にドロップアウトを通じて、各トレーニング段階で重みの半分がランダムにオフになる)など、多くのトレーニング「トリック」が必要です。

歴史的には、教師なし事前トレーニングを使用して重みを初期化し、その後、教師あり学習を使用して重みを改良してきました。しかし、優れたパフォーマンスを得るためには、もはやこれは必要ないようです。

神経科学者が理解できるディープ CNN の紹介については、「ディープ ニューラル ネットワーク: 生物学的視覚と脳情報処理をモデル化する新しいフレームワーク」を参照してください。

https://www.annualreviews.org/doi/10.1146/annurev-vision-082114-035447

2. CNN は視覚システムからヒントを得たのでしょうか?

はい。まず、名前が示すように、人工ニューラル ネットワーク全体は、20 世紀半ばに発展し始めた神経生物学にヒントを得ています。人工ニューロンは、情報の受信と変換におけるニューロンの基本的な特性を模倣するように設計されています。

第二に、畳み込みネットワークによって実行される主な機能と計算は、視覚システムに関する特定の初期の発見に触発されたものです。 1962 年、ヒューベルとヴィーゼルは、一次視覚皮質のニューロンが視覚環境内の特定の単純な特徴 (特に有向エッジ) に反応することを発見しました。さらに、研究者たちは、非常に特定の空間位置でのみ好みの方向に最も強く反応する単純細胞と、反応の空間的不変性がより大きい複雑細胞という 2 つの異なるタイプの細胞があることに気付きました。彼らは、複雑な細胞は、それぞれ異なる優先位置を持つ複数の単純な細胞からの入力をプールすることによってこの不変性を達成していると結論付けました。これら 2 つの特性 (特定の特徴に対する選択性とフィードフォワード接続による空間不変性の向上) は、CNN などの人工視覚システムの基礎を形成します。

ネオコグニトロン

CNN の開発は、ニューロコグニトロンと呼ばれるモデルを通じてこの発見に直接遡ることができます。ニューロコグニトロンは、実用的な人工視覚システムを構築するため、当時の生物学的視覚に関する知識を取り入れて、1980年に福島邦彦氏によって開発されました。ニューラル認知マシンは「S細胞」と「C細胞」で構成されており、教師なし学習を通じて単純な画像を認識することを学習できます。 CNN を最初に開発した AI 研究者の Yann LeCun 氏は、その開発はニューラル認知マシンに基づいていると明言しています。

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

3. CNN が人気になったのはいつですか?

コンピューター ビジョンの歴史を通じて、画像の中で最も情報量の多い部分は何かという人間の認識に基づいて、画像内で検出する特徴を手動で設計することに多くの研究が重点的に行われてきました。これらの手動で設計された機能をフィルタリングした後、機能をターゲット カテゴリにマッピングするための学習は最終段階でのみ行われます。教師あり学習によってエンドツーエンドでトレーニングされた CNN は、これらの機能を自動的に生成する方法を提供し、このタスクに最適なアプローチです。

この最初の大きな例は 1989 年に起こりました。当時、LeCun らはバックプロパゲーションを使用して、手書きの数字を認識するための小さな CNN をトレーニングしました。 1999 年に MNIST データセットが導入されたことで、CNN の機能がさらに開発され、検証されました。この成功にもかかわらず、トレーニングは難しいという研究コミュニティの認識によりこのアプローチは支持を失い、サポートベクターマシンなどの非ニューラルネットワーク手法が勢いを増しました。

次の大きな出来事は、2012 年まで起こりませんでした。その年、教師あり手法で完全にトレーニングされたディープ CNN が、その年の ImageNet コンテストで優勝したのです。当時、1,000 個のオブジェクトを分類した場合のエラー率は良好で約 25% でしたが、AlexNet ではエラー率が 16% となり、大幅な改善が見られました。このチャレンジにおけるこれまでの勝利方法は、浅いネットワークやサポートベクターマシンなどの古い技術に依存していました。 CNN のこの進歩は、ReLU (シグモイドまたは双曲正接非線形性の代わり)、2 つの GPU でのネットワーク実行の分散、ドロップアウト正規化などのいくつかの新しい技術の使用によって可能になりました。しかし、これは突然現れたものではありません。ニューラル ネットワークの復活の兆しは、2006 年にはすでに現れ始めていました。ただし、これらのネットワークのほとんどは、教師なしの事前トレーニングを使用しています。 2012 年のこの発展は、現代のディープラーニングの爆発的な発展における大きな瞬間であったことは間違いありません。

画像分類のための深層畳み込みニューラルネットワーク:包括的なレビューを参照してください。

https://www.mitpressjournals.org/doi/abs/10.1162/neco_a_00990

4. CNN と視覚システムの現在のつながりはいつ生まれたのでしょうか?

神経科学における CNN に関する現在の話題の多くは、2014 年頃に発表された少数の研究に由来しています。これらの研究では、異なるシステムが同じ画像を見たときに、人間とマカクザルから記録された神経活動と CNN の人工活動を明確に比較しました。

最初はYamins et al. (2014)です。この研究では、さまざまな CNN アーキテクチャを調査し、サルの IT 細胞の反応を予測する優れた能力の原因を突き止めました。特定のネットワークでは、データのサブセットを使用して、人工ネットワーク内のアクティビティを個々の IT セルのアクティビティにマッピングする線形回帰モデルをトレーニングしました。保持されたデータの予測能力を使用してモデルを評価しました。表現類似性分析という別の方法も使用されます。このアプローチは、神経活動を直接予測するのではなく、2 つのシステムが情報を同じように表現できるかどうかを問うものです。これは、各システムのマトリックスを構築することによって行われます。マトリックスの値は、2 つの異なる入力に対する応答の類似性を表します。これらのマトリックスがさまざまなシステムで同じに見える場合、それらは同様の方法で情報を表します。

異なるシステムの表現の相違点マトリックス

どちらの基準でも、物体認識に最適化された CNN は他の方法よりも優れています。さらに、ネットワークのレイヤー 3 は V4 細胞の活動をより正確に予測し、レイヤー 4 (最後のレイヤー) は IT 細胞の活動をより正確に予測しました。これは、モデル層と脳領域の間に対応関係があることを示唆しています。

もう 1 つの発見は、オブジェクト認識のパフォーマンスが優れているネットワークは、IT データに対して直接最適化する必要がなく、IT アクティビティの取得でも優れたパフォーマンスを発揮するということです。この傾向は、特定の限界に達するまで、より大規模で優れたネットワークではほぼ当てはまります (質問 11 を参照)。

CNNの後層は人間のITに似た表現を持つ

別の論文、Khaligh-Razavi と Kriegeskorte (2014) でも、表現類似性分析を使用して、37 の異なるモデルを人間とサルの IT と比較しました。また、物体認識に優れたモデルは IT 表現のマッチングにも優れていることもわかりました。さらに、教師あり学習によってトレーニングされたディープ CNN (AlexNet) は、ネットワークの後半の層が前半の層よりも優れたパフォーマンスを発揮し、最高のパフォーマンスを発揮し、最も近い一致を示します。

5. 神経科学者は過去に CNN と同様の手法を使用したことがありますか?

はい!質問 2 で言及されたニューロコグニトロンは、現代の CNN に影響を与えたヒューベルとヴィーゼルの発見に触発されましたが、視覚神経科学におけるいくつかの研究分野も生み出しました。最も有名なのは、トマソ・ポッジョ、トーマス・セール、マキシミリアン・リーゼンフーバー、ジム・ディカルロの研究室での研究です。スタッキング畳み込みとプーリングに基づくモデルは、視覚システムのさまざまな特性を説明するために使用されてきました。これらのモデルは通常、現在の CNN (当時の機械学習コミュニティでも人気がありました) とは異なる非線形性と教師なしの特徴トレーニングを使用していましたが、現代の CNN の規模には達していませんでした。

視覚神経科学者とコンピュータービジョン研究者の進む道は、それぞれ異なるが関連する目標を追求する中で、さまざまな形で重なり合ったり分岐したりしています。しかし、全体として、CNN は視覚神経科学者のモデリングの道の延長として捉えることができます。ディープラーニング分野からの貢献には、最終的にこれらのモデルを有用なものにする計算能力とトレーニング方法 (およびデータ) が含まれます。

6. CNN が「脳のように」機能するという証拠は何ですか?

畳み込みニューラルネットワークには、生物学的視覚のモデルとしての使用をサポートする3つの主な特徴があります。(1) 人間に近いレベルで視覚タスクを実行できること、(2) 動作アーキテクチャが視覚システムの基本機能に関する既知の情報を再現していること、(3) 畳み込みニューラルネットワークが生成するアクティビティが視覚システムのさまざまな領域のアクティビティと直接相関していることです。

視覚的階層の特徴

まず、その中核とアーキテクチャには、視覚的な階層構造の 2 つの重要な要素があります。まず、受容野が V1 から IT に拡大するのと同様に、単一ユニットの受容野のサイズはネットワーク内の各層とともに拡大します。 2 番目に、ニューロンは、V1 の単純な線から IT のターゲット部分へとチューニングが進むのと同じように、層を進むにつれてますます複雑な画像の特徴に反応します。この特徴の複雑さの増加は、CNN で利用可能な視覚化技術を使用して直接確認できます。

異なるレイヤーでネットワークが学習した特徴の視覚化

(3)の点についてさらに深く見てみると、2014年の最初の研究(Q4)以来、CNNの活動と視覚システムの関係をさらに定義した多くの研究が行われてきました。これらはすべて、同じ一般的な発見を示唆しています。つまり、同じ画像を見たときに、人工ネットワークの活動は視覚システムの活動と相関関係にある可能性があるということです。さらに、人工ネットワークの後の層は、腹側視覚ストリームの後の領域(または MEG などの方法を使用する場合の応答の後の時点)に対応する可能性があります。

これらのポイントを生成するために、Seibert et al. (2016)、Cadena et al. (2017)、Cichy et al. (2016)、Wen et al. (2018)、Eickenberg et al. (2017)、Güçlü and van Gerven (2015)、Seeliger et al. (2017) などのさまざまな方法とデータセットが使用されてきました。

異なる CNN レイヤーの表現と脳領域の対応 (Cichy らによる)

これらの研究は一般的に、さまざまなオブジェクト カテゴリの自然な画像を単純に提示したときに得られる初期の神経反応に焦点を当てています。したがって、これらの CNN は、「コア オブジェクト認識」または「アイデンティティ保存変換 (位置、スケール、視点、視覚的背景の変更) が存在する場合でも、特定の視覚オブジェクトを他のすべてのオブジェクトから迅速に区別する機能」を実現します。一般的に、標準的なフィードフォワード CNN は視覚反応の初期の要素を最もよく捉えることができ、網膜から高次の皮質領域への情報の初期フィードフォワードサッカード運動を再現することを示唆しています。

視覚システムによって作成された一連の神経表現が CNN によって複製できるという事実は、それらが同じ「解きほぐし」プロセスを実行していることを示唆しています。つまり、両方のシステムは、画像/網膜レベルでは分離できないさまざまなオブジェクト カテゴリの表現を取得し、線形分離を可能にする表現を作成します。

アクティビティの比較に加えて、(1)つまりネットワークのパフォーマンスをさらに深く調べることもできます。これらのネットワークと人間や動物の行動との詳細な比較は、モデルとしての使用を検証し、まだ進歩が必要な領域を特定するためにさらに使用できます。この種の研究の結果、これらのネットワークは、複数のドメインからの以前のモデルよりも人間の分類行動のパターンをよりよく捉える(さらには予測/操作する)ことができるが、画像にノイズがある場合や画像がわずかに異なる場合など、特定のドメインではパフォーマンスが低下し、精度が大幅に低下することが示されています。

この行動効果に関する研究には、Rajalingham et al. (2018)、Kheradpishesh et al. (2015)、Elsayed et al. (2018)、Jozwik et al. (2017)、Kubilius et al. (2016)、Dodge and Karam (2017)、Berardino et al. (2017)、Geirhos et al. (2017) などがあります。

これらすべては、優れた脳モデルの基準を満たしているでしょうか? まず、視覚分野の人々が視覚システムのモデルに何を求めているかを見てみましょう。

脳の物体認識ソリューションを理解するには、人工的な認識システム(多くの場合、生物学的インスピレーションを使用、例:[2–6])を構築し、最終目標として私たち自身の視覚能力を模倣することが必要です。このような計算方法は、実験的にテストできる仮説を提供できるため、また効果的な認識システムのインスタンス化が物体認識の理解における成功の特に強力な尺度となるため、非常に重要です。

——ピント他、2007

この観点から見ると、CNN は視覚科学の分野における目標の転換ではなく、むしろ目標を達成するための方法であることは明らかです。

7. 視覚領域の動作をより適切に予測する他のモデルはありますか?

全体的には、いいえ。 CNN が神経活動を捕捉する能力を、視覚システムの以前のモデル (HMAX など) と直接比較した研究がいくつかあります。 CNNは素晴らしいです。そのような研究には、Yamins et al. (2014)、Cichy et al. (2017)、Cadieu et al. (2014) などがあります。

8. CNN は視覚システムの機械論的モデルですか、それとも記述的モデルですか?

メカニズムモデルの合理的な定義は、モデルの内部部分をシステムの関連する内部部分にマッピングできる定義です。記述モデルは全体的な入力と出力の関係のみと一致します。したがって、視覚システムの記述モデルは、画像を取り込んで、人間が付けたラベルと一致するターゲット ラベルを出力するモデルである可能性がありますが、脳との明らかなつながりがない方法で機能する可能性があります。ただし、前述のように、CNN のレイヤーは脳の領域にマッピングできます。したがって、これは、CNN がオブジェクト認識を実行するときに腹側システムによって実行される表現変換のメカニズム モデルです。

一般に、CNN をメカニズム モデルにする場合、すべてのコンポーネントに対応するメカニズムを用意する必要はありません。たとえば、脳回路の従来のモデルでは、レートベースのニューロンが使用されます。発火率ベースのニューラル モデルは、入力の強度を出力の発火率にマッピングする単純な関数です。したがって、これらはニューロンの記述モデルに過ぎません。モデルには、発火率につながる神経プロセスに関連する内部コンポーネントは存在しません (ホジキン ハクスリー ニューロンなどのより精巧な生物物理学的モデルは機械的です)。ただし、発火率ベースのニューロンを使用して回路のメカニズムモデルを構築することは可能です (私のお気に入りの例の 1 つ: https://www.ncbi.nlm.nih.gov/pubmed/25611511)。すべての機械論的モデルは、その基本単位として記述モデルに依存しています (そうでなければ、モデルを構築するために量子力学を詳しく調べる必要があります)。

では、CNN のコンポーネント (つまり、畳み込み、非線形性、および場合によっては正規化とプーリングで構成されるレイヤー) は、脳領域の機械的モデルでしょうか、それとも記述的モデルでしょうか? この質問に答えるのはより困難です。これらのレイヤーは、実際のニューロン (またはニューロンのグループ) に適切にマッピングできる人工ニューロンで構成されていますが、多くの計算の実装は生物学的ではありません。たとえば、正規化 (それを使用するネットワーク内) は、高度にパラメータ化された除算関数を使用して実装されます。私たちは、これらの計算は現実的な神経メカニズムを使用して実装できると考えています (上記の研究を参照)。ただし、現在のモデルではそうではありません (私と他の人たちがこれに取り組んでいますが... Q12 を参照)。

9. CNN のさまざまな部分と脳の関係をどのように解釈すればよいでしょうか?

細胞レベルで物事を扱うことに慣れている神経科学者にとって、CNN のようなモデルは実用的というよりは抽象的に見えるかもしれません (ただし、抽象的な多領域モデリングを研究する認知科学者は、CNN にもっと精通しているかもしれません)。

CNNと脳の領域およびプロセスを関連付ける

しかし、正確な生物学的詳細がなくても、CNN のコンポーネントを視覚システムのコンポーネントにマッピングすることは可能です。まず、CNN への入力は通常、網膜と背外側膝状体核によって実行される計算に大まかに対応するように何らかの正規化または白色化が行われた 3 次元 (RGB) ピクセル値です。畳み込みによって作成された特徴マップは、視覚領域に見られる網膜トピーに似た空間レイアウトを持ちます。つまり、各人工ニューロンは空間的に制限された受容野を持ちます。各特徴マップに関連付けられた畳み込みフィルタは、その特徴マップ内のニューロンの特性変調を決定します。単一の人工ニューロンは単一の実際のニューロンに直接マッピングされることを意図したものではありません。単一のユニットを皮質柱として考える方が合理的かもしれません。

CNN のどの層がどの脳領域に対応しているのでしょうか? 少数の層のみを持つモデルを使用した初期の研究では、1 つの層が 1 つの脳領域にマッピングされることが裏付けられました。たとえば、Yamins et al. (2014) では、最初の畳み込み層が IT 活動を最もよく予測し、最後から 2 番目の層が V4 を最もよく予測します。ただし、正確な関係は使用するモデルによって異なります (より深いモデルでは、脳領域ごとにより多くのレイヤーを使用できます)。

畳み込みネットワークの最後の完全に接続された層では、解釈がより複雑になります。分類器の最終決定との密接な関係と、網膜トポロジーを持たなくなったという事実は、それらが前頭前皮質に似ていることを示唆しています。しかし、IT アクティビティの予測においても優れたパフォーマンスを発揮する可能性があります。

10. CNN にはなくて視覚システムには何があるのか​​?

沢山あります。スパイク、サッカード、興奮性細胞と抑制性細胞の分離、ダイナミクス、フィードバック接続、特定の層をスキップするフィードフォワード接続、振動、樹状突起、皮質層、神経調節物質、中心窩、側方接続、さまざまな細胞タイプ、両眼視、適応、ノイズ、および脳のその他の詳細。

もちろん、現在モデルとして使用されているほとんどの標準的な CNN には、デフォルトでは備わっていない機能がいくつかあります。しかし、スキップ接続、フィードバック接続、サッカード、スパイク、側方接続、中心窩など、その多くは新しいモデルで研究されてきました。

したがって、CNN は霊長類の視覚を直接複製したものではないことは明らかです。また、これはモデルが標準以下であることを意味するものではないことも明らかです。モデルは、問題のシステムを完全に再現することはできません (また、そうすべきでもありません)。私たちの目標は、視覚について知りたいことを説明するのに必要な機能を備えたモデルを作成することです。そのため、特定の機能の欠如は、人によって重要性が異なる場合があります。たとえば、最初の 100 ミリ秒程度で IT ニューロンが画像に対して示す平均的な応答を予測するには、どのような特性が必要でしょうか。これは経験的な質問です。生物学的特性が必須であるとか、その特性を持たないモデルは悪いなどと、先験的に言うことはできません。

スパイク、EI タイプ、その他の実装機能の詳細がないモデルは、これらの詳細があるモデルよりも抽象的であると言えます。しかし、抽象化には何も問題はありません。それは単に、問題をさまざまなレベルに分割し、個別に解決する意思があることを意味します。いつの日か、これらの異なるレベルの説明を組み合わせて、大規模および微細なスケールの両方で脳のレプリカを作成できるようになるはずです。しかし、成功への道において腐敗が敵にならないように注意しなければなりません。

11. 視覚システムではできないが、CNN では何ができますか?

私にとって、これはより関連性のある質問です。困難な問題を回避するために非生物学的モデルを使用することは、特定の生物学的特性を欠いたモデルを使用することよりも問題が多くなります。

***問題: 畳み込みの重みは正または負になります。これは、フィードフォワード接続が興奮性と抑制性の両方になる可能性があり(脳領域間の脳接続はほとんどが興奮性である)、個々の人工ニューロンが興奮性と抑制性の両方になる可能性があることを意味します。重みを純粋な効果として考えるだけであれば、これは大きな問題ではなく、抑制細胞を接続するフィードフォワード興奮性接続を介して実際に実装される可能性があります。

次に、重みを共有します。これは、特徴マップ内のある場所にあるニューロンが、同じ特徴マップ内の別のニューロンとまったく同じ入力の重みを使用することを意味します。これは、V1 の網膜トピーにおける方向調整などの機能の場合に当てはまりますが、視覚空間のある場所の垂直線を好むニューロンが、別の場所の垂直線を好むニューロンとまったく同じ入力重みを持つとは考えられません。ここでは、すべての重みが関連付けられ、共有されていることを保証する「遠隔での不気味なアクション」は存在しません。したがって、これらのネットワークのトレーニングに現在使用されている重み共有は、空間的に不変な調節の生物学的作成にもっと近い方法に置き換える必要があります。

3 つ目: プーリングについてはどうでしょうか? 神経科学の用語では、プーリング操作は、ニューロンの発火率がその入力の発火率と等しいことに似ています。ニューロンは他の多くのニューロンからの信号を集約するため、これを直接実行できるニューロンを設計することは困難です。しかし、プーリング操作は複雑な細胞の発見にヒントを得て、もともとはニューロンが簡単に実行できる平均化操作として使用されていました。しかし、プーリングは物体認識性能と生物学的データのフィッティングにおいてより効果的であることが示されており、現在では広く使用されています。

機械学習研究者による CNN のさらなる開発により、CNN は視覚システムの範囲をはるかに超えるようになりました (機械学習研究者の唯一の目標はパフォーマンスそのものであるため)。現在、最もパフォーマンスの高い CNN の中には、生物学的に奇妙に見える特徴を多く備えているものがあります。さらに、これらの新しいモデルの極度の深さ(約 50 層)により、視覚システムに対するその活動の関連性が低下しました。

もちろん、これらのネットワークがどのようにトレーニングされるか(バックプロパゲーション経由)という問題もあります。これについては質問13で説明します。

12. CNN を人間の脳に近づけることはできますか?

私が計算神経科学者である主な理由の 1 つは、(実験設定の制約なしに) 何でも好きなことができることです。はい、できます! 標準的な CNN をさらに生物学に着想を得たものにすることができます。私たちが達成したことを見てみましょう:

質問 10 で述べたように、CNN のさまざまなバリエーションに多くのアーキテクチャ要素が追加され、腹側ストリームに近づきました。さらに、学習プロセスの合理性を高める研究結果もいくつかあります(質問13を参照)。

これらの取り組みに加えて、生物学的詳細を再現するための具体的な研究には以下が含まれます。

生物学にヒントを得て、Spoerer ら (2017) は、横方向の接続とフィードバック接続により、モデルが遮蔽されたオブジェクトやノイズの多いオブジェクトをより適切に認識できるようになることを示しました。

生物学的にヒントを得た接続性の追加、Spoerer ら (2017) より

私の研究の一部(Cosyne 2017 で発表され、ジャーナル投稿中)には、安定化された超線形ネットワーク(正規化を実装する生物学にヒントを得た回路モデル)を CNN アーキテクチャに組み込むことが含まれています。ここでは、CNN に E 細胞と I 細胞のタイプ、ダイナミクス、および再発が導入されます。

Costa et al. (2017) は、生物学に着想を得たコンポーネントを使用して Long Short-Term Memory (LSTM) ネットワークを実装しました。 LSTM は人工ニューラル ネットワークに再帰性を追加するときによく使用されるため、この機能を生物学的にどのように実装できるかを判断することは有用です。

13. CNN が重みを学習するためにバックプロパゲーションを使用することは重要ですか?

バックプロパゲーションでは、分類器によって発生するエラーを減らすために、ネットワーク内の任意の位置の重みをどのように変更する必要があるかを計算します。これは、最初の層のシナプスがエラーに関する情報を保持し、それを最上位層まで渡すことを意味します。しかし、実際のニューロンは多くの場合、局所的な学習ルール(ヘブの可塑性など)に依存しており、重みの変化は主にニューロンの前後のシナプスによって決定され、遠隔要因の影響を受けません。したがって、バックプロパゲーションは生物学的なアプローチであってはなりません。

これは、視覚システムのモデルとして完全にトレーニングされた CNN を使用することに影響を与える必要はありません。計算モデルのパラメーターは、脳の学習方法に似ていない技術(機能的接続性をキャプチャするためのベイジアン推論など)を使用して、しばしば適合します。しかし、これにより、結果の回路モデルが解釈できなくなりません。極端な場合は、Backpropagationを他の手法と同様に純粋なパラメーターフィッティングツールと見なすことができます。 Yamins et al。(2014年)。

ただし、この見解を採用することは、モデルの特定の側面が解釈できないことを意味しません。たとえば、学習曲線(モデルが学習するにつれてエラーがどのように変化するか)が、人間や動物が学習したときに発生するエラーに関連するとは考えられません。

分離された樹状突起を使用した局所エラー計算

現在実装されているバックプロパゲーションは生物学的にもっともらしいものではありませんが、脳が実際にどのように機能するかの抽象版と見なすことができます。現在、局所的な計算や「分離樹状突起を使用した深い学習に向けて」、「局所的なヘビアンシナプス塑性との予測コーディングネットワークでの誤差逆伝達アルゴリズムの近似」など、局所的な計算や現実的な細胞タイプを実装するなど、バックプロパゲーションを生物学的にもっともらしいものにするために働いている複数の研究があります。これは、学習プロセスのより良い生物学的説明を提供します。より生物学的にもっともらしい学習プロセスを使用すると、データをよりよく一致させる神経活動が生成される可能性があるかどうかは、経験的には答えられない質問です。

一方、監視されていない学習は、ラベルに関する明示的なフィードバックを必要とせず、代わりに環境に関する自然統計を使用して表現を開発するため、脳のメカニズムのように見えます。これまでのところ、監視されていない学習は、監視された学習と同じ高性能をオブジェクト分類で達成していません。しかし、教師なしの学習と方法を生物学的にもっともらしいものにすることの進歩は、最終的に視覚システムのより良いモデルにつながる可能性があります。

14. CNNを使用して視覚システムについて何を学ぶことができますか?

CNNに頼るだけでは何も理解できません。すべての洞察と開発は、実験データとの相互作用を通じて検証および拡張する必要があります。とはいえ、CNNSは視覚システムを理解する方法に3つの貢献をすることができます。

***は、直感的な理解を確認することです。ファインマンが言ったように、「私たちは何を創造できないのか理解できません。」すべてのデータが収集され、視覚システムの理論が開発されたため、神経科学者はこれが私たちを目覚めさせて、重要なものを見逃していることに気付かないのでしょうか。視覚システムの直感的な理解はほぼ正しいと言えます。コンピューティングパワーとトレーニングデータが不足しているだけです。

2つ目は、理想的な実験テストプラットフォームの実現を可能にすることです。これは、科学コミュニティの機械的モデルへの一般的なアプローチです。関心のあるものをシミュレートする合理的なモデルを構築するために必要なデータを使用できます。次に、さまざまな部分をテストして、どの部分が機能に重要であるかを確認します。これを使用して、将来の実験の仮説を生成したり、モデルの構築に使用されていなかったデータを解釈するために使用できます。

貢献する3番目の方法は、数学的分析によるものです。これは、視覚システムが具体的なデータ用語にどのように機能するかについての信念を統合することで、常に新しいタイプの研究方向を開きます。多くの場合、モデルを実行するときにモデルをさらに単純化する必要がありますが、これはモデルの動作の一般的な傾向と制限に関する有用な洞察を提供することができます。この特定のケースでは、一部の機械学習者もこれらのモデルを数学的に分析することに関心があるため、いくつかの追加の勢いがあります。彼らの洞察は、http://www.cs.toronto.edu/~wenjie/papers/nips16/top.pdfなどの適切な状況での私たちの洞察になることができるように

15.視覚システムのモデルとしてCNNを使用することから何を学びましたか?

まず、実際に作業ビジョンシステムを構築するために使用できることを示すことにより、直感を検証します。さらに、このアプローチは、視覚システムの計算的およびアルゴリズム的側面を(Marrの用語で)定義するのに役立ちました。オブジェクトの検出に関するトレーニングによって非常に多くの神経および行動データを取得する能力は、これが腹部ストリームのコア計算上の役割であることを示唆しています。そして、一連の畳み込みとプーリングは、これを行うために必要なアルゴリズムの一部です。

これらのネットワークの成功は、視覚神経科学の基礎研究ユニットについて考える方法を変えるのにも役立つと思います。視覚的神経科学の多く、そして実際にはすべての神経科学は、単一の細胞とそのチューニングの好みを中心としたアプローチに支配されています。人口コーディングに焦点を当てて、データを取得するためにニューロンに厳密に対応する抽象的なモデルはありません。ある日、単一の変調関数を理解しようとするのと同じ結果を得ることができますが、現在のグループレベルのアプローチはより効果的に見えます。

さらに、視覚システムを孤立した領域ではなく、システム全体として表示すると、これらの領域を理解する方法を再構築できます。言葉や単純な数学を説明しようとするなど、その領域の細胞が応答する原因など、多くの作業がV4の研究にかけられています。 V4がターゲット認識パスの中央の足場と見なされる場合、それを取り出して個別に説明することはさらに不可能に思われます。このレビューペーパーのように「ディープニューラルネットワーク:モデリングのための新しいフレームワーク

「ユニットの口頭での解釈(目や顔検出器など)は、何か重要なことを直接理解するのに役立つ可能性があります。しかし、そのような口頭での解釈は、これらの表現の分類と配置の程度を誇張し、これらの表現の統計的および分布性を過小評価する可能性があります。

さまざまなアーキテクチャの探索には、さらに具体的な進歩があります。必要な詳細がどのようなものであるかを神経および行動反応を取得する要素を調べることにより、構造と機能の間に直接的なつながりを得ることができます。深い再発性ニューラルネットワークでは、動的な自然視の際のプロセスメモリの階層を明らかにします。ネットワークに結合された横方向のつながりは、腹側の流れよりも背側の流れ応答の時間経過を説明する上で大きな役割を果たします。他の研究では、腹側の流れのダイナミクスを得るためにフィードバック接続が重要であることが示されています。また、神経反応の特定の成分がランダムな重みのモデルを通じて得られることを示す研究もあります。これは、階層アーキテクチャ自体がそれらを説明できることを示唆しています。他のコンポーネントは、自然で効果的な画像カテゴリでトレーニングする必要があります。

さらに、特定のパフォーマンスのあるCNNは神経行動を正確に予測しないことが観察されました(質問11を参照)。この観察は、視覚能力を持つすべてのモデルが脳の良いモデルではないことを示しているため、重要です。これにより、(脳領域と層の間の対応を通じて)神経活動をよく予測するアーキテクチャを見る理由は、脳が実行するプロセスの一部を獲得することであると信じています。

CNNは、現実的な神経応答を生成する「画像計算可能な」方法を提供するため、理解されていないシグナルを視覚処理と相関させることもできます。

私自身は、CNNの視覚システムのモデルとしての使用も研究しています。

***、一部の研究では、CNNSによって実装されていない神経または行動要素を記録しています(質問6を参照)。これらの研究は、さらなる実験的および計算的な調査が必要な領域を特定するのに役立ちます。

さらに多くのケースがあります。全体として、この分野に関する研究が実際に2014年頃に始まったことを考えると、研究の数はすでにかなり良いと思います。

オリジナルリンク:

https://neurdiness.wordpress.com/2018/05/17/deep convolution-neural-networks-as-models-of-the-visual-system-qa/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id: Almosthuman2014)」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<:  Facebook が人工知能を活用する 6 つの方法 (予想外のものもいくつかある)

>>:  TensorFlow の動的グラフツール Eager の使い方は?これは非常に簡単なチュートリアルです

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

ジェネレーティブAIはソフトウェア開発に3つの幻想をもたらす:高速、高品質、そしてより少ない人員

著者 |張開峰ソフトウェア業界は長い間、コスト削減と効率性向上に取り組んできました。長期にわたる開発...

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

視覚的なプロンプトを使用するとどのような感じでしょうか?写真をランダムにフレームに入れるだけで、同じ...

AIバーチャルアシスタント:私たちはオペレーターの新たなお気に入りです

人工知能が将来のビジネスやデジタル変革の鍵となる可能性が高いことをさまざまな分野の人々が一般的に認識...

人工知能は未来の都市にどのような力を与えるのでしょうか?

スマート シティが将来のアイデアだけでなく現実のものとなるにつれ、人工知能 (AI) が台頭してきて...

目に見える機械学習: ニューラルネットワークをゼロから理解する

機械学習に関する古いジョークがあります。機械学習は高校のセックスのようなものです。誰もがやっていると...

Java プログラミング スキル - データ構造とアルゴリズム「ハフマン ツリー」

[[389315]]基本的な紹介n 個のリーフ ノードとして n 個の重みが与えられ、バイナリ ツ...

数十人の国内NLP専門家が協力し、事前学習済みモデルの過去、現在、未来を検討した。

[[422361]] BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) ...

人工知能に対するいくつかの態度: 流行を追跡するために個人データを犠牲にする用意がありますか?

最近、AI に関する調査、研究、予測、その他の定量的評価が相次いで発表され、世界中の企業による AI...

クラウドコンピューティングの人工知能の開発は遅いものの、注目を集めています

IT プロフェッショナルが AI の適用を実験する際、その多くはパブリック クラウドでそれを実行する...

...

人工知能2.0の時代、機械にスマートな脳を搭載する方法

[[419760]] 「クラブアップルの木は、その赤みがかった色にもかかわらず、霧雨の中にひとりぼっ...

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...

人工知能か、それとも人工的な愚かさか?予想外の大規模なアルゴリズムのロールオーバー

あなたはアルゴリズムを信じますか?答えが何であれ、私たちの生活はアルゴリズムによって完全に変わりまし...

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

[51CTO.comよりオリジナル記事] 10月13日、中関村スタートアップストリートで、中関村ス...