MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

MIT の新しいテクノロジーは、視覚データでトレーニングされたニューラル ネットワークの内部の仕組みを明らかにするのに役立ちます。

[[195593]]

ニューラル ネットワークは、大量のトレーニング データを分析することで計算タスクの実行方法を学習し、音声認識システム、自動翻訳機、自動運転車など、今日の最も高性能な人工知能システムの多くに使用されています。しかし、ニューラル ネットワークはブラック ボックスです。トレーニング後は、設計者でさえ、ニューラル ネットワークがどのように機能するか、つまり、どのようなデータを処理するか、そのデータをどのように処理するかを理解できません。

2年前、MITのCSAIL研究所のコンピュータービジョン研究者チームは、ニューラルネットワークトレーニングのブラックボックスを覗き込んで視覚シーンを認識する方法を説明した。このアプローチは興味深い洞察を提供しますが、Amazon の Mechanical Turk クラウドソーシング サービスを介してデータを人間のレビュー担当者に送信する必要があります。

今年の CVPR カンファレンスでは、CSAIL の研究者が上記のシステムをアップグレードし、完全に自動化されたバージョンを発表する予定です。前回の論文では 1 つのニューラル ネットワーク (1 つのタスク) の分析を行いましたが、今回の論文では、シーンやオブジェクトの認識、グレースケール画像の色付け、パズルの解決などのタスクを含む 4 つのニューラル ネットワーク (20 を超えるタスク) の分析を行います。新しいネットワークの中には、規模が大きすぎるものもあり、古い方法を使って分析するにはコストがかかりすぎます。

研究者らはインターネット上で一連の実験も行い、さまざまなコンピュータービジョンや計算写真アルゴリズムの特性を明らかにしただけでなく、人間の脳がどのように構成されているかについての証拠も提供した。

ニューラル ネットワークの名前は、比較的単純だが密に接続された多数の情報処理ノードを持つ人間の神経系のシミュレーションに由来しています。ニューロンと同様に、ニューラル ネットワーク内のノードは、隣接するノードから情報信号を受信し、独自の信号をアクティブ化して放出するか、または沈黙したままになります。ニューロンと同様に、ノード活性化応答には変化できるという利点があります。

2つの論文で、MITの研究者らはニューラルネットワークを修正し、コンピュータービジョンのタスクを完了するようにトレーニングして、各ノードが異なる入力画像にどのように反応するかを明らかにした。次に、各ノードを最も刺激する 10 個の入力画像を選択しました。

以前の論文では、研究者らはこれらの画像をMechanical Turkで雇用された労働者に送り、画像の共通点を特定するよう依頼した。新しい論文では、研究者たちはこのタスクを達成するためにコンピューターシステムを使用しました。

「私たちは、緑、土の質感、木、人の顔、自転車の車輪、雪山など、1,100 を超える視覚概念をカタログ化しました」と、MIT の大学院生である David Bau 氏は語ります。「他の人が開発した複数のデータセットを、視覚概念で密にラベル付けされたデータセットと組み合わせることで、非常に多くのラベルが得られ、どのピクセルがどのラベルに対応しているかがわかりました。」

論文の他の著者には、共同筆頭著者のボレイ・ゾウ氏、MITの電気工学およびコンピューターサイエンスの教授であるアントニオ・トッラルバ氏、CSAILの上級研究科学者であるオーデ・オリバ氏、そしてトッラルバ氏の博士課程の学生で現在は医療コンピューティング企業PathAIのCTOを務めるアディティア・コスラ氏などがいる。

研究者たちは、どの画像のどのピクセルが特定のネットワーク ノードからの最適な応答に対応するかも把握しています。今日のニューラル ネットワークは層に編成されており、データは最初の層に入力され、処理されて次の層に渡される、というように処理されます。視覚化データでは、入力画像は小さな断片に分割され、各断片は個別の入力ノードに送られます。

研究者たちは、ネットワークの 1 つにある特定のノード層からの各応答について、トリガー パターンを追跡し、それに対応する特定の画像ピクセルを特定することができました。彼らのシステムは、ピクセルの正確なグループに対応するラベルを頻繁に識別できるため、ノードの動作を非常に詳細に特徴付けることができます。

データセットでは、研究者はこれらの視覚概念を階層的に整理しました。各レベルは、色、テクスチャ、マテリアル、コンポーネント、オブジェクト、シーンなどのトップレベルの概念から始まり、通常、ニューラル ネットワークの下位層は色やテクスチャなどの単純な視覚的特徴に反応し、上位層はより複雑な特徴に対する反応をトリガーします。

しかし、これらのレイヤーにより、研究者は特定のタスクを達成するためにニューラル ネットワークをトレーニングする際に、どこに焦点を当てるべきかを定量化することもできます。たとえば、白黒画像をカラー化するようにニューラル ネットワークをトレーニングする場合は、テクスチャを認識する多数のノードに重点が置かれます。たとえば、ビデオ画面内のオブジェクトを追跡するようにネットワークをトレーニングする場合は、シーン認識用にネットワークをトレーニングする場合よりも、画像認識のノードに注意を払う必要があります。この場合、多くのノードは実際にはオブジェクトの認識に重点を置いています。

研究者たちの実験は、神経科学における難しい疑問にも光を当てる可能性がある。神経疾患を制御するために被験者の脳に埋め込まれた電極を使用した研究では、脳内の個々のニューロンが特定の視覚刺激に反応して発火することが示されています。この仮説はもともと祖母ニューロン仮説と呼ばれていましたが、最近神経科学者によって提唱されたジェニファー・アニストンニューロン仮説としてよく知られています。彼らは、数人の神経疾患患者のニューロンが特定のハリウッドスターの描写にのみ反応する傾向があることを発見した後、この仮説を思いついた。

多くの神経科学者はこの説明に異議を唱えている。彼らは、個々のニューロンではなく、ニューロンのクラスターが脳内の感覚認識を制御していると考えています。つまり、ジェニファー・アニストン ニューロンは、ジェニファー・アニストンの画像に反応して一斉に発火するニューロンの集まりです。多くのニューロン集団が同時に刺激に反応したが、テストされなかった可能性もあります。

MIT の研究者の分析技術は完全に自動化されているため、視覚シーンを認識するためのニューラル ネットワークのトレーニングの過程で同様のことが起こるかどうかをテストすることができました。特定の視覚概念に合わせて調整された個々のネットワーク ノードを識別するだけでなく、組み合わせたノードもランダムに選択しました。ただし、ノードの組み合わせでは、単一のノードよりも視覚的な概念がはるかに少なくなり、約 80% になります。

「私にとって、これはニューラル ネットワークが実際に祖母ニューロンに近似しようとしていることを示唆しています」とバウ氏は言います。「祖母ニューロンの概念をあらゆるところに押し付けようとしているのではなく、それをニューロンに割り当てようとしているのです。これは興味深い示唆であり、ほとんどの人はこのアーキテクチャがそれほど単純だとは信じていません。」

論文: ネットワーク解剖: 深層視覚表現の解釈可能性の定量化

論文リンク: http://netdissect.csail.mit.edu/final-network-dissection.pdf

我々は、個々の隠れユニットと意味概念のセットとの間の対応を評価することによって、CNN 隠れ表現の解釈可能性を定量化するための、ネットワーク解剖と呼ばれる一般的なフレームワークを提案します。 CNN モデルが与えられた場合、私たちが提案する方法は、視覚概念の大規模なデータセットを活用して、中間畳み込み層の各隠れユニットの意味を評価します。これらの意味が付与されたユニットには、オブジェクト、コンポーネント、シーンからテクスチャ、マテリアル、色に至るまで、幅広いラベルが付けられます。提案した方法を使用して、ユニットの解釈可能性はそのランダムな線形結合と同等であるという仮説をテストします。次に、さまざまな教師ありおよび自己教師ありのトレーニング タスクを解決するようにトレーニングされたときのさまざまなネットワークの潜在表現を比較するためにこの方法を適用します。さらに、トレーニングの反復の影響を分析し、異なる初期化でトレーニングされたネットワークを比較し、ネットワークの深さと幅の影響を調べ、ドロップアウトとバッチ正規化が深層視覚表現の解釈可能性に与える影響を測定します。提案された方法は、CNN モデルとトレーニング方法の特性を、その識別力の尺度を超えて明らかにできることを示します。

<<:  DeepMind のブラック ボックス解読の第一歩: ニューラル ネットワークの認知原理は人間のものと同じであることが判明しました。

>>:  なぜディープラーニングには局所最小値がないのでしょうか?

ブログ    
ブログ    

推薦する

米国は、中国のAIチップ量子の3つの主要分野への投資を制限する最新の大統領令に署名しました。大手メーカーが50億ドル相当のA800を緊急発注

水曜日、ホワイトハウスは大統領令に署名した。米国は、中国の半導体設計ソフトウェアや製造ハードウェアへ...

...

グラフィカルな説明 | Linux メモリリサイクル LRU アルゴリズム

[[421791]]メモリは、オペレーティング システムにとって非常に重要なリソースです。オペレーテ...

...

概念から事例まで: 初心者向けの機械学習アルゴリズムトップ 10

この記事では、まず初心者が知っておくべき機械学習 (ML) アルゴリズムのトップ 10 を紹介し、い...

ニューラル ネットワーク モデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

あなたの周りにある、機械学習の一般的な使用例トップ 7!

想像してみてください。あなたはずっと夢見てきた機械学習の職種の面接を受けに行こうとしています。すべて...

Objective-C でのソートアルゴリズムを学ぶ

データ構造とアルゴリズムを学習していたとき、ソートアルゴリズムをアニメーションで表現して、理解しやす...

IDC: 欧州の人工知能への支出は2022年に220億ドルに達する

インターナショナル・データ・コーポレーション(IDC)の新しい世界人工知能支出ガイドでは、ヨーロッパ...

...

...

Cloudsimを使用して多次元QoSに基づくリソーススケジューリングアルゴリズムを実装する

Cloudsim は、グリッドコンピューティングシミュレーションソフトウェア Gridsim のプロ...

...

...

ByteDanceがCowClipをオープンソース化:推奨モデルのシングルカードトレーニングを最大72倍高速化可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...