ディープラーニングを使って夢に現れる物体を分析する

ディープラーニングを使って夢に現れる物体を分析する

この記事の主な内容は機械学習と神経科学を組み合わせたものであり、読者にはこれら 2 つの方向に関する一定の基礎知識が求められます。

機械学習の概要: 機械学習アルゴリズムは、データを自動的に分析してパターンを取得し、そのパターンを使用して未知のデータを予測するタイプのアルゴリズムです。最近非常に人気が高まっているディープラーニングは、機械学習の一分野です。主に人工ニューラルネットワークに基づくさまざまな方法を使用して目標を達成します。現在、多くのバリエーションがあります。この記事で使用されているニューラルネットワークは、畳み込みニューラルネットワーク (CNN) です。

記事の神経科学実験部分で使用されている主な信号読み取り方法は、機能的磁気共鳴画像法(fMRI)です。主な原理は、脳領域への血流の変化を監視することで、脳領域の活動レベルを間接的に測定することです。脳領域の活動レベルが上昇すると、対応する血流も増加し、脳領域に多くの酸素が供給され、老廃物に影響を与えて排除します。機能的磁気共鳴画像の空間解像度は非常に高いですが、時間解像度は比較的限られています。約 2 秒以内に平均活動レベルを収集することしかできず、神経活動の検出には一定の遅延があります。

[[208814]]

数日前にASSCに行ったとき、ディープラーニングを使って人間の夢に現れる物体のカテゴリーを分析する非常に興味深い研究について聞きました。私が見た中でディープラーニングと神経科学を組み合わせた数少ない作品の 1 つです。帰国後、関連記事をいくつか調べたので、ここでシェアしたいと思います。

この記事で紹介した全体的な考え方:

  1. 視覚知覚と夢は、視覚皮質の神経活動の活性化パターンが部分的に類似していることが実証されています。
  2. デコーダーは、被験者の視覚皮質の神経活動信号から正しいオブジェクト カテゴリまで、通常の視覚知覚をトレーニング セットとして使用してトレーニングされます。これは 2 つの部分に分かれています。最初は fMRI 信号から特徴空間へ、次に特徴空間から相関分析を使用してオブジェクト カテゴリを推測します。
  3. このデコーダーを使用して、夢の中の物体のカテゴリを予測します。
  4. このデータを使用して、視覚皮質とその基礎となる畳み込みニューラル ネットワークの類似点を説明し、畳み込みニューラル ネットワークを使用する方が効果が優れている理由も説明したいと思います。
  5. ***私は認知神経科学の大学院生と機械学習の初心者の観点から個人的にこの研究を分析しています。

最初の 3 つのポイントは、彼らのグループによって公開された 3 つの記事に対応しています。最初から始めましょう。 まず、2013年に「睡眠中の視覚イメージの神経解読」という研究がありました。

実験部分:

実験中、被験者はMRI装置の中に横たわり、脳波(EEG)を通じて睡眠状態を継続的に監視しながら脳の活動をスキャンした。特定の脳波特性を通じて被験者が夢の状態に入ったことがわかった後、被験者は起こされ、夢の内容を口頭で説明するように求められます。 (下図参照)

結果セクション:

夢の実験の前に、著者らは被験者が絵を見ているときの視覚皮質からfMRI信号を収集し、これに基づいて線形SVM(サポートベクターマシン)分類器をトレーニングしました。この分類器は、被験者が夢の中で見る物体を解読するために使用されます。ここで著者が使用したタスクは比較的単純で、2 つの物体カテゴリから正しいものを選択するというものです。その結果、予測精度は50%を超え、ランダムレベルよりも高いことが分かり、視覚知覚と夢は視覚皮質において同様の情報表現メカニズムを持っていることが示されました。

実はこの研究は時代を先取りしたものでした。2013年には、夢の分析を試みた研究者もいました。機械学習と神経科学を組み合わせた初期の研究でもありました。しかし、今日の話題とは特に関係がないので、必要な結果だけを紹介しました。具体的なアイデアや手法についてはここでは割愛します。興味のある学生は原文を自分で調べてください。

次に重要な点は、写真を見ている被験者の fMRI 信号からオブジェクト カテゴリをどのように抽出するかです。

実験部分:

ここで著者は主に2種類の実験を行った。1つは物体の写真を普通に見る実験、もう1つは手がかりに基づいて物体のイメージを想像する実験である。

物体観察実験では、被験者にそれぞれ 9 秒間、異なる画像が提示されました。ここで比較的簡単なタスクが追加されます。表示される画像が前の画像と同じ場合、被験者はキーを押して応答する必要があります。これは被写体の注意を写真に引き付けるためです。 2 つ目のタイプは、想像力実験です。手がかり段階では、ターゲット単語 1 つと干渉単語 49 個が表示されます。「ビープ」という音を聞いた後、被験者は目を閉じてターゲット単語のイメージを想像する必要があります。 15秒後、「ピー」という音が聞こえたら目を開けて、想像した画像が目標画像になっているか確認します。 実験中、被験者の視覚皮質からのfMRI信号が収集されました。

fMRIから物体のカテゴリーへ

その後のデータ分析作業、つまり fMRI 信号からオブジェクト カテゴリまでの作業は 2 つのステップに分かれています。

最初のステップは、fMRI 信号を特徴空間に変換することです。

著者は特徴抽出に 8 層の事前トレーニング済みニューラル ネットワークを使用しました。最初の 7 つの層ではそれぞれ 1000 個のニューロンがランダムに選択され、8 番目の層では 1000 個のニューロンすべてがランダムに選択されます。画像がネットワークを通じて順方向に伝播された後、これらのニューロンの出力が特徴として使用されます。このようにして、各画像を順方向に伝播すると、8 層 * 1000 特徴/層の特徴マトリックスが得られます。

次に、被験者の fMRI 信号を使用して一連のデコーダーをトレーニングし、異なるレイヤーの異なる特徴の値を被験者の fMRI 信号から適合させます。 fMRI 信号から特徴空間への変換を実現します。

2 番目のステップは、特徴空間からオブジェクト カテゴリに移動することです。

ここで著者が最初に行うことは、各オブジェクト カテゴリの特徴マトリックスを計算することです。彼のアプローチは、各カテゴリのすべての画像に対してネットワークを実行し、生成されたすべての特徴マトリックスの平均を取り、オブジェクト カテゴリに対応する特徴マトリックスを取得することです。

前のステップで被験者の夢からデコードされた特徴行列がどのカテゴリのオブジェクトに対応するかを計算したい場合。ここでは単純な相関関係を作成し、相関係数が最も高いカテゴリを予測カテゴリとして採用します。

結果:

この記事の結果は非常に優れているとは言えませんが、この分野での応用に関して興味深い方向性を提案しています。

この図は、畳み込みニューラル ネットワークの予測精度の一部を示しています。被験者が実際に画像を見た場合、特定のレイヤーを使用した予測精度は90%を超える非常に高いレベルに達することがわかります。このネットワークを直接使用して架空の状況に移行すると、ランダムな推測よりも高い精度も達成できます。想像上の画像に対する既存モデルの予測能力がはるかに劣っていることは明らかです。実際、それはある程度は理にかなっています。重要なのは、想像と直接的な観察には、基礎となる視覚メカニズムが異なるはずだということです。 2 つ目は、モデルは写真を見る実際の状況に基づいてトレーニングされるため、類似しているがまったく同じではない別のタスクに移行すると、パフォーマンスが当然低下するということです。

夢の解釈の仕事:

この記事ではその点に焦点を当てます。どれだけ重要な内容であっても、逐語的に翻訳することはせず、全体的なロジックのみを説明します。この記事が気に入った学生は、ぜひ原文を読んでみてください。

この記事の巧妙なところは、実験を一切行わず、最初の記事のデータと 2 番目の記事のモデルを使用したことです。


平均試行による単一カテゴリ特徴デコード

夢の中の単一物体のカテゴリーの認識。

ここで使用される例は本です。被験者が夢を見ているとき、本というオブジェクトが複数の夢に現れることがあります。著者はこれらの夢に対応する fMRI 信号を合計して平均します。次に、記事 2 でトレーニングされたデコーダーを使用して現在の夢の特徴行列を予測し、それを本のカテゴリの特徴行列と相関させます。

結果は、脳の高位領域と高レベルの神経ネットワークの方が物体認識に優れており、この2つを組み合わせると最良の結果が得られることを示しました。


個別試行によるマルチカテゴリ特徴デコード

もちろん、夢に本だけが出てくるというのは現実的ではありません。私たちは皆、このような経験をしています。夢は、複数の物体がある全体的なシーンのようなものです。上の写真に示すように、この夢には、本に加えて、男性と食べ物もあります。そこで著者は、一つの夢の中で複数の物体を識別するためにこの実験も行いました。単一の夢に対応する fMRI 信号からデコードされた特徴行列は、被験者が報告したすべてのカテゴリの特徴行列の平均行列との相関比較に使用されます。この予測結果は悪いですが、傾向は前回の実験と同様です。脳の高次の領域とネットワークの高レベルほど、予測能力が優れています。

***最初の実験は、実際には記事 1 の実験を再現したもので、2 つのオブジェクト カテゴリのうち、実際に夢に現れるカテゴリを見つけるというものです。使用される方法は、特徴マトリックスの相関でもあります。精度は、第 1 記事の SVM (サポート ベクター マシン) に基づく結果よりもはるかに高くなっています。

また、オブジェクト実験の結果はニューラルネットワークの中間層(レイヤー 4、5、6)ではパフォーマンスが向上していますが、第 3 層では低下傾向にあり、この傾向は想像上の結果にも反映されていることがここでもわかります。夢の実験では、予測効果もランダム推測よりも大きかったものの、7レベルで低下し、8レベルで反発するという現象が見られました。絵を見て絵について考えるというパターンとは矛盾していました。これは、夢と視覚知覚の神経メカニズムには一定の類似点があるものの、特定のメカニズムには依然として一定の違いがあることを示唆しています。

密輸品の所持。 この記事のデータを使用して、畳み込みニューラル ネットワークと人間の視覚皮質の類似点について簡単に説明します。この類似性が、私がこの記事を書いた理由の 1 つです。


画像特徴のデコードと CNN と人間の脳の相同性。

この写真は2番目の記事に掲載されています。 a は、異なるレイヤーで予測された特徴マトリックスと実際の特徴値の比較です。ある程度の重複があり、これはデコーダーが実際に fMRI 信号から畳み込みニューラル ネットワークの異なるレイヤーの特徴へのマッピングをある程度学習したことを示しています。図Bは、異なる視覚皮質によって予測された特徴値と実際の特徴値の比較です。ここで興味深いのは、低レベルの畳み込みニューラルネットワークをフィッティングする場合、V1、V2、V3などの低レベルの視覚皮質が比較的うまく機能するのに対し、高レベルの視覚皮質(FFA(紡錘状顔領域、紡錘状回の顔認識領域、神経科学の研究では主に顔認識に関与していることが判明、PPA(海馬傍回領域、神経科学の研究では主にシーン認識に関与していることが判明))は、高レベルの畳み込みニューラルネットワークをフィッティングする場合に比較的うまく機能することです。


CNN レイヤーに推奨される画像と重み分布。

神経科学の分野では、FFA や PPA などの比較的高度な皮質がより複雑な視覚刺激に対してより強い反応を示すことを証明する同様の研究があります。たとえば、FFA は主に顔に反応し、PPA は物体に反応します。V1、V2、V3 などの下位の皮質は、さまざまな方向の線や色などの下位の視覚要素にさらに反応します。著者らは活性化最大化法を使用して、対応する層をよりよく刺激できる画像を生成し、これらの画像を被験者に見せ、これらのデータの fMRI を使用して特徴マトリックスを生成しました。同様の現象が見つかりました。人の皮質のレベルが高ければ高いほど、高レベルの畳み込み層のフィッティング結果は良くなります。

これは、畳み込みニューラル ネットワークが人間の視覚野と一定の類似点を持ち、低レベルのネットワークがローカルな特徴を担当し、高レベルのネットワークが意味的な特徴を担当していることを示唆しています。

記事全体が完成しました。これを混乱される方もいらっしゃるかもしれませんので、ここでテキストの論理を整理し直します。

  1. これは、視覚知覚と夢が視覚皮質における神経活動のパターンが部分的に類似していることを証明しています。
  2. デコーダーは、被験者の視覚皮質の神経活動信号から正しいオブジェクト カテゴリまで、通常の視覚知覚をトレーニング セットとして使用してトレーニングされます。これは 2 つの部分に分かれています。最初は fMRI 信号から特徴空間へ、次に特徴空間から相関分析を使用してオブジェクト カテゴリを推測します。
  3. このデコーダーを使用して、夢の中の物体のカテゴリを予測します。
  4. 私はいくつかの個人的な意見を共有し、その中のデータを使用して視覚皮質とその基礎となる畳み込みニューラル ネットワークの類似点を説明したいと思います。これにより、畳み込みニューラル ネットワークを使用する方が効果が優れている理由も説明できます。
  5. ***私は認知神経科学の大学院生と機械学習の初心者の観点から個人的にこの研究を分析しています。一連の記事に対する私の個人的な評価:これは非常に興味深い研究です。2013年に初めてfMRI + 機械学習技術を使用して夢の分析が試みられました。2015年には、被験者のfMRI信号から見える物体を一定の精度で分析することに成功しました。この2つの観点から、これは非常に画期的な研究です。さらに、畳み込みニューラル ネットワークと関連する脳領域の比較も非常に興味深く、畳み込みニューラル ネットワークと人間の視覚皮質の類似性をある程度示しています。

認知神経科学の大学院生として、私はこれらの実験はよくできており、シンプルですが非常に効果的だと思います。改善点があるとすれば、当研究所と協力して、7T というより高い解像度を使用してみることです。また、*** のいくつかのシーケンスでは、より良い結果が得られるかもしれません。しかし、著者もトレードオフがあると考えています。解像度だけでなく、SNR も考慮する必要があります。特に夢の中では、ノイズにも注意が必要です。

機械学習の初心者として、個人的にはモデル部分を中心にまだ改善できる部分があると思っています。 この 8 層ニューラル ネットワークでより高度なモデルを使用すると、より良い結果が得られるでしょうか?特徴マトリックスの平均化もあります。畳み込みニューラル ネットワークは、低レベルの単純な特徴にしか応答できません。オブジェクトのさまざまな表面のローカル特徴はまったく異なります。この平均化の結果、実際の予測能力は低下します。個人的には、カテゴリーを取得した後、先に進んで投票する方が良い方法だと思います。また、個人的には他にもいくつかアイデアがあり、持っているものを使って実現していきたいと思っています。

<<:  プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

>>:  AI導入の最大の障壁:熟練した専門家の不足

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスク...

...

2021年、AIは小売業者が失われた顧客ロイヤルティを「救う」のに役立つだろう

2020 年は混乱と混乱が共存しましたが、騒動は落ち着き、小売業者は新年に再編成し、新たな常態に向か...

世界主要7カ国のAI戦略を総ざらい

21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...

FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか?

[51CTO.com クイック翻訳] 機械学習の分野では、データセット内の類似性を実現するために使...

トランスフォーマーベースの効率的で低遅延のストリーミング音声認識モデル

シナリオの観点から、音声認識はストリーミング音声認識と非ストリーミング音声認識に分けられます。非スト...

...

テンセントが業界初のAIセキュリティ攻撃マトリックスを発表、リスク排除が辞書を引くのと同じくらい簡単に

近年、人工知能は急速に発展し、家庭、金融、交通、医療などさまざまな分野に深く融合し、人々の生活はより...

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

近年、世界的な工業化の加速を背景に、製造業、建設業、化学業などの産業を中心に労働災害や死亡者数が増加...

ByteDance、検索速度が8倍に高速化した最新の音楽検索システム「ByteCover2」をリリース

最近、ByteDance Volcano Voice Teamの最新の音楽検索システムであるByte...

人工知能によるサイバーセキュリティ防御の強化

人工知能は貴重で脆弱なデータを保護する上で大きな可能性を秘めていますが、セキュリティ チームがそれを...

今日のAIの優れた使用例

企業は AI パイロットを実施し、AI を本番環境に移行しています。大手組織はここに賭けており、すで...

Reddit のホットトピック: あなたも NLP の現状に失望していますか?

ご存知のとおり、自然言語処理 (NLP) とコンピューター ビジョン (CV) は、人工知能の 2 ...