視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活動を引き起こします。認知神経科学の分野では、脳活動から視覚情報を解読することが重要な課題となっています。機能的磁気共鳴画像法(fMRI)は、効率的で非侵襲的な技術として、画像カテゴリなどの視覚情報を回復および分析する上で重要な役割を果たします。

しかし、このタスクは、fMRI 信号のノイズの性質と脳の視覚表現の複雑さのために、かなりの課題に直面しています。この問題に対処するため、本論文では、脳活動のノイズを識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置き、脳活動から高解像度で意味的に正確な画像を再構成することを目的とした 2 段階の fMRI 表現学習フレームワークを提案します。

論文リンク: https://arxiv.org/abs/2305.17214

プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/

論文で提案された方法は、二重コントラスト学習、クロスモーダル情報交差、拡散モデルに基づいています。関連する fMRI データセットにおける以前の最良モデルと比較して、評価指標が 40% 近く向上しました。生成された画像の品質、可読性、意味的関連性は、既存の方法と比較して著しく向上しました。この研究は、人間の脳の視覚知覚メカニズムを理解するのに役立ち、視覚脳コンピューターインターフェース技術の研究を促進するのに役立ちます。関連するコードはオープンソース化されています。

機能的磁気共鳴画像法(fMRI)は神経反応の分析に広く使用されていますが、そのデータから視覚画像を正確に再構築することは依然として困難です。主な理由は、fMRI データには複数のソースからのノイズが含まれており、神経活性化パターンが隠され、解読が困難になる可能性があるためです。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑で多段階であるため、fMRI 信号は複雑な非線形重ね合わせとなり、逆転や解読が困難になります。

リッジ回帰などの従来の神経デコード方法は、fMRI 信号を対応する刺激に関連付けるために使用されますが、刺激と神経反応の間の非線形関係を効果的に捉えられないことがよくあります。最近では、生成的敵対ネットワーク (GAN) や潜在的拡散モデル (LDM) などの深層学習技術が採用され、この複雑な関係をより正確にモデル化しています。しかし、視覚に関連する脳活動をノイズから分離し、正確に解読することは、この分野における主要な課題の 1 つとして残っています。

これらの課題に対処するために、本研究では、脳活動のノイズを効果的に識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置くことができる 2 段階の fMRI 表現学習フレームワークを提案します。この方法は、50 のカテゴリで高解像度かつ意味的に正確な画像を生成する際に、最先端の方法よりも 39.34% 高いトップ 1 精度を達成します。

方法の概要

fMRI表現学習(FRL)

ステージ 1: 事前トレーニング デュアル コントラスト マスク オートエンコーダ (DC-MAE)

本論文では、異なる集団における共通の脳活動パターンと個々のノイズを区別するために、ラベルなしデータを使用して fMRI 表現を事前トレーニングする DC-MAE 技術を紹介します。 DC-MAE はエンコーダーとデコーダーで構成され、マスクされた fMRI 信号を入力として受け取り、マスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「二重コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラスト プロセスに参加することを意味します。

対照学習の最初の段階では、n 個の fMRI サンプル v を含むバッチ内の各サンプルがランダムに 2 回マスクされ、2 つの異なるマスク バージョン対照用の正のサンプル ペアが生成されます。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、fMRI エンコーダーに個別に入力されます。デコーダーはこれらのエンコードされた潜在表現を受け取り予測を生成します。モデルは、InfoNCE 損失関数によって計算された最初のコントラスト損失、つまりクロス コントラスト損失を使用して最適化されます。

対照学習の第 2 段階では、マスクされていない元の画像とそれに対応するマスクされた画像が、自然な正のサンプルのペアを形成します。ここではデコーダーによって予測された画像を表します。 2 番目のコントラスト損失 (自己コントラスト損失とも呼ばれます) は、次の式に従って計算されます。

自己コントラスト損失を最適化することで、閉塞部分の再構成が可能になります。または のいずれの場合も、負のサンプルは同じインスタンスのバッチから取得されます。および は次のように一緒に最適化されます。ここで、ハイパーパラメータおよび は各損失項の重みを調整するために使用されます。

フェーズ2: クロスモーダルコーチングを使用して適応する

fMRI 記録の信号対雑音比が低く、畳み込みが激しい性質を考えると、fMRI 特徴学習者は、視覚処理に最も関連し、再構築に最も有益な脳活性化パターンに焦点を当てることが重要です。

事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援により調整され、fMRI 再構成が達成され、第 2 段階では同じプロセスが繰り返されました。具体的には、n 個のサンプルのバッチからサンプルとそれに対応する fMRI 記録された神経反応が選択されます。ブロッキングとランダムマスキングの後、およびはそれぞれおよびに変換され、次にそれぞれ画像エンコーダーとfMRIエンコーダーに入力されて、およびが生成されます。 fMRIを再構築するために、クロスアテンションモジュールを使用し統合します

W と b はそれぞれ対応する線形層の重みとバイアスを表します。はスケーリング係数であり、キーベクトルの次元です。 CA は、cross-attention の略です。追加した後、再構成のためにfMRIデコーダーに入力され、次のようになります

同様の計算が画像オートエンコーダでも実行されます。画像エンコーダの出力は、クロスアテンションモジュールを介して の出力と結合され、画像のデコードに使用されます。その結果は次のようになります

fMRI と画像オートエンコーダは、次の損失関数を最適化することによって共同でトレーニングされます。

潜在拡散モデル (LDM) を使用して画像を生成する

FRL の第 1 段階と第 2 段階のトレーニングを完了した後、fMRI 特徴学習器のエンコーダーを使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順方向拡散プロセスと逆方向ノイズ除去プロセスが含まれます。フォワードプロセスでは、変動する分散を持つガウスノイズを徐々に導入することで、画像を徐々に通常のガウスノイズに劣化させます。

この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚知識を抽出し、fMRI データを条件として使用して画像を生成します。ここでは、安定拡散研究の提案に従って、fMRI 情報を LDM に組み込むためにクロスアテンションメカニズムが採用されています。条件情報の役割を強化するために、ここではクロスアテンションとタイムステップコンディショニング法が採用されています。トレーニングフェーズでは、 FRLの第1ステージと第2ステージでトレーニングされたVQGANエンコーダーとfMRIエンコーダーを使用して画像uとfMRI vを処理し、LDMを変更せずにfMRIエンコーダーを微調整します。損失関数は次のとおりです。

ここで、拡散モデルのノイズ スキームです。推論フェーズでは、プロセスは時間ステップ T の標準ガウスノイズから開始され、LDM は逆のプロセスを順次実行して、与えられた fMRI 情報に基づいて、隠れた表現のノイズを徐々に除去します。時間ステップ 0 に達すると、潜在表現は VQGAN デコーダーを使用して画像に変換されます。

実験

再建の結果

DC-LDM、IC-GAN、SS-AEなどの先行研究と比較し、GODおよびBOLD5000データセットで評価したところ、本研究で提案されたモデルは精度の点でこれらのモデルを大幅に上回り、DC-LDMおよびIC-GANと比較してそれぞれ39.34%および66.7%の改善が見られました。

GOD データセットの他の 4 つの被験者に対する評価では、DC-LDM がテスト セットで調整を許可された場合でも、提案モデルは 50 モダリティのトップ 1 分類精度で DC-LDM を大幅に上回り、さまざまな被験者の脳活動を再構築する際の提案モデルの信頼性と優位性が実証されました。

実験結果によると、提案された fMRI 表現学習フレームワークと事前トレーニング済みの LDM を使用すると、脳の視覚活動をより適切に再構築でき、現在のベースラインを大幅に上回ることができます。この研究は、ニューラルデコードモデルの可能性をさらに探求するのに役立ちます。

<<:  CMU が Gemini、GPT-3、Mistral8×7B を権威ある方法で比較します。 GPT-3.5は依然としてGeminiに勝っているが、オープンソースモデル間のギャップは依然として大きい

>>: 

ブログ    
ブログ    

推薦する

...

軽量ディープラーニングフレームワーク Tinygrad

Tinygrad は、ニューラル ネットワークを理解して実装するためのシンプルで直感的なアプローチ...

...

AI + コンサルティング: データ サイエンティストはコンサルタントになるか?

AIはコンサルティング業界に新たな春をもたらすでしょうか?大手コンサルティング会社の AI 開発部...

責任ある AI 導入: IT 共生の青写真

AI ツールが合法化され、職場に導入されるようになると、人々は当然、その使用例や AI ツールに依存...

ウォルマートのAIを活用したイノベーションの実践経験

ウォルマートの創業者サム・ウォルトンはよく「私たちの人材が違いを生み出す」と言っていましたが、この言...

ストレージ自動化、予測分析、人工知能について知っておくべき6つのこと

現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...

...

顔認識は使いやすいが、情報セキュリティは高価

生体認証の一種である顔は固有のものであり、ひとたび情報漏洩が発生するとリスクが非常に高くなります。顔...

...

スマートネットワークとスマート製造を備えた新エネルギーインテリジェントコネクテッドビークルがデジタル変革への道を開く

重慶には「マスター、急いでいます!」というスピードがあります。シートベルトを締めると、地面に近いとこ...

1080ti だけで、リモートセンシング画像内のピクセルレベルでターゲットを見つけることができます。コードデータセットがオープンソース化されました!

長すぎて読めないこの論文では、新しいタスクである方向リモートセンシング画像セグメンテーション (RR...

AIエンジニアリングのためのJavaScriptツールトップ5

多くの人が驚くことに、Web 開発の分野で常に人気がある JavaScript は、大規模言語モデル...

TensorFlow で RNN 実装を開く正しい方法

[[198810]]この記事の主な内容は、TensorFlow で RNN のいくつかの構造を実装す...

Go-OpenAI を使用して ChatGPT を簡単に呼び出し、無限の創造性を解き放ちましょう。

今日は、go-openai を使用して chatGPT を呼び出すという興味深いトピックを皆さんと共...