視覚的な「脳の読み取り」：脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活動を引き起こします。認知神経科学の分野では、脳活動から視覚情報を解読することが重要な課題となっています。機能的磁気共鳴画像法（fMRI）は、効率的で非侵襲的な技術として、画像カテゴリなどの視覚情報を回復および分析する上で重要な役割を果たします。

しかし、このタスクは、fMRI 信号のノイズの性質と脳の視覚表現の複雑さのために、かなりの課題に直面しています。この問題に対処するため、本論文では、脳活動のノイズを識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置き、脳活動から高解像度で意味的に正確な画像を再構成することを目的とした 2 段階の fMRI 表現学習フレームワークを提案します。

論文リンク: https://arxiv.org/abs/2305.17214

プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/

論文で提案された方法は、二重コントラスト学習、クロスモーダル情報交差、拡散モデルに基づいています。関連する fMRI データセットにおける以前の最良モデルと比較して、評価指標が 40% 近く向上しました。生成された画像の品質、可読性、意味的関連性は、既存の方法と比較して著しく向上しました。この研究は、人間の脳の視覚知覚メカニズムを理解するのに役立ち、視覚脳コンピューターインターフェース技術の研究を促進するのに役立ちます。関連するコードはオープンソース化されています。

機能的磁気共鳴画像法（fMRI）は神経反応の分析に広く使用されていますが、そのデータから視覚画像を正確に再構築することは依然として困難です。主な理由は、fMRI データには複数のソースからのノイズが含まれており、神経活性化パターンが隠され、解読が困難になる可能性があるためです。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑で多段階であるため、fMRI 信号は複雑な非線形重ね合わせとなり、逆転や解読が困難になります。

リッジ回帰などの従来の神経デコード方法は、fMRI 信号を対応する刺激に関連付けるために使用されますが、刺激と神経反応の間の非線形関係を効果的に捉えられないことがよくあります。最近では、生成的敵対ネットワーク (GAN) や潜在的拡散モデル (LDM) などの深層学習技術が採用され、この複雑な関係をより正確にモデル化しています。しかし、視覚に関連する脳活動をノイズから分離し、正確に解読することは、この分野における主要な課題の 1 つとして残っています。

これらの課題に対処するために、本研究では、脳活動のノイズを効果的に識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置くことができる 2 段階の fMRI 表現学習フレームワークを提案します。この方法は、50 のカテゴリで高解像度かつ意味的に正確な画像を生成する際に、最先端の方法よりも 39.34% 高いトップ 1 精度を達成します。

方法の概要

fMRI表現学習（FRL）

ステージ 1: 事前トレーニングデュアルコントラストマスクオートエンコーダ (DC-MAE)

本論文では、異なる集団における共通の脳活動パターンと個々のノイズを区別するために、ラベルなしデータを使用して fMRI 表現を事前トレーニングする DC-MAE 技術を紹介します。 DC-MAE はエンコーダーとデコーダーで構成され、マスクされた fMRI 信号を入力として受け取り、マスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「二重コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラストプロセスに参加することを意味します。

対照学習の最初の段階では、n 個の fMRI サンプル v を含むバッチ内の各サンプルがランダムに 2 回マスクされ、2 つの異なるマスクバージョンと対照用の正のサンプルペアが生成されます。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、fMRI エンコーダーに個別に入力されます。デコーダーはこれらのエンコードされた潜在表現を受け取り、予測を生成します。モデルは、InfoNCE 損失関数によって計算された最初のコントラスト損失、つまりクロスコントラスト損失を使用して最適化されます。

対照学習の第 2 段階では、マスクされていない元の画像とそれに対応するマスクされた画像が、自然な正のサンプルのペアを形成します。ここではデコーダーによって予測された画像を表します。 2 番目のコントラスト損失 (自己コントラスト損失とも呼ばれます) は、次の式に従って計算されます。

自己コントラスト損失を最適化することで、閉塞部分の再構成が可能になります。またはのいずれの場合も、負のサンプルは同じインスタンスのバッチから取得されます。およびは次のように一緒に最適化されます。ここで、ハイパーパラメータおよびは各損失項の重みを調整するために使用されます。

フェーズ2: クロスモーダルコーチングを使用して適応する

fMRI 記録の信号対雑音比が低く、畳み込みが激しい性質を考えると、fMRI 特徴学習者は、視覚処理に最も関連し、再構築に最も有益な脳活性化パターンに焦点を当てることが重要です。

事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援により調整され、fMRI 再構成が達成され、第 2 段階では同じプロセスが繰り返されました。具体的には、n 個のサンプルのバッチからサンプルとそれに対応する fMRI 記録された神経反応が選択されます。ブロッキングとランダムマスキングの後、およびはそれぞれおよびに変換され、次にそれぞれ画像エンコーダーとfMRIエンコーダーに入力されて、およびが生成されます。 fMRIを再構築するために、クロスアテンションモジュールを使用して統合します。

W と b はそれぞれ対応する線形層の重みとバイアスを表します。はスケーリング係数であり、キーベクトルの次元です。 CA は、cross-attention の略です。追加した後、再構成のためにfMRIデコーダーに入力され、次のようになります。

同様の計算が画像オートエンコーダでも実行されます。画像エンコーダの出力は、クロスアテンションモジュールを介しての出力と結合され、画像のデコードに使用されます。その結果は次のようになります。

fMRI と画像オートエンコーダは、次の損失関数を最適化することによって共同でトレーニングされます。

潜在拡散モデル (LDM) を使用して画像を生成する

FRL の第 1 段階と第 2 段階のトレーニングを完了した後、fMRI 特徴学習器のエンコーダーを使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順方向拡散プロセスと逆方向ノイズ除去プロセスが含まれます。フォワードプロセスでは、変動する分散を持つガウスノイズを徐々に導入することで、画像を徐々に通常のガウスノイズに劣化させます。

この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚知識を抽出し、fMRI データを条件として使用して画像を生成します。ここでは、安定拡散研究の提案に従って、fMRI 情報を LDM に組み込むためにクロスアテンションメカニズムが採用されています。条件情報の役割を強化するために、ここではクロスアテンションとタイムステップコンディショニング法が採用されています。トレーニングフェーズでは、 FRLの第1ステージと第2ステージでトレーニングされたVQGANエンコーダーとfMRIエンコーダーを使用して画像uとfMRI vを処理し、LDMを変更せずにfMRIエンコーダーを微調整します。損失関数は次のとおりです。

ここで、拡散モデルのノイズスキームです。推論フェーズでは、プロセスは時間ステップ T の標準ガウスノイズから開始され、LDM は逆のプロセスを順次実行して、与えられた fMRI 情報に基づいて、隠れた表現のノイズを徐々に除去します。時間ステップ 0 に達すると、潜在表現は VQGAN デコーダーを使用して画像に変換されます。

実験

再建の結果

DC-LDM、IC-GAN、SS-AEなどの先行研究と比較し、GODおよびBOLD5000データセットで評価したところ、本研究で提案されたモデルは精度の点でこれらのモデルを大幅に上回り、DC-LDMおよびIC-GANと比較してそれぞれ39.34%および66.7%の改善が見られました。

GOD データセットの他の 4 つの被験者に対する評価では、DC-LDM がテストセットで調整を許可された場合でも、提案モデルは 50 モダリティのトップ 1 分類精度で DC-LDM を大幅に上回り、さまざまな被験者の脳活動を再構築する際の提案モデルの信頼性と優位性が実証されました。

実験結果によると、提案された fMRI 表現学習フレームワークと事前トレーニング済みの LDM を使用すると、脳の視覚活動をより適切に再構築でき、現在のベースラインを大幅に上回ることができます。この研究は、ニューラルデコードモデルの可能性をさらに探求するのに役立ちます。

<<: CMU が Gemini、GPT-3、Mistral8×7B を権威ある方法で比較します。 GPT-3.5は依然としてGeminiに勝っているが、オープンソースモデル間のギャップは依然として大きい

>>:

「トランスフォーマーチャレンジャー」マンバはMacBookでも動く！ GitHub は半日で 500 以上のスターを獲得しました

視覚的な「脳の読み取り」：脳の活動から見える世界を再構築する

方法の概要

実験

「トランスフォーマーチャレンジャー」マンバはMacBookでも動く！ GitHub は半日で 500 以上のスターを獲得しました

102歳の統計学の伝説、CRラオ氏が死去。彼の人生は「統計の世紀」を経験した

モノのインターネットの可能性を最大限に引き出す方法

米国のパイロットがエイリアンの存在を確認！米国は10年間UFOのリバースエンジニアリングを行っており、マスク氏はそれを否定していない

AI は鉱業をどのように改善できるのでしょうか?

ジェネレーティブ AI が画像検索をどのように再定義するか

人間を脅かしていると疑われますか? OpenAI の謎の Q* プロジェクトに関する詳細情報が明らかになり、マスク氏とルカン氏が議論を交わしている...

推薦する

ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

クアルコム：米国は自動運転技術の標準化で中国に遅れをとる可能性

世界動物の日: 動物保護と機械学習が出会うとき

自動運転車は歩行者に意図を伝えることができるか？

人工知能技術がハリウッドスターを「若返らせる」

ガートナーの予測: データレイクの90%は役に立たなくなる

百度脳産業イノベーションフォーラムが深圳に移転、今回はAIを活用して不動産イノベーションを支援

構造化データのためのテキスト生成技術の研究

GPT-4より18倍高速、世界最速の大型モデルGroqが登場！毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

機械学習と AI のトレンド: 何が期待できるか?

人類は1世紀にわたってロボットの形を誤解してきた