オートメーション研究所の拡散モデル「Brain Reading」、MindDiffuserは人間の脳の視覚イメージを鮮明に再現します

脳信号から対応する視覚刺激を再構築することは、意義深く困難な作業です。これまでの研究では、一部の自然画像の輪郭やサイズなど、元の画像構造に近い再構築結果を得ることに成功していますが、明確な意味情報が欠如しており、区別が困難です。

近年、大規模なマルチモーダル事前学習済みモデルと、より強力な生成能力を持つ AI の助けを借りて、多くの研究で意味的には元の画像に非常に近い再構成画像が得られていますが、これらの画像は位置や方向などの構造情報の点で制御できません。

上記の2つの問題を同時に解決するために、中国科学院自動化研究所のLu Yizhuo、Du Changdeらは、Stable DiffusionとCLIPの助けを借りて、拡散モデルに基づく2段階画像再構成モデルMindDiffuserを提案しました。関連論文は、国際マルチメディア会議ACM MM 2023に採択されました。結果は、本論文で提案されたモデルの再構築結果が現在の最適モデルを上回っていることを示しています。視覚化の結果は、この記事のモデル設計の神経生物学的解釈可能性も示しています。

論文アドレス: https://arxiv.org/pdf/2308.04249.pdf
コードアドレス: https://github.com/ReedOnePeck/MindDiffuser

1行目は元の画像、2行目は脳のfMRI信号から再構成された画像です。

背景

人間の視覚神経系は、現実世界の複雑な視覚刺激を効率的に認識し、理解することができます。この優れた能力は、現在の人工知能システムには匹敵するものがありません。神経符号化および復号化モデルを通じてさまざまな脳領域の機能を研究することで、人間の視覚知覚システムをより深く理解することができます。

視覚神経エンコーディングは、外部視覚刺激を神経活動信号に適合させるプロセスを指し、視覚神経デコーディングは、神経信号から対応する視覚刺激へのマッピングを見つけることです。デコーディングの難易度と目的に応じて、刺激分類、刺激認識、刺激再構築に分けられます。刺激の分類では、脳の活動を利用して、提示された刺激の個別のオブジェクトカテゴリを予測します。刺激認識の目的は、既知の刺激画像のセットから、特定の脳活動パターンに対応する特定の刺激を識別することです。刺激再構成は、与えられた fMRI 信号から直接画像を生成することであり、その形状、位置、方向などの詳細が対応する刺激画像と一致することが必要です。この研究は刺激再構成の調査に焦点を当てました。

著者らは、画像再構成の分野における既存の研究を詳細に調査した後、現在の画像再構成パラダイムを、モデル構造に基づいて生成モデルと最適化モデルの 2 種類にまとめました。

トレーニング段階では、生成モデルは刺激画像と対応するテキストの説明から特徴を抽出し、対応する脳の反応を使用してこれらの特徴を適合させます。テスト段階では、脳の反応を使用して対応する特徴を予測し、それをトレーニング済みの生成モデルに入力して、対応する画像刺激を再構築します。

最適化モデルは、トレーニング段階で刺激画像の階層的特徴を抽出し、対応する脳の反応に適合させます。テスト段階では、生成モデルの潜在空間が最初にランダムに初期化され、ランダムに生成された初期画像の階層的特徴が抽出されます。次に、脳の反応によって予測された対応する階層的特徴が制約として使用され、バックプロパゲーションを通じて潜在空間が最適化され、最終的に収束した再構成画像が得られます。

現在、両方の再構築パラダイムにはいくつかの問題があります。本研究では、上記の問題を解決するための新しいフレームワークを提案します。

制御可能な画像再構成モデル——MindDiffuser

図(a)に示すように、まず画像のCLIP視覚特徴、VQVAE特徴、および対応するテキスト記述特徴を抽出し、対応する脳信号を使用してこれら3つの特徴を適合させます。次に、画像再構成タスクは 2 つの段階を経て実行されます。以下では、この2つの段階について詳しく紹介します。

第一段階では、まず脳信号からVQVAE特徴をデコードし、順方向拡散プロセスを通じて画像情報を拡散モデルの潜在空間に暗黙的に注入します。次に、脳信号からデコードされたCLIPテキスト特徴を逆ノイズ除去プロセスのクロスアテンションメカニズムを通じて導入し、再構成された画像の意味情報融合を完了します。

第 2 段階では、再構成された画像の構造情報をさらに整合させるために、研究者は CLIP 画像の特徴を制約として使用し、逆伝播勾配を通じて拡散モデルの潜在空間を継続的に調整して、元の画像と意味的および構造的に整合された再構成結果を取得しました。

実験結果

著者らは、現在利用可能な最大の神経画像データセットである NSD で詳細な実験を実施しました。4 つの評価指標の結果、提案された MindDiffuser によって再構成された画像は、元の画像との意味的類似性と構造的類似性の両方において、現在の sota モデルを上回っていることが示されました。

異なる個人の脳は解剖学的構造と機能的結合性に違いがあるため[61]、異なる被験者に同じ画像刺激を見せても、収集されるfMRI信号は異なります。本論文で提案された画像再構成モデルが異なる被験者間の違いに適応できることを確認するために、研究チームは被験者1、2、5、7のテストセット画像を他の追加調整なしで再構成しました。結果を下の図に示します。

図4-13からわかるように、同じ刺激画像でも、被験者ごとにfMRI信号を収集する際の主観的な脳反応の違いや特徴デコード段階の精度の違いにより、一部の画像の再構成結果が満足のいくものではありません。たとえば、被験者7は「テーブルの上の花」を「テーブルと椅子」と誤って再構成し、被験者5は「夕暮れの飛行機」を再構成できませんでした。しかし、研究者が選択した各被写体について、再構成された画像のほとんどは意味と構造の点で元の画像と良好な一致を示しており、研究者が提案した画像再構成モデルは異なる被写体間の違いにうまく適応できることを示しています。

本論文では、特徴デコード段階で、L2 正規化線形回帰モデルを使用して、意味的特徴 c、詳細特徴 z、構造的特徴 zCLIP の 3 つの特徴に適合するボクセルを自動的に選択します。神経科学における提案モデルの解釈可能性を検証するために、本論文では、展開された大脳皮質にさまざまな特徴を予測する際の各 fMRI ボクセルの重みを投影します。

図(a)からわかるように、意味特徴cをデコードする場合、スクリーニングされたボクセルの大部分は、IPS、LO、MT、MST、PHC、VOなどの高レベルの意味を処理する脳領域に集中しています。さらに、高レベルの視覚皮質領域に分布するボクセルの重みは、低レベルの視覚皮質領域のボクセルの重みよりも大きくなっています。図（b）からわかるように、画像構造特徴の再構築を監督するために使用されるCLIPの基礎となる線形層特徴は、主に局所的な形状とテクスチャ情報を処理するV1、V2、V3、V3ab、hV4などの低レベルの脳領域によって適合されます。これは、研究チームのモデルの神経デコード段階では、意味的特徴は主に高レベルの脳領域によって説明され、構造的特徴は主に低レベルの脳領域によって説明されることを示唆しています。この発見は、神経科学におけるこれまでの研究結果と一致しています。図 (c) からわかるように、高次視覚皮質と低次視覚皮質の両方の領域のボクセルが詳細特徴 z のデコードに関与しており、それらの重みは同程度です。つまり、z をデコードすることにより、クロスアテンションメカニズムは再構成された画像に、よりきめ細かい意味的および構造的情報を組み込みます。上記の視覚化結果は、MindDiffuser が画像を再構築する際に使用するマルチモーダル情報が適切に説明できることを示しています。

要約すると、本論文では、再構成された画像の意味情報と構造情報を画像刺激と一致させる 2 段階の画像再構成モデル MindDiffuser を提案します。 NSD データセットでは、MindDiffuser は定性的および定量的比較結果の両方で現在の sota モデルよりも優れています。同時に、実験では、MindDiffuser が個人差に対して優れた適応性を持ち、追加の調整なしで被験者 1、2、5、7 の刺激に対して優れた再構築結果を達成できることが示されています。さらに、視覚化の結果は、モデルで使用されるマルチモーダル情報が神経科学における対応する脳の反応によって説明できることも証明しており、モデル設計の合理性と解釈可能性を検証しています。研究チームは、MindDiffuser が脳コンピューターインターフェースの正確で制御可能な刺激再構築を促進する上で重要な役割を果たすと考えています。

この論文は、中国科学院自動化研究所の直接博士課程学生（まだ登録されていない）の Lu Yizhuo 氏と准研究員 Du Changde 氏の共著者であり、研究員 He Huiguang 氏が責任著者、Zhou Qiongyi 博士が共著者です。この研究は、中国科学技術部の「科学技術イノベーション2030 - 新世代人工知能」主要プロジェクト、中国国家自然科学基金プロジェクト、CAAI - Huawei MindSpore Academic Award FundおよびIntelligent Baseプロジェクトによって支援されました。

著者について

第一著者

Lu Yizhuo さんは、中国科学院自動化研究所の 2022 年度人工知能エリートクラスの選考に合格し、2023 年に博士課程に直接入学することが決定しました。大学 4 年生のときに、He Huiguang 研究員が率いる Neuroimaging Computing and Analysis Group (NICA) でインターンシップを行い、ACMMM2023 で論文を発表しました。彼は費振勇奨学金、サムスン奨学金、北京理工大学優秀学生、北京理工大学優秀卒業生、北京優秀卒業生を受賞しています。

共同筆頭著者

中国科学院自動化研究所の准研究員である杜昌徳氏は、脳認知と人工知能の研究に従事しており、TPAMI/iScience/AAAI/KDD/ACMMMなど、視覚神経情報の符号化と復号化、マルチモーダルニューラルコンピューティングなどの分野で40本以上の論文を発表しています。彼は、2019 IEEE ICME 最優秀論文賞準優勝者と 2021 年中国 AI 新星トップ 100 を受賞しました。彼は中国科学技術部、中国国家自然科学基金、中国科学院から数々の科学研究の任務を引き受けており、その研究成果はMITテクノロジーレビューの見出しで報道された。個人ホームページ: https://changdedu.github.io/

連絡先著者

何慧光氏は、中国科学院自動化研究所の研究員、博士課程の指導者、中国科学院大学の終身教授、上海理工大学の著名な教授、中国科学院青年促進協会の優秀会員、中華人民共和国建国70周年記念メダルの受賞者です。国家自然科学基金プロジェクト（重点プロジェクト、国際協力プロジェクトを含む）7件、2,863件のプロジェクト、国家重点研究計画プロジェクトを相次いで遂行しました。彼は、国家科学技術進歩賞で2回2等賞（それぞれ2位と3位）、北京科学技術進歩賞を2回、教育部科学技術進歩賞で1等賞、中国科学院第1回優秀博士論文賞、北京科学技術新星、中国科学院「陸家熙若手人材賞」、福建省「岷江学者」教授長を受賞しています。研究分野には、人工知能、脳コンピューターインターフェース、医療画像解析などが含まれます。過去 5 年間で、IEEE TPAMI/TNNLS や ICML などのジャーナルや会議で 80 本以上の論文を発表しています。彼は、IEEEE TCDS、Acta Automatica Sinica などのジャーナルの編集委員であり、CCF の優秀会員であり、CSIG の優秀会員でもあります。

<<:

>>: Reverse Midjourneyがオンラインになりました！デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る