機械学習の時代に神経科学者はいかにして人間の思考を読み取り解読できるか

機械学習の時代に神経科学者はいかにして人間の思考を読み取り解読できるか

[[408373]]

この記事では主に機械学習 (ML) と機能的磁気共鳴画像法 (fMRI) の応用について説明します。 fMRIは主に、人がさまざまな脳神経活動(運動、言語、記憶、認知、感情、聴覚、視覚、触覚など)を行っているときに大脳皮質の磁気共鳴信号の変化を検出するために使用されます。人間の大脳皮質の中心機能領域への配置と組み合わせることで、人間の脳の思考の軌跡を研究し、人間の脳の謎を解明することができます。基本的な原理は、MRI を使用して神経活動によって引き起こされる血液動態の変化を測定することです。したがって、理論的には、ML を使用して fMRI 画像を接続して、人間の脳が何を観察し、何を考えているのかを理解することが可能になります。この記事で説明した問題を例にとると、神経科学者はデータ サイエンティストのように計算モデルを実行することで、神経機能と認知行動を予測し、正確に結び付けることができるようになりました。しかし、これらの技術は人工知能モデルと同じバイアスと限界を共有しており、厳密な科学的手法を適用する必要があります[1]。

神経科学者は20世紀初頭に脳血流の大きな変化に気づいていたものの、その変化を測定する適切な方法は見つかっていませんでした。 1980 年代に、陽電子放出断層撮影 (PET) という効果的な方法が登場しました。この技術により、研究者は放射線追跡と光子(フォント)放出の検出を通じて神経活動の変化を観察することができました。これらの光子はニューロンが最も多くのグルコースを消費する場所で最も分解されるため、ニューロンの活動を示すことができます。しかし、このアプローチの初期の試みは問題に直面しました。それは、各人の脳の大きさと構造が異なり、大きな違いと変動があるということです。さらに、PET スキャンの空間的および時間的な画像解像度は非常に低いです。少なくとも 1 ミリメートルの幅の領域を検査し、画像を形成するのに十分なデータを収集するのに 10 秒かかります。したがって、この技術の初期の適用範囲は非常に限られています。

磁気共鳴画像法(MRI)は、原子核の振動に基づいて、より正確な脳の画像を構築することができます。 MRI スキャナーはさまざまな速度で多くの場所に信号を送信するため、さまざまな周波数帯域をデコードして画像を作成できます。しかし、MRI 撮影には造影剤を使用する必要があり、被験者の健康に危険を及ぼす可能性があります。幸いなことに、MRI 信号が脳内を循環する酸素の量に敏感であることに気づいた後、多くの研究グループが 1990 年代に脳の活動を検出するための機能的磁気共鳴画像法 (fMRI) の概念を考案しました。

神経科学者の伝統的なアプローチは、最も活発なシグナル伝達領域を見つけることによって、統計的に選択的な領域を推測することです。現代の研究の目標は、選択された領域における共通の活動パターンを推測することです。研究者たちは、統計的に言えば、ニューラルネットワークは特定の 1 つのオブジェクトに反応するのではなく、むしろさまざまな割合で多くのオブジェクトに反応することを発見しました。これは統計的な相関関係です。さらに、現代の神経科学者のもう一つの研究目標は、計算モデルをトレーニングすることで、より大きなデータセットから人間が知覚する物体を予測することです。機械学習と統計学習に基づくこの方法は、ニューラル モデルの相互検証に基づいて人々の思考方法を予測することを目的としています。

しかし、ある程度の成功があったにもかかわらず、統計に基づくこれらの科学的推論を慎重に分析し、議論する必要がある。 fMRI 分析では、ボクセルと呼ばれる数十万個の小さな四角形を測定します。ランダムな変動によるものではない、脳の特定の部分からの意味のある反応を見つけるには、統計的検定を実行する必要があります。したがって、研究者が実験の 1 つで有意な反応を発見したが、これらの実験が何度も繰り返されると、この反応シグナルが一般データでは目立たなくなる場合など、真陽性と偽陽性のリスクを比較検討する必要があります。したがって、結果を確実にするためには、実験を何百回、あるいは何千回も繰り返す必要があります。 fMRI 統計を使用する際のもう 1 つの問題は、いわゆる「非独立性」統計エラーです。研究者は、自分の研究に最も適したデータと結果を選択する傾向があります。たとえば、すべての統計テストで最も強い相関関係を示すボクセルに焦点を当てると、相対的に実験結果が大幅に改善される可能性があります。

この記事では、上記のトピックに焦点を当て、最近の 3 つの研究論文に基づいて、統計における ML に基づく fMRI 分析方法を検討します。

1. ディープラーニングによる人間の脳のタスク状態の解読とマッピング

この記事は、USTCと北京大学の研究者によって2020年にHuman brain mappingに掲載された記事です[2]。この論文では、人間の脳の機能的磁気共鳴画像 (fMRI) に基づいて特定のタスク状態をデコードする際のサポートベクターマシン (SVM) に基づく多変量パターン解析 (MVPA) の応用に焦点を当てています。著者らは、手動で特徴を抽出せずに、脳の fMRI 信号から直接複数の脳タスク状態をデコードするためのディープ ニューラル ネットワーク (DNN) を提案しています。

機能的脳画像データから人間の脳の機能を解読して識別する問題に関して、SVM-MVPA は最も広く使用されている方法の 1 つです。 SVM-MVPA は、複数の変数からの情報を同時に考慮する教師あり学習手法です。ただし、SVM-MVPA は高次元データではパフォーマンスが低下し、専門家による特徴の選択/抽出の結果に依存することがよくあります。そのため、著者らは本研究で、人間の全脳神経画像データを使用してオープンソースの脳デコーダーを調査しました。同様に、非線形活性化関数を備えた DNN の階層構造により、従来の機械学習手法よりも複雑な出力関数を学習でき、エンドツーエンドでトレーニングできます。したがって、本論文では、タスク関連の 4D fMRI 信号を読み取ることで、個人の脳のタスク状態を効果的にデコードしてマッピングする DNN 分類器を提案します。

1.1 方法の紹介

1.1.1 データの紹介

この研究では、多数の若い健康な成人の画像および行動データを含むHCP S1200の最小限の前処理された3Tデータバージョンを使用しました[3]。著者らは、感情、ギャンブル、言語、動作、人間関係、社会性、作業記憶(WM)の 7 つのタスクを実行した 1,034 人の HCP 被験者のデータを使用しました。 HCP ボリュームベースの前処理済み fMRI データが実験分析に使用され、これらのデータはモントリオール神経研究所 (MNI) の 152 スペースに正規化されていました。 7 つのタスクのほとんどは、制御条件 (例: WM タスクの 0 リターンと感情タスクの形状刺激) とタスク条件 (例: WM タスクの 2 リターンと感情タスクの恐怖刺激) で構成されていました。各タスクでは、次のステップとして 1 つの条件のみが選択されます。条件が 2 つだけのタスク (感情、言語、ギャンブル、社会、関係のタスク) の場合、タスクの関連性が最も高い条件が他の条件よりも優先されました。 WMタスクと運動タスクには複数のタスク条件が含まれており、著者らはリストからランダムに選択した(WMの場合は背中2つ、運動の場合は右手)(表1)。

各タスクの入力サンプルは、血行動態反応関数 (HRF) の後信号を含む、ブロック全体とブロック後の 8 秒間をカバーする連続 BOLD (血中酸素レベル依存イメージング) シーケンスです。さらに、各 BOLD ボリュームは、脳に属さない領域を除外するために 91×109×91 から 75×93×81 に切り取られました。したがって、入力データのサイズは 27×75×93×81 から 50×75×93×81 (時間 × x × y × z、TR = 0.72 秒) に増加します。すべてのタスクと被験者にわたって合計 34,938 個の fMRI 4D データ項目が取得されました。

表1. 各タスクで選択されたBOLD時系列の詳細

1.1.2 モデルの紹介

図 1 は、本論文で提案されたネットワーク モデルの完全なフローチャートです。ネットワークは 5 つの畳み込み層と 2 つの完全接続層で構成されています。このうち、27×75×93×81のデータは、セクション1.1.1の前処理およびデータ拡張手順を通じて生成されます。最初の層では、1×1×1 畳み込みフィルターを使用します。これは、畳み込みニューラル ネットワーク (CNN) の構造で最も一般的な設定です。これらのフィルターは、畳み込み層の受容野を変更せずに非線形性を高めることができます。これらのフィルターは、fMRI ボリューム内の各ボクセルの時間記述子を生成することができ、その重みはトレーニング中に DNN によって学習されます。したがって、このタイプのフィルターを適用すると、データの時間ディメンションは 27 から 3 に削減されます。その後、畳み込み層と 4 つの残差ブロックを積み重ねて、高レベルの特徴を抽出します。この論文で使用されている残差ブロックは、元の残差ブロックの 2D 畳み込み層を 3D 畳み込み層に置き換えることによって得られます。 4 つの残差ブロックの出力チャネルは、それぞれ 2 の倍数 (32、64、64、128) です。レイヤーは、GPU メモリの消費量のバランスをとるためにサイズをすばやく縮小できるように設計されています。ネットワークの視覚化分析を容易にするために、著者は一般的な CNN のプーリング操作の代わりに、最後の畳み込み層で完全な畳み込みを使用しました。畳み込み層を積み重ねた後、2 つの完全接続層が使用されます。最初の層には 64 個のチャネルがあり、2 番目の層は 7 方向の分類 (クラスごとに 1 つ) を実行します。この論文のモデルでは、各畳み込み層の後にReLU関数とBN層が導入され、最後の完全結合層でソフトマックス関数が使用されています。

図 1. ディープ ニューラル ネットワーク。

ネットワークは 5 つの畳み込み層と 2 つの完全接続層で構成されています。このモデルはfMRIスキャンを入力として受け取り、ラベル付けされたタスクカテゴリを出力として提供します。

人間の脳のタスク固有のデコードが直面する最大の問題の 1 つは、利用可能なデータが限られていることです。他の同様のアプリケーションでは、データ拡張を使用して、限られたデータに基づいてより多くのデータ サンプルを生成できます。データ拡張の主な目的は、データのバリエーションを増やすことです。これにより、過剰適合を防ぎ、ニューラル ネットワークの不変性を向上させることができます。従来の画像とは対照的に、この実験の入力画像は標準の MNI152 テンプレートに合わせて配置されています。したがって、空間領域でデータ拡張を実行することは冗長です。入力データの異なる持続時間を考慮して、著者らは時間領域でデータ拡張を適用し、この場合のニューラル ネットワークの一般化能力を向上させました。トレーニングフェーズの各エポックでは、各入力データ項目から k 個の連続した TR セグメント (実験では k = 27) がランダムにセグメント化されます (図 2a)。報告された精度の変動を避けるため、検証フェーズとテストフェーズでは、各データの最初の k TR で構成されるセグメントのみが使用されました。

図 2. モデルのトレーニングとネットワークの視覚化のワークフロー。

(a) モデルはラベル付けされた fMRI 時系列から特徴を自動的に学習し、検証損失が最小化されたらトレーニングを停止します。したがって、モデルをトレーニングするときに手動で特徴を抽出する必要はありません。転移学習のワークフローも同様ですが、未トレーニングモデルの代わりにトレーニング済みモデルが使用される点が異なります。各データ項目の分類はネットワーク層に逆伝播され、分類に重要な部分の視覚化が得られます。視覚化されたデータは入力データと同じサイズで、時間次元で縮小され、fsaverage サーフェスにマッピングされます。

1.1.3 転移学習

従来の方法と比較して、ディープラーニング手法、特に CNN の重要な利点は再利用性です。つまり、トレーニング済みの CNN を同様のタスクで直接再利用できます。著者らは、提案モデルの適用可能性を検証するために、訓練された CNN に転移学習戦略を使用しました。転送トレーニングのワークフローは、基本的に初期トレーニングのワークフロー (図 2a) と似ていますが、最初の 4 つのレイヤーがすでにトレーニングされているが、出力レイヤーが未トレーニングのモデルから開始される点が異なります。著者らは、HCP - fMRI グループの TEST-RETEST タスクからの TEST データセット (N = 43) を使用して、2 つの WM タスク サブ状態 (0bk body と 2bk-body) を分類する深層モデルをトレーニングしました。著者らは被験者ごとに 5 分割交差検証を使用し、データの 60% (25 人の被験者から 100 サンプル) をトレーニングに、20% (9 人の被験者から 36 サンプル) を検証に、20% (9 人の被験者から 36 サンプル) をテストに使用しました (合計 172 サンプルで、これは一般的に使用される fMRI 研究データセットとサイズが同等です)。さらなる検証のために、著者らは、左足、左手、右足、舌の動きという 4 つの動作タスクのサブ状態を分類するディープラーニング モデルをトレーニングしました。 5 段階の交差検証が使用され、60% (25 人の被験者から 400 サンプル) がトレーニングに、20% (9 人の被験者から 144 サンプル) が検証に、20% (9 人の被験者から 144 サンプル) がテストに使用されました (合計 688 サンプル)。入力サンプルは、HRF の後信号を含む、ブロック全体とブロック後の 8 秒間をカバーする連続 BOLD シーケンスでした。

小規模なサンプルサイズを使用した fMRI 研究への DNN の適用可能性を評価するために、著者らは HCP TEST でスキャンされた 43 人の被験者のデータで深層分類器をトレーニングしました。 N = 1、2、4、8、17、25、34。精度の違いを避けるため、すべてのテストは HCP TEST-RETEST データセットの被験者 43 人全員の RETEST データに適用されました。ディープラーニングは120エポック後に停止されました。さらに、著者らは実験比較のために従来のサーチライト法と全脳 SVM-MVPA 法を使用しました。

1.1.4 パフォーマンス評価

さまざまな分類タスクにおけるモデルのパフォーマンスを評価するために、著者らはまず一連のパラメータを定義しました。各タスク条件の F1 スコアは、TP、FP、および FN の関数として計算されました: F1 = (2 × TP)/(2 × TP + FP + FN)。このうち、TP は各ラベルの真陽性、FP は偽陽性、FN は偽陰性です。著者らはまた、1対1方式を使用して各ラベルのROC曲線を計算し、パラメータ感度と特異度を次のように表しました:感度 = TP /(TP + FN)、特異度 = TN /(TN + FP)ここで、TNは真陰性であり、残りのラベルのTPの合計に等しくなります。精度は、正しい予測と分類の総数の比率として定義されます: 精度 = (TP + TN) / (TP + FP + TN + FN)。

1.1.5 ネットワーク可視化分析

我々は、広く使用されている深層ネットワーク可視化手法であるガイド付きバックプロパゲーション[4]を使用して、入力fMRI 4D時系列の各クラスとタスク重み付け表現のパターンマップを生成します。標準的なバックプロパゲーションでは、ReLU ユニットへの入力が正の場合、ユニットの偏微分が逆方向にコピーされ、それ以外の場合はゼロに設定されます。ガイド付きバックプロパゲーションでは、ReLU ユニットの入力と偏微分が両方とも正の場合、ユニットの偏微分は逆方向にコピーされます。したがって、ガイド付きバックプロパゲーションは、クラス スコアにプラスの影響を与えるパスを維持し、CNN が検出しなかったデータ機能ではなく、検出したデータ機能を出力します。図 2b に示すように、トレーニングされたネットワークにデータを入力すると、入力データに対して 27×75×93×81 の予測勾配が生成されます。次に、各ボクセルの時間領域における絶対最大値の符号付き値を抽出し、3D タスク パターン マップに組み込み、その最大値に正規化しました。最後に、パターン マップが fsaverage サーフェスにマッピングされます。さらに、テストグループの正規化されたパターンマップのCohenのd効果は、各タスクのパターンマップの平均をそのSDで割って計算されました。

この記事の視覚的な比較分析は、AFNI[5]、Freesurfer[6]、HCP Connectome Workbench、MATLAB(MathWorks、マサチューセッツ州ネイティック)で実行されました。従来の GLM プロットとパターン マップを比較するために、HCP タスクの fMRI 分析パッケージからコントラスト パラメータ推定の Cohen 効果 (COPE) も取得しました。

1.2 実験結果の分析

まず、著者らは一般的な分類タスクにおける深層モデルの実験を完了しました。実験では、著者は NVIDIA GTX 1080Ti ボードを使用して約 30 エポックのトレーニングを行い、約 72 時間かかりました。提案されたモデルは、93.7±1.9% (平均±SD) の精度で 7 つのタスクを区別することに成功しました。 F1 スコアによると、この論文で使用されたモデル/分類器は、感情 (94.0±1.6%)、ギャンブル (83.7±4.6%)、言語 (97.6±1.1%)、動作 (97.3±1.6%)、関係 (89.8±3.2%)、社会的 (96.4±1.0%)、WM (91.9±2.3%、平均±SD) の 7 つのタスクで異なるパフォーマンスを示しました。平均混同マトリックスは、最初の 2 つの混同がそれぞれギャンブルと関係、WM と関係によって引き起こされていることを示しています (図 3a)。図 3b は ROC 曲線を示しており、これによると、運動、言語、社会的タスクの曲線下面積 (AUC) が最も大きく、ギャンブルの曲線下面積が最も小さいことがわかります。重要なハイパーパラメータ、すなわち1×1×1核チャネルの数(NCh1)の選択を検証すると、モデルはNCh1=3、9、27に対してそれぞれ93.2%、91.5%、92.7%の精度値を記録しました(図3c)。 NCh1=1 の場合、モデルは 30 エポック以内に収束しません。

図3. HCP S1200タスクfMRIデータセットにおけるディープラーニング分類結果

次に、各分類に最も貢献したボクセル(一定期間にわたって複数回測定された脳の領域)を特定するために、著者らはガイド付きバックプロパゲーションを使用してパターンマップを生成し、モデルによって学習されたパターンを視覚化しました。図 4 は、タスク COPE の GLM 分析からの Cohen の d 効果サイズのグループ化された統計プロット (図 4a-g) と、DNN パターン プロットの Cohen の d (図 4h-n) を示しています。図に示すように、DNN パターン グラフ上の Cohen の d は、感情、言語、運動、社会的、および WM タスクの GLM COPE 上の d と似ています。例えば、言語条件では、GLMCOPES(図4c)とDNNパターンマップ(図4j)の両方で、両側のブロードマン領域22に大きな効果サイズの異常が観察されました。同様に、運動課題の右手運動条件では、両方のマップ(図4d、k)はブロードマン4領域と両側のブロードマン18領域で同様の効果を示しました。

図4. HCP S1200データセットにおけるHCPグループ平均(左列)とDNNヒートマップ(右列)のCohenのd効果

最後に、転移学習の問題に関して、5回のクロスバリデーションの後、本論文で提案されたDNNは、テストで平均精度89.0±2.0%(図5a)と平均AUC 0.931±0.032(図5b)を達成しました。図5cに示すように、2標本t検定ではDNNの精度はSVM-MVPA全脳(t[8]=9.14、p=.000017、平均±SD=55.6±7.9%)およびSVM-MVPA ROI(t[8]=7.59、p=.000064、平均±SD=69.2±5.4%)よりも有意に高かった。

図5. ワーキングメモリタスク分類の転移学習結果(0bk-bodyと2bk-body)

5回のクロス検証後、本論文で提案されたDNNの平均精度は94.7±1.7%(図6a)、平均AUCはROC 0.996±0.005(図6b)でした。平均混同マトリックスは、最も大きな混同が左足と右足によって引き起こされたことを示しました(図6a)。図6cは、2標本t検定により、DNNの精度(94.7 ± 1.7%)がSVM-MVPA全脳(t[8] = 3.59、p = .0071、平均±SD = 81.6 ± 7.1%)およびSVM-MVPA ROI(t[8] = 8.77、p = .000022、平均±SD = 68.6 ± 5.7%)の精度よりも有意に高かったことを示しています。次に著者らは学習に必要なデータの量を検証した。これら 3 つの方法は、すべての N_Subj において従来の方法よりも高い精度を報告しています。 N_Subj = 8は、DNN(80.3%)が一般的なSVM-MVPA全脳法(41.7%)およびSVM-MVPA ROI(56.3%)よりも精度の点で優れているのに十分でした(図6d)。

図6. 運動タスク(左足、左手、右足、舌)の分類転移学習結果

概要: この論文で提案された方法は、4D fMRI 時系列から直接、人間の進行中の脳機能を分類し、マッピングすることができます。私たちの方法により、特徴選択を必要とせずに、短時間の fMRI スキャンから被験者のタスク状態をデコードできます。この柔軟かつ効率的な脳デコード方法は、神経科学における大規模データと繊細な小規模データの両方に適用できます。さらに、その利便性、正確性、汎用性により、この奥深いフレームワークは、新しい集団や、内部精神状態の分類、精神障害の診断、リアルタイム fMRI ニューロフィードバックなどの幅広い神経画像研究に簡単に適用できます。

2. 深層生成ニューラルネットワークを用いたfMRIパターンからの顔の再構築

この論文はCommunications Biology[7]に掲載された論文です。前の記事で述べたように、機能的磁気共鳴画像法における脳の反応からさまざまなカテゴリーを解読して識別することが可能になりました。しかし、視覚的に類似した入力(異なる顔など)の分類と認識は依然として非常に困難です。この記事では、人間の機能的磁気共鳴画像から人間の顔画像を再構築するためのディープラーニング システムの応用について具体的に説明します。著者らは、生成的敵対的ネットワーク (GAN) を使用した教師なしプロセ​​スを使用して、有名人の顔の大規模なデータベースで変分オートエンコーダ (VAE) ニューラル ネットワークをトレーニングしました。オートエンコーダの潜在空間は、各画像の意味のある、トポロジ的に整理された 1024 次元の記述を提供します。次に、被験者に数千枚の顔画像を見せ、マルチボクセル fMRI 活性化パターンと 1024 の潜在次元間の単純な線形マッピングを学習しました。最後に、このマッピングを新しいテスト画像に適用して fMRI パターンを VAE 潜在コードに変換し、コードを顔として再構築します。

2.1 モデルの紹介

この論文で使用されているVAE-GANモデルを図7(a)に示します。ここでは3つのネットワークが補完的なタスクを完了することを学習します。具体的には、エンコーダー ネットワークは顔画像を潜在表現 (1024 次元) にマッピングし、赤で示します。ジェネレーター ネットワークはそれを新しい顔画像に変換します。識別器ネットワーク(トレーニング フェーズでのみ使用) は、元のデータセットまたはジェネレーターの出力から、指定された各画像に対してバイナリ決定 (つまり、この画像は本物か偽物か) を出力します。トレーニング プロセスは「敵対的」です。なぜなら、識別器とジェネレーターは反対の目的を持ち、交互に更新されるからです。識別器は、どの画像がジェネレーター (偽物) から来たもので、どの画像がデータベース (本物) から来たものではないかを確実に判断できれば、報酬を得られます。ジェネレーターは、識別ネットワークが正しく分類できない画像を生成できる場合に報酬を受け取ります。トレーニング後、識別器ネットワークは破棄され、エンコーダー/ジェネレーター ネットワークが標準の (変分) オートエンコーダーとして使用されます。

ネットワーク内の「顔潜在空間」は、人間の脳内の顔の表現を近似できる多数の顔の特徴の記述を提供します。この潜在空間では、顔と顔の特徴(男性など)は互いの線形結合として表現でき、さまざまな概念(男性、笑顔など)は単純な線形演算で処理できます(図 7b)。著者らは、この深層生成ニューラルネットワーク潜在空間の汎用性は、人間の脳の顔表現と相同性がある可能性があることを示唆しており、fMRI ベースの顔デコードにも理想的な候補方法となると分析しています。このことから著者らは、画像ピクセルの空間(またはPCAなどの処理方法のようにこれらのピクセルの線形結合)を直接学習するのではなく、fMRIパターンの空間とこの潜在空間との間のマッピングを学習することが、脳活動をデコードする際に非常に有用である可能性があると推測している。さらに、著者らは、VAE-GAN モデルは人間の脳のように「顔の多様体」を平坦化することで、顔表現の複雑さの多くを捉えることができると推測している。したがって、著者らは、単純な線形脳デコードアプローチで十分であると主張している。

図 7. ディープ ニューラル ネットワークの潜在空間。 (a) VAE-GANネットワークアーキテクチャ。 (b) 潜在空間特性

著者らはまず、教師なしGANを使用して、ラベル付けされた202,599人の有名人の顔(CelebA[8])のデータベースでVAEディープネットワーク(13層)を15エポックにわたってトレーニングしました。被験者に提示された顔画像はエンコーダーを使用して処理され、1024 次元の潜在コードが生成され、その後 fMRI GLM (一般線形モデル) 分析の設計マトリックスとして使用されました。著者らは fMRI データを処理するために SPM12 を使用しました (https://www.fil.ion.ucl.ac (https://www.fil.ion.ucl.ac/).uk/spm/software/spm12/)。次に、著者らは各データセットに対してスライス時間の補正と再調整を実行しました。その後、各セッションのデータは、2 回目の MRI セッションの T1 スキャン データと共登録されました。しかし、著者らはこれらのデータを正規化または平滑化しませんでした。具体的には、著者らは各実験(固定、トレーニング顔、テスト顔、一人の人物の背中または画像)の開始と継続時間を回帰変数として一般線形モデル(GLM)に入力します。トレーニング顔に使用される 1024 次元潜在ベクトル(VAE-GAN または PCA モデルから)は、パラメーター化された回帰変数としてモデル化され、モーション パラメーターは、不要な信号を除去するための不要な回帰変数として入力されます。さらに、GLM パラメータを推定する前に、設計マトリックス全体を SPM の血行動態応答関数 (HRF) で畳み込みました。

著者らは、単純な脳 fMRI エンコーダー (線形回帰) をトレーニングして、顔画像の 1024 次元潜在表現 (画像を「エンコーダー」に通すか、PCA 変換を使用して取得) を対応する脳反応パターンにリンクさせ、スキャナーで同じ顔を見ている被験者を記録しました。図8(a)はこのプロセスの完全な説明を示しています。各被験者には、VAE-GAN 潜在次元 (または最初の 1,024 個の主成分への画像の投影) を BOLD 信号の 1,024 個のパラメータ化された回帰変数として使用して、平均 8,000 個を超える顔 (1 人あたり 1 つのデモ) が表示されました。これらのパラメータ化された回帰変数は、正または負のいずれかになります (VAE-GAN の潜在変数は、VAE のトレーニング目的に従ってほぼ正規分布するため)。追加のカテゴリ回帰変数(「顔 vs. 固定」のコントラスト)が、定数「バイアス」項としてモデルに追加されました。著者らは、設計行列が「フルランク」であること、つまりすべての回帰変数が線形独立であることを確認しています。著者らは、この特性は VAE-GAN (および PCA) の潜在変数が相関していないことが多いためであると分析しています。したがって、SPM GLM 分析によって実行された線形回帰により、トレーニング顔刺激に対する脳の反応パターンを予測するための最適化された重み行列 W が生成されました。

図 8. VAE-GAN 潜在表現に基づく顔画像の脳デコード。 (a)トレーニングフェーズ: (b) テスト段階

1025次元の顔潜在ベクトルX(バイアス項を含む)と対応する脳活性化ベクトルYの間に線形マッピングWがあると仮定します。

脳デコーダーは、次のように最適なマッピング W を見つけるようにトレーニングされます。

この脳デコーダーを「テスト段階」で使用するために、著者らは図 8b に示すように、単純に線形システムを反転しました。著者らは同じ被験者に、訓練段階では被験者に見せられなかった 20 個の新しいテスト顔を見せた。信号対雑音比を高めるために、各テスト顔は平均 52.8 回表示されました。結果として得られた脳活動パターンは、転置された重み行列 W^T とその逆共分散行列と単純に掛け合わされ、1024 個の潜在的な顔の寸法の推定値が生成されます。次に、予測された潜在ベクトルは、GAN を使用して再構成された顔画像に変換されます (図 7a を参照)。ベースライン PCA モデルの場合、方法のパイプラインは同じですが、顔の再構築は、デコードされた 1024 次元ベクトルの逆 PCA によって得られます。脳デコーダーのテストには、学習した重み W を使用して、新しい脳活性化パターン Y ごとに潜在ベクトル X を取得し、次のようにして X を解くことが含まれます。

著者は、この記事で使用した事前トレーニング済みの VAE-GAN ネットワークと、Python および TensorFlow ソース コードを GitHub で公開しています: https://github.com/rufinv/VAE-GAN-celebA。

2.2 実験結果の分析

この実験では、Amazon Mechanical Turk (AMT) を通じて、VAE-GAN と PCA 顔再構成の画質を比較するための人間による評価結果が得られました。 4 人の被験者の 20 枚のテスト画像にはそれぞれ「オリジナル」というラベルが付けられ、その後に VAE-GAN と PCA ベースの再構成画像が「オプション A」と「オプション B」という単語の下に示されています。実験では、被験者に「修正された 2 つの顔のうち、どちらが元の顔に最も似ているか。A または B を選択してください。」という指示が与えられました。各画像ペアは、少なくとも 10 人の異なる AMT「ワーカー」によって合計 15 回比較され、各応答割り当て (VAE-GAN/PCA のオプション A/B) は少なくとも 5 人のワーカーによって確認されました。したがって、この実験では、2つの顔再構築モデル間で合計1200回(=4×20×15)の比較を実行しました。

著者らはまず、VAE-GAN と PCA を比較し、灰白質ボクセルのサブセットを「関心領域」(ROI) として定義しました。実際、脳の多くの部分は顔の処理や認識とはまったく関係のない計算を実行しています。著者らは、生理学的にストレス誘発性の可能性がある脳領域のみを ROI として選択し、選択基準では 2 つの要素を考慮しました。 (i) ボクセルは顔刺激に反応すると予想され(顔とベースライン条件(空白画面への固定)間のt検定によって決定)、(ii) 1024個の潜在的な顔の特徴が線形モデルへの回帰変数として入力された場合、ボクセルのBOLD応答の説明分散が改善すると予想されました(顔の有無という2値の顔回帰変数のみを持つベースラインモデルと比較して)。選択されたボクセルは図 9 に示されており、後頭部、側頭部、頭頂部、および前頭部の領域が含まれます。著者らは PCA 顔パラメータを別途選択し、これらのパラメータを PCA ベースの「脳デコーダー」に使用しました (選択されたボクセルの平均数: 106,685、範囲: 74,073 ~ 164,524)。両方のモデルの選択領域はほぼ同じでした。

図9. 脳のデコード用に選択されたボクセル。

脳デコーダーのトレーニング段階では、視覚応答性と GLM 適合性の組み合わせに基づいてボクセルが選択されました (図 8a)。カラーコード (赤から黄色) は、各ボクセルが選択された被験者の数 (1~4) を示します。色付きの線は標準的な皮質領域の境界を示しています。

図10(a)は、顔の再構築された画像の例を示しています。 Vae-GanとPCAの両方は、元の顔と同様の画像を再構築できますが、Vae-Ganによって再構築された画像はより現実的で、元の画像に近いものです。著者らは、20のテスト面の脳が推定された潜在的なベクトルを20の実質面の潜在ベクトルと相関させ、正しい分類の割合を測定するためにペアワイズ相関値を使用することにより、脳デコードシステムの性能を定量化しました。特定の結果を図10(b)に示します。実験結果は、人間の脳の活性化からVAE -GAN潜在スペースへの線形マッピングが、PCA空間へのマッピングよりも簡単で効果的であることを示しています。著者らは、これが「深い生成ニューラルネットワークは顔の表現の空間に近い」という仮説と一致していると考えています。さらに、著者は、モデル間の完全な認識結果を比較しました。つまり、再構築された画像の知覚品質を再構築された顔のレベルを測定するインジケーターとして使用します。この実験では、2つのモデルによって再構築された顔の品質を比較する必要がありました。4人の被験者の元のテスト画像が、対応するVae-GanおよびPCAの再構築画像と一緒に表示され、どの被験者が再構築された画像が知覚的な視点から元の画像に似ていると判断しました。特定の結果を図10(c)に示します。実験の76.1%で、被験者はVae-Ganの再構築画像を選択しましたが、実験の23.9%で、被験者はPCA再構成画像を選択しました。

図10。顔の再建。 (a)再構築されたフェイスイメージの例

さらに、図11aに示すように、どの脳領域が2つの脳デコードモデルの顔の再構成能力に最も寄与しているかを決定するために、各被験者のボクセル選択を等しいサイズの3つのサブセットに分割しました。次に、これら3つのサブセットでそれぞれ脳のデコードと顔の再構築を実行しました。ペアワイズ識別の結果は、脳のデコードに必要な情報のほとんどを提供することを示しています。

図11。異なる脳領域の寄与。

(A)Voxelセグメンテーションプロセス。円は個々の被験者のパフォーマンスを表します。破線は、個々の被験者のパフォーマンスのP <0.05の重要なしきい値です。 3つのサブセットの中で、後頭部ボクセルの性能が最適で、その後の時間ボクセルが続きました。すべての場合において、Vae-Ganモデルは依然としてPCAモデルよりもパフォーマンスが優れています。

最後に、著者らは、これらの顔の属性に基づいて脳によってデコードされた潜在的なベクトルにラベルを付ける単純な分類器を作成することにより、特定の顔の属性の脳の表現を調査します。人間の顔の「性別」属性に関する特定の実験結果を図12に示します。各脳で設定された潜在ベクトルは、潜在空間の「性」軸に投影され(図12a)、投影の兆候が分類出力を決定します(正の数は「男性」を表し、負の数は「女性」を表す)。図12bの結果からわかるように、この単一のメトリック分類器は、70%の精度で顔の性別を分類するのに十分な情報を提供します。ノンパラメトリックフリードマンテストでは、性別デコードパフォーマンスが3つのボクセルサブセット間で異なることが示されましたが、事後テストでは、後頭ボクセルが前頭頭頂ボクセルよりも有意に優れていることが明らかになり、側頭ボクセルが間に落ちます。

図12。図6の性別デコード。 (a)基本的な線形分類器

3。AI脳ニューロフィードバックダイナミクスのデコード - ニューロフィードバックの実験のデコードに使用されるデータ

この記事は、日本のATR国際アカデミーの計算神経科学研究所の研究者によって科学データ2021に掲載された記事です[9]。デコードされたニューロフィードバック(DECNEF)は、機械学習方法と組み合わせた閉ループfMRIニューロフィードバックの形式であるため、さまざまなデバイスの刺激に対するfMRI周辺の状態の変化を分析することを意味します(被験者の前のディスプレイなど)。これは、脳のダイナミクスの表現または特性評価を操作するという長年の目標のより洗練された表現です。このホワイトペーパーでは、decnef実験に該当するデータソースを提供します。著者は、DECNEFで訓練された60人以上の個人の大規模で公開可能なニューロイメージングデータベースをリリースしました。データベースは、脳の構造的および機能的な画像、機械学習デコーダー、および追加の処理データで構成されています。記事では、著者は、一般的および異なるスキャンパラメーター、メタデータ、ソースデータの構造、匿名化、クリーニング、配置、分析などの処理方法など、データベースをコンパイルするときに使用されるプロトコルについて説明しています。

3.1 Decnefの背景分析

単変量法では、関心領域(ROI)の全体的な活動レベルを具体的に測定します。対照的に、Multivoxelパターン分析(MVPA)は、アクティブモードで分散された情報をデコードすることを学ぶことです。 DeCnefは、単変量アプローチを使用する代わりにMVPAを使用するため、ターゲットの特異性が高くなります。さらに、被験者はデコードニューロフィードバック実験の存在について明確ですが、特定の内容と目的を認識していないため、認知プロセスまたは操作された次元の知識による混乱を減らすのに役立ちます。さらに、神経フィードバック実験のデコードは、「ハイパーアリーンマン」と呼ばれる方法を介して、被験者からの標的神経特性化を間接的に推測することさえできます。このような機能的配置方法により、異なる被験者の神経活動パターンは、一連の線形変換によって構築されます。これらの変換は、新しいデータパターンを個人の脳座標系およびモデルの空間座標に入れるために使用できる有効なパラメーターです。上記の機能により、DeCnefは、特に神経精神疾患における新しい臨床アプリケーションを開発するための効果的なツールになります。臨床指向の研究に加えて、deCnefは脳の基本機能を研究するための系統的および認知的神経科学の重要なパラダイムとしても役立ちます。

さまざまなdeCnef実験では、さまざまな認知プロセスまたは心理的表現を探求しますが、すべての研究は同じ基本設計ロジックを採用しています(図13Aに示すように)。 (1)最初のステップは、機械学習アルゴリズム(MVPAまたはデコーダー構造のトレーニングに使用されるfMRIデータを取得すること)です。 (2)その後のニューロフィードバックステージは2〜5日間続きます。デコーダーの構築プロセス中、被験者は、ビジョン(研究2、3)、好み(研究1)、知覚(研究4)、またはメモリタスク(研究5)、およびニューロフィードバックプロセスを含む単純なアクションを完了しました。すべての手順はほぼ同じでした(図13B)。ニューロフィードバックトレーニングでは、被験者はフィードバックディスクのサイズを最大化するために、脳の活動を調節または操作するよう求められます。

図13。実験設計の概要の概要。

(a)各研究には、機械学習の脳活動パターン分類器である「デコーダー」を構築するために必要なデータを取得するためのfMRIの一部が含まれていました。 (b)すべての研究には、同じ基本的な実験設計があります

これまでのところ、世界中の少数の研究グループのみが、このような技術的に挑戦的な実験を完了する機会がありました。著者によると、彼らは解読の神経フィードバック実験を実行する方法の紹介を発表しました[10]。しかし、decnef(および一般的なニューロフィードバック)に関する重要な質問は未解決のままです。根本的な神経メカニズムとは正確には何ですか?いくつかの最近の研究作業は、この問題に焦点を当て始め、メタ分析、コンピューティングモデル、ニューラルネットワークなどのツールを適用しています。表2は、関連する出版物、ニューロフィードバックプロセストレーニングの目標など、既存の研究の一部をまとめたものです。

表2。データ収集に含まれる研究の概要

3.2データ分析

この記事で提供されているソースデータに関して、表3に、すべての研究で使用されているスキャンパラメーターの技術的詳細と研究間の違いを示します。

表3。さまざまな研究間のスキャンパラメーター

データは、機関リポジトリ「Decnefプロジェクトの脳データリポジトリ」(https://bicr-resource.atr.jp/drmd/)、またはsynapseデータリポジトリ(https://doi.org/10.7303/syn23530650)からアクセスできます。データは、図14に示す構造に従って編成されています。要するに、各調査について、最上部のフォルダーには各被験者のフォルダーが含まれていました(例:「sub-01」)。 3つのサブフォルダーがあります。「anat」には、構造/解剖学的スキャンに関連する元のNiftiファイルが含まれています。「FUNC」(たとえば、「SES-0」:デコーダー、「SES-1」:ニューラルフィードバックの最初のセッションなど)に分割されます。

図14。データセットの構造とコンテンツ

構造データの適切な匿名化を確保するために、高解像度の解剖学的スキャンが適用されます。画像は、統計パラメーターマッピング(SPM)を使用してバイアスされました。画像は、統計パラメータープロット(SPM)ツールボックス(https://www.fil.ion.ucl.ac.uk/spm/)を使用してバイアスされ、FreeSurferキットの自動スミアツールを使用して適用します。図15は、主題の画像結果の例です。

図15。被験者構造スキャンの匿名化(破壊)治療の例

DECNEFメソッドの微細に粒度の高い空間分解能要件を考えると、オンラインフィードバック計算のための脳画像の機能的な配置には、非常に高いセッション間整合性が必要です。画像は元のデコーダーの構造と整列する必要があり、このアライメントは(sub)ボクセルレベルで正確でなければなりません。小さな頭の動きでさえ、この前提条件を簡単に損なう可能性があり、その結果、不完全なデコードとフィードバックスコアの計算が得られます。この要件を満たすために、すべての研究では、元のデコーダー構造の入ってくる脳機能画像とテンプレート間のアラインメントのリアルタイム監視が必要です。ヘッドの動きは、ターボブレインヴォーヤガー(TBV、脳の革新)を使用してリアルタイムで修正されますが、特に突然の重大な変位がある場合、修正された画像がデコードで意味をなさないことは保証されません。したがって、リアルタイムの神経フィードバック実験では、元のDICOM画像で次の処理手順が実行されました。最初に、誘導期間中に測定された機能画像は、TBVを使用した3次元運動補正に使用されました。第二に、デコーダーによって識別された各ボクセルから一連の信号強度が抽出され、血行動態遅延を考慮に入れるために6秒間シフトしました。第三に、時間コースから線形トレンドが削除され、Zスコアは各fMRIランの開始後10秒後に測定された信号強度を使用して各ボクセルの信号時間コースを正規化しました。第4に、フィードバックスコアを計算するデータサンプルは、誘導期間中に各ボクセルの太字の信号強度を平均することによって作成されました。

ターゲットボクセルのアクティベーションモードの観点から、データの品質を制御する効果的な方法は、最初に平均アクティベーション(初期デコーダーとの構築セッションのデータ)を計算することです。次に、リアルタイムセッションでは、平均モードと着信アクティブモードとの1回の相関関係が計算されます。このアプローチにより、ボクセルの応答パターンが頭や身体の動きにより大幅に変化すると、相関の減少が急速に発生し、検出されることが保証されます。相関の最適レベルは、フィッシャー変換のr∈[0.85 1.00]、またはz∈[1.26 inf]の間隔内にある必要があります。著者らは、すべての研究がこの状態を満たしていることを確認しています(図16)。平均して、実験の2%未満のz値は1.26未満でした(研究1:0.13%、研究2:3.17%、研究3:0.91%、研究4:0.36%、研究5:3.74%)。

図16。フィッシャーは、平均アクティブモードとリアルタイムアクティブモードの間の変換された相関関係を変えました。

値が大きいほど、リアルタイム測定モードとデコーダー構造モードの間の機能的な一貫性が向上します。各ポイントは、実験の相関値を表します。各ピアノマップにはn(日)×m(被験者)×l(実行)×j(実験)ポイントがあります。図の中央の白い円は中央値を表し、厚い灰色の線は四分位範囲を表し、薄い灰色の線は隣接する数値を表します。グラフからz <1.10のデータポイントを削除します

次に、著者は、頭の動きとパターン相関の間の関係を確立しました。著者は、SPM12を使用してヘッドモーションパラメーターを計算し、3つの翻訳パラメーターと3つの回転パラメーターを取得しました。この分析の目的のために、著者は、関連する3パラメーターを平均化することにより、平均絶対回転と平均絶対翻訳を計算し、神経フィードバック実験で3つのTRを使用して、デコーダーの可能性とパターンの間の相関を計算しました。著者は、これら2つのヘッドモーションインデックス(ミリメートル)を、すべての研究でプールされたフィッシャー変換相関係数(すなわち、パターン相関)を比較しました(図17を参照)。統計分析のために、著者はシリーズの単一の実験データを連結し、線形混合効果(LME)モデル(y〜1 + m +(1 | st) +(1 + st | prt)として割り当てられたものを使用して分析しました。具体的には、これらのLMEモデルは、モーションを固定効果として使用するように設計されており、実験的研究はランダム効果と共変量として実験的研究を行い、個々の被験者は実験研究にランダム効果としてネストされていました。

図17。パターン相関と頭の動きの関係。

頭の動きは、3次元方向の回転(a)または3次元方向の翻訳(b)として計算され、フィッシャー変換パターン相関係数でグラフ化されます。さまざまな色を使用して、さまざまな研究からデータポイントを描画します。各データポイントは、特定の主題、実行、および実験を特徴付けます

最後に、心拍や呼吸などの他の生理学的ノイズの原因も、リアルタイムデコードに使用されるマルチボクセル活動パターンに影響を与える可能性があります。これらのソースはこの研究で直接測定されていなかったため、著者はその効果しか推測できませんでした。すべてのボクセルへの影響が比較的均一である場合、著者は、ボクセル間の関係がほとんど変化しないため、パターン関連の測定にほとんど影響を与えないと予想していました。ボクセルの間に不均一な効果がある場合、著者らは、パターンの相関が頭の動きの影響を受けると考えています。最初のケースでは、データのノイズの歪みが検出されないことを心配するかもしれません。しかし、すべてのボクセルのアクティビティは最初にベースラインによって正規化され、その後、フィードバックの尤度は、ボクセルのアクティビティパターンと重量ベクターの間のDOT積を計算することによって決定されるため、ボクセルのパターン(ボクセルアクティビティ間の「違い」)にとって重要です。したがって、著者らは、MVPAの特殊性のため、パターンの相関に影響を与えることなく、追加のノイズ源がボクセル活動パターンの情報コンテンツに大きな影響を与える可能性は低いと指摘しています。

4. まとめ

このペーパーでは、統計におけるMLに基づいたfMRI分析方法について説明します。その中で、最初の記事では、ヒト脳機能磁気共鳴画像法(fMRI)に基づいたタスク固有の状態デコードにおけるSVMベースの多変量パターン分析の適用を紹介します。具体的には、著者は、タスク関連の4D fMRI信号を読み取ることにより、進行中の脳タスク状態を効果的に解読およびマップするDNN分類器を導入します。 DNNの階層構造により、従来の機械学習方法よりも複雑な出力関数を学習でき、エンドツーエンドのトレーニングを行うことができ、それにより大規模なデータセットでのfMRIデコードの精度レベルを改善できます。 2番目の記事では、人間の機能的磁気共鳴画像(fMRI)から人間の顔画像を再構築するためのディープラーニングシステムの適用について具体的に説明します。 Vae-Ganモデルを使用して、マルチボクセルfMRI活性化パターンと1024の潜在寸法の間の単純な線形マッピングが学習されました。このマッピングは、新しいテスト画像に適用され、fMRIパターンを潜在的なエンコードに変換し、エンコードを顔に再構築します。最後の記事では、臨床研究に加えて、デコードされたニューロフィードバックの実験的トレーニング(DECNEF)によって得られる、公開されている大規模なニューロイメージングデータベースを公開しました。このデータベースのリリースは、神経フィードバックの解読の研究開発を促進するための優れたデータ基盤を提供します。

MLは、画像処理と認識に幅広い用途があることが証明されています。 MLを使用してfMRI画像を接続すると、人間の脳の観察と思考の状態を分類し、関連する顔の内容を再構築することさえできます。神経科学者は、機械学習技術を使用して人間の脳の活動を解読し、人間の脳の傾向を理解し、脳の迷路をよりよく理解するのに役立ちます。

<<:  ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

>>:  AIOps が企業で成功する方法

ブログ    
ブログ    

推薦する

駐車技術の進化: 人工知能が駐車場の未来をどう形作るか

近年、インドは深刻な駐車スペース不足という差し迫った問題に直面している。自動車の数が日々増加している...

...

データが限られている場合にディープラーニングモデルを最適化する方法

[[198229]]転移学習転移学習とは、ある問題で訓練したモデルを、簡単な調整で新しい問題に適した...

OpenAIがMicrosoftに反旗を翻す!アルトマン氏が「ChatGPTのカスタマイズ」を企む。AI市場の未来はまた変わるのか?

ChatGPTはリリースからわずか半年で、5日間でユーザー数が100万人を超え、現在ユーザー総数は...

よく使われる 3 つの C# ソート アルゴリズム

C# アルゴリズムは、C# 言語学習の重要な部分です。C# ソート アルゴリズムは、言語の基礎とデー...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

人工知能とブロックチェーン技術は芸術をどのように解放できるのでしょうか?

2022年において、アートがテクノロジーから切り離されていることを想像するのは難しいです。 AI、...

早く見て! 2022年の建設業界の7つの大きな発展トレンド!

建設業界の市場競争はますます激しくなっています。建設会社は生き残りと発展のために大きなプレッシャーに...

清華大学の趙明国氏:AIチップ+ロボット、アルゴリズムのボトルネックを突破

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

今後の展望:自動運転におけるビッグモデル技術の応用と影響

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

スマート充電インフラ: 電気自動車の充電における人工知能の貢献

政府の電気自動車推進のビジョンに後押しされ、電気自動車業界はここ数年で大きな勢いを増しています。さら...

機械学習が金融業界に与える影響

過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...

...

感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家...

...