今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか？

脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取ることもできます。

ロシアの脳コンピューターインターフェース企業ニューロボティクスとモスクワ物理工科大学（MIPT）が開発した新しい脳コンピューターインターフェースアルゴリズムが最近公開された。このアルゴリズムは人工ニューラルネットワークと脳波を使用して、人間の脳内の画像をコンピューター画面にリアルタイムで表示することができる。さらに、マスク氏の脳コンピューターインターフェース企業が開発した「脳ミシン」とは異なり、この脳コンピューターインターフェースは電極を埋め込むために開頭手術を必要とせず、臨床や日常生活でより広く使用されています。

被験者は脳コンピューターインターフェースを使用しています。右下隅は被験者が見たリアルタイム画像であり、右上隅は脳コンピューターインターフェースを通じて再構成された画像です。

今年7月、フェイスブックとカリフォルニア大学サンフランシスコ校（UCSF）が人間の言語をリアルタイムで読み取る脳コンピューターインターフェースに関する研究がネイチャー誌に掲載され、その高速デコード機械学習アルゴリズムの結果は驚くべきものだった。

今では、「マインドタイピング」が実現できるだけでなく、人間の目の「超高精度」カメラを使用してビデオを録画し、SF映画やテレビ作品に描かれたシーンを実現することもできるかもしれないようです。しかし、モスクワ物理工科大学の論文はまだ査読を受けていない。

[[281049]]

英国のテレビシリーズ「ブラック・ミラー」のあるエピソードでは、主人公は税関を通過する際に、何らかの装置を通して裸眼で記録した視覚的記憶を再生するよう求められた。

研究者にとって、この新たな発見は、脳信号によって制御される脳卒中後のリハビリテーション装置の構築を可能にするものである。研究チームはbioRxivに関連研究論文を発表し、彼らの「心を読む」システムの効果を示すビデオを公開した。写真はぼやけていますが、写真内の一般的なシーンのカテゴリ（人物、滝、車のシーンなど）を区別することはできます。

ビデオ内の元の画像と、EEG 信号をニューラルネットワークで処理して再構築した画像の比較 (著作権上の理由により、元の肖像画は置き換えられています)。

この装置を構築するには、神経生物学者は脳がどのように情報を符号化するかを理解する必要があります。その重要な側面は、ビデオを視聴しながら視覚情報を知覚する際に関与する脳の活動プロセスを研究することです。

既存のソリューションとしては、機能的磁気共鳴画像法を使用して観察された画像を抽出するか、インプラントを介してニューロンからの信号を直接分析するかのいずれかがあります。どちらの方法も、臨床および日常生活における応用範囲は非常に限られています。

ロシアの研究者らが開発した脳コンピューターインターフェースは、人工ニューラルネットワークと脳波記録（EEG）に依存しており、これは非侵襲性電極（外科的埋め込みなし）を通じて脳波を記録できる技術である。脳の活動を分析することで、システムは人間が見る画像をリアルタイムで再現することができます。

「私たちは、脳卒中患者が腕型外骨格を操作したり、麻痺患者が電動車椅子を運転したりできるようにする脳コンピューターインターフェースの構築を目指している国家技術イニシアチブのニューラルネットワーク支援技術プロジェクトに取り組んでいます。最終的な目標は、健康な人が神経制御の精度を向上できるようにすることです」とMIPT神経ロボティクス研究所所長のウラジミール・コニシェフ氏は述べた。

技術詳細

この脳コンピューターインターフェースを構築するための実験は2段階に分かれています。

最初の段階では、神経生物学者は健康な被験者に10秒間のYouTubeビデオクリップを合計20分間視聴してもらいました。研究チームは、抽象的な形、滝、顔、動く物体、車の動きという 5 つのビデオカテゴリをランダムに選択しました。

研究者たちは、EEGデータを分析することで、各タイプのビデオの脳波が異なっていることを発見した。これにより、研究チームはビデオに対する脳の反応をリアルタイムで分析することができました。

実験の第2段階では、研究者らは5つのカテゴリーからランダムに3つのカテゴリーを選択し、ネイティブフィードバックモデルを開発した。フィードバックモデルの核心となる考え方は、脳コンピューターインターフェース分類器の予測結果を自然な画像の形で提示し、実際の観察画像にできるだけ近づけることである。

このモデルは 2 つのニューラルネットワークに分かれています。1 つは「ノイズ」からクラス固有のランダムな画像を生成するためのもので、もう 1 つは EEG に基づいて同様の「ノイズ」を生成するためのものです。次に、研究チームは 2 つのネットワークをトレーニングして、EEG 信号を被験者が見ているものに似た実際の画像に変換できるように連携させました。

論文に記載されているローカルフィードバックモデルを下の図に示します。

図 2: ローカルフィードバックモデルの全体的なスキーム。

縮小された 20 次元の EEG 特徴ベクトルは、事前に学習されたいくつかのカテゴリの自然な画像を再構築できる、事前学習済みの画像オートエンコーダの潜在空間にマッピングされます。画像デコーダーは神経生理学的データに依存せず、刺激画像のセットのみを考慮して事前トレーニングできます。特徴マッパーは、EEG 特徴ライブラリとトレーニング済みの画像デコーダーの両方を必要とするため、個別にトレーニングされます。

画像デコーダー

画像デコーダー (ID) は、画像間畳み込みオートエンコーダーモデルの一部です。エンコーダー部分は、事前トレーニング済みの VGG-11 モデルに基づいています。デコーダー部分は、次元拡張用の完全接続入力層と、それに続く 5 つのデコンボリューションブロックで構成され、各ブロックにはデコンボリューション層と、それに続く ReLU アクティベーションが含まれています。最後のデコンボリューションブロックには、双曲正接活性化レイヤーが含まれています。デコーダーは 192×192×3 次元のカラー画像を生成します (図 3a を参照)。

図3. 画像デコーダー。a) モデル構造、b) 従来のトレーニング

画像の再構成に加えて、デコーダーには特定の潜在空間分布があります。彼らは、図3(b)に示すようなトレーニングプロセスを導入することでこの問題に対処しています。

EEG 特徴マッパー

EEG 特徴マッパーの目的は、EEG 特徴ドメインのデータを画像デコーダーの潜在空間ドメインに変換することです。理想的には、観察された画像とその時点での EEG 記録は最終的に同じ潜在空間ベクトルマップに変換され、デコーダーは見たばかりのシーンや想像したシーンに基づいて正しい視覚画像を生成できるようになります。

もう 1 つの問題は、ノイズの多いデータに対処する方法です。ライブ録画されたシーンの EEG 信号特性は、検出されないアーティファクトの存在や被験者の注意散漫により大幅に変化する可能性があります。このとき、フィードバックシステムは、観察対象に過度の圧力をかけないように、画像の切り替えを混乱させないようにする必要があります。

人間の脳内の画像は連続データであるため、リカレントニューラルネットワークを使用するのは自然なことです。新しいアルゴリズムでは、LSTM コンポーネントをリカレントユニットとして使用します。さらに、研究者らは注意メカニズムも統合しました。

図4. EEG特徴マップ。 a) モデル構造; b) トレーニング方法。

テスト結果

システムの脳活動を表現する能力をテストするために、研究者らは以前に視聴した同じタイプのビデオを選択しました。観察すると、脳波が記録され、ニューラルネットワークにフィードバックされました。システムはテストに合格し、自信を持って画像を生成し、その 90% は簡単に分類できました。

ほとんどの AI アルゴリズムと同様に、研究者が提案したニューラルネットワークモデルは Python で実装されており、Intel i7 プロセッサと Nvidia GeForce 1050Ti グラフィックカードを搭載した一般的なデスクトップコンピューターで実行されます。読み取りプロセス中、アルゴリズムは 1 秒あたり 3 フレームを処理できます。通常、再構成された画像の約 90% は分類の観点から認識可能です。

「さらに、これをリアルタイムの脳コンピューターインターフェースの基礎として使うこともできる。現在の技術状況では、イーロン・マスクが使っているような侵襲性インターフェースは手術が複雑で劣化が早いという問題があり、基本的に数ヶ月以内に機能しなくなる。最終的にはインプラントを必要としない、より実用的な神経インターフェースを設計したいと考えている」と研究者は付け加えた。

<<: 企業が機械学習で犯す5つの間違い

>>: 女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。