今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか?

今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか?

脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取ることもできます。

ロシアの脳コンピューターインターフェース企業ニューロボティクスとモスクワ物理工科大学(MIPT)が開発した新しい脳コンピューターインターフェースアルゴリズムが最近公開された。このアルゴリズムは人工ニューラルネットワークと脳波を使用して、人間の脳内の画像をコンピューター画面にリアルタイムで表示することができる。さらに、マスク氏の脳コンピューターインターフェース企業が開発した「脳ミシン」とは異なり、この脳コンピューターインターフェースは電極を埋め込むために開頭手術を必要とせず、臨床や日常生活でより広く使用されています。

被験者は脳コンピューターインターフェースを使用しています。右下隅は被験者が見たリアルタイム画像であり、右上隅は脳コンピューターインターフェースを通じて再構成された画像です。

今年7月、フェイスブックとカリフォルニア大学サンフランシスコ校(UCSF)が人間の言語をリアルタイムで読み取る脳コンピューターインターフェースに関する研究がネイチャー誌に掲載され、その高速デコード機械学習アルゴリズムの結果は驚くべきものだった。

今では、「マインドタイピング」が実現できるだけでなく、人間の目の「超高精度」カメラを使用してビデオを録画し、SF映画やテレビ作品に描かれたシーンを実現することもできるかもしれないようです。しかし、モスクワ物理工科大学の論文はまだ査読を受けていない。

[[281049]]

英国のテレビシリーズ「ブラック・ミラー」のあるエピソードでは、主人公は税関を通過する際に、何らかの装置を通して裸眼で記録した視覚的記憶を再生するよう求められた。

研究者にとって、この新たな発見は、脳信号によって制御される脳卒中後のリハビリテーション装置の構築を可能にするものである。研究チームはbioRxivに関連研究論文を発表し、彼らの「心を読む」システムの効果を示すビデオを公開した。写真はぼやけていますが、写真内の一般的なシーンのカテゴリ(人物、滝、車のシーンなど)を区別することはできます。

ビデオ内の元の画像と、EEG 信号をニューラル ネットワークで処理して再構築した画像の比較 (著作権上の理由により、元の肖像画は置き換えられています)。

この装置を構築するには、神経生物学者は脳がどのように情報を符号化するかを理解する必要があります。その重要な側面は、ビデオを視聴しながら視覚情報を知覚する際に関与する脳の活動プロセスを研究することです。

既存のソリューションとしては、機能的磁気共鳴画像法を使用して観察された画像を抽出するか、インプラントを介してニューロンからの信号を直接分析するかのいずれかがあります。どちらの方法も、臨床および日常生活における応用範囲は非常に限られています。

ロシアの研究者らが開発した脳コンピューターインターフェースは、人工ニューラルネットワークと脳波記録(EEG)に依存しており、これは非侵襲性電極(外科的埋め込みなし)を通じて脳波を記録できる技術である。脳の活動を分析することで、システムは人間が見る画像をリアルタイムで再現することができます。

「私たちは、脳卒中患者が腕型外骨格を操作したり、麻痺患者が電動車椅子を運転したりできるようにする脳コンピューターインターフェースの構築を目指している国家技術イニシアチブのニューラルネットワーク支援技術プロジェクトに取り組んでいます。最終的な目標は、健康な人が神経制御の精度を向上できるようにすることです」とMIPT神経ロボティクス研究所所長のウラジミール・コニシェフ氏は述べた。

技術詳細

この脳コンピューターインターフェースを構築するための実験は2段階に分かれています。

最初の段階では、神経生物学者は健康な被験者に10秒間のYouTubeビデオクリップを合計20分間視聴してもらいました。研究チームは、抽象的な形、滝、顔、動く物体、車の動きという 5 つのビデオ カテゴリをランダムに選択しました。

研究者たちは、EEGデータを分析することで、各タイプのビデオの脳波が異なっていることを発見した。これにより、研究チームはビデオに対する脳の反応をリアルタイムで分析することができました。

実験の第2段階では、研究者らは5つのカテゴリーからランダムに3つのカテゴリーを選択し、ネイティブフィードバックモデルを開発した。フィードバックモデルの核心となる考え方は、脳コンピューターインターフェース分類器の予測結果を自然な画像の形で提示し、実際の観察画像にできるだけ近づけることである。

このモデルは 2 つのニューラル ネットワークに分かれています。1 つは「ノイズ」からクラス固有のランダムな画像を生成するためのもので、もう 1 つは EEG に基づいて同様の「ノイズ」を生成するためのものです。次に、研究チームは 2 つのネットワークをトレーニングして、EEG 信号を被験者が見ているものに似た実際の画像に変換できるように連携させました。

論文に記載されているローカルフィードバックモデルを下の図に示します。

図 2: ローカルフィードバックモデルの全体的なスキーム。

縮小された 20 次元の EEG 特徴ベクトルは、事前に学習されたいくつかのカテゴリの自然な画像を再構築できる、事前学習済みの画像オートエンコーダの潜在空間にマッピングされます。画像デコーダーは神経生理学的データに依存せず、刺激画像のセットのみを考慮して事前トレーニングできます。特徴マッパーは、EEG 特徴ライブラリとトレーニング済みの画像デコーダーの両方を必要とするため、個別にトレーニングされます。

画像デコーダー

画像デコーダー (ID) は、画像間畳み込みオートエンコーダー モデルの一部です。エンコーダー部分は、事前トレーニング済みの VGG-11 モデルに基づいています。デコーダー部分は、次元拡張用の完全接続入力層と、それに続く 5 つのデコンボリューション ブロックで構成され、各ブロックにはデコンボリューション層と、それに続く ReLU アクティベーションが含まれています。最後のデコンボリューション ブロックには、双曲正接活性化レイヤーが含まれています。デコーダーは 192×192×3 次元のカラー画像を生成します (図 3a を参照)。

図3. 画像デコーダー。a) モデル構造、b) 従来のトレーニング

画像の再構成に加えて、デコーダーには特定の潜在空間分布があります。彼らは、図3(b)に示すようなトレーニングプロセスを導入することでこの問題に対処しています。

EEG 特徴マッパー

EEG 特徴マッパーの目的は、EEG 特徴ドメインのデータを画像デコーダーの潜在空間ドメインに変換することです。理想的には、観察された画像とその時点での EEG 記録は最終的に同じ潜在空間ベクトル マップに変換され、デコーダーは見たばかりのシーンや想像したシーンに基づいて正しい視覚画像を生成できるようになります。

もう 1 つの問題は、ノイズの多いデータに対処する方法です。ライブ録画されたシーンの EEG 信号特性は、検出されないアーティファクトの存在や被験者の注意散漫により大幅に変化する可能性があります。このとき、フィードバックシステムは、観察対象に過度の圧力をかけないように、画像の切り替えを混乱させないようにする必要があります。

人間の脳内の画像は連続データであるため、リカレント ニューラル ネットワークを使用するのは自然なことです。新しいアルゴリズムでは、LSTM コンポーネントをリカレント ユニットとして使用します。さらに、研究者らは注意メカニズムも統合しました。

図4. EEG特徴マップ。 a) モデル構造; b) トレーニング方法。

テスト結果

システムの脳活動を表現する能力をテストするために、研究者らは以前に視聴した同じタイプのビデオを選択しました。観察すると、脳波が記録され、ニューラルネットワークにフィードバックされました。システムはテストに合格し、自信を持って画像を生成し、その 90% は簡単に分類できました。

ほとんどの AI アルゴリズムと同様に、研究者が提案したニューラル ネットワーク モデルは Python で実装されており、Intel i7 プロセッサと Nvidia GeForce 1050Ti グラフィック カードを搭載した一般的なデスクトップ コンピューターで実行されます。読み取りプロセス中、アルゴリズムは 1 秒あたり 3 フレームを処理できます。通常、再構成された画像の約 90% は分類の観点から認識可能です。

「さらに、これをリアルタイムの脳コンピューターインターフェースの基礎として使うこともできる。現在の技術状況では、イーロン・マスクが使っているような侵襲性インターフェースは手術が複雑で劣化が早いという問題があり、基本的に数ヶ月以内に機能しなくなる。最終的にはインプラントを必要としない、より実用的な神経インターフェースを設計したいと考えている」と研究者は付け加えた。

<<:  企業が機械学習で犯す5つの間違い

>>:  女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。

ブログ    
ブログ    

推薦する

祭壇から一般公開へと移行する冬季オリンピックでAIブラックテクノロジーを公開

現代のスポーツ競技は、アスリート同士のタイム競争であるだけでなく、舞台裏でのさまざまなハイテクノロジ...

...

第2世代のビッグデータの偏りを打破するには、アルゴリズムの公平性が必要

ビッグデータのシナリオでは、ますます多くのトランザクションがアルゴリズムを通じて完了します。インター...

大型模型+ロボット、詳細なレビューレポートはこちら、多くの中国の学者が参加

大型モデルの優れた能力は誰の目にも明らかであり、ロボットに統合されれば、ロボットはより賢い脳を持つこ...

DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

大規模な AI モデルがデジタルの世界を変えています。大規模言語モデル (LLM) に基づく Tur...

...

なぜ多くの大学や大富豪が協力して AI 技術制御の研究を進めているのでしょうか?

[[268857]]最近、億万長者でブラックストーン・グループの共同創設者であるスティーブン・シュ...

機械学習アルゴリズムと機械学習モデルの開発方法について知っておくべきことは何ですか?

[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...

人工知能のトレンドが電子商取引業界のビジネスを変える

電子商取引企業は常に技術革新の最前線に立ってきました。彼らでさえ、ビッグデータの突然の驚くべき破壊力...

2時間で人間を超えることができます! DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

DeepMind の AI エージェントが再び自らの力を発揮します。よく見てください。BBF という...

人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

01 ロボティックプロセスオートメーション(RPA) RPA (ロボティック プロセス オートメーシ...

2025年までに機械学習市場は967億ドルに達する

4月7日、PR Newswireによると、市場調査会社Grand View Researchが最近発...

AI応用分野トップ10: AIはかつてないほど優れている

1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...

...