AIのマインドリーディングがサミットであなたを驚かせる！モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される｜NeurIPS 2023

今日、私たちの AI は何ができるでしょうか?

AI による描画、AI による作曲、AI による動画生成、AI による小説執筆、AI による放送...

しかし、最近の NeurIPS カンファレンスでは、GrapheneX-UTS の研究者が、さらに衝撃的な応用シナリオを発表しました。それは、AI による心を読む BrainGPT です。

論文アドレス: https://arxiv.org/pdf/2309.14030v2.pdf

AIがあなたの考えを知ることができたら何が起こるでしょうか?想像もつきません。

ビデオでは、研究チームが AI による心を読む動作を実演しました。

被験者は心の中で黙って文章を暗唱し、一連のセンサーを通して脳波をサンプリングする。その後、DeWaveと呼ばれるAIモデルが脳波を言語に変換し、スクリーンに映し出す。

全体のプロセスには少しSF的な雰囲気があり、特にバックグラウンドミュージックは「インターステラー」を思い起こさせます。

この研究は今年の NeurIPS カンファレンスの注目論文に選ばれており、研究チームはシドニー工科大学の GrapheneX-UTS (人間中心の人工知能センター) に所属しています。

UTS コンピュータサイエンス学部の特別教授であり、GrapheneX-UTS HAI センター所長でもある Chin-Teng Lin 教授は、この研究は生の脳波を直接言語に変換する画期的な取り組みであり、この分野における大きな進歩となると述べました。

「これは、離散エンコーディング技術を脳からテキストへの翻訳プロセスに組み込んだ初の方法であり、革新的なニューラルデコーディング方法を導入するものであり、大規模な言語モデルとの統合により、神経科学と人工知能の新たな分野も開拓されます。」

——幸い、AIはヘッドギアを装着して、人間の考えを「聞く」ことができる。遠くから考えを捉えられると困る。

もし私がこのテストを受けるとしたら、おそらくかなりストレスを感じるでしょう。

——結局、黙読することが頭の中で考えていることと同じなのかはわかりません。頭の中で考えていることなどもAIが読み上げてくれるのでしょうか？

編集者はホーキング博士のことを考えずにはいられませんでした。おそらくどこかのパラレルワールドで、彼もそのような BrainGPT を使用できるかもしれません。

では私はどうでしょうか?まだコンピューターの画面に向かってキーボードで入力する必要がありますか?必要なし！私がしなければならないのは、ベッドに横になって頭を使ってこの授業を受けることだけです。

この研究では、モデルが脳波信号をさまざまな単位に分割し、そこから特定の特徴とパターンを捉えます。

DeWave モデルは、大量の EEG データから学習することで、EEG 信号を単語や文章に変換する能力を獲得します。

BrainGPT は、病気や怪我 (脳卒中、麻痺など) により話すことができない人のコミュニケーションを支援するだけでなく、バイオニックアームやロボットの操作など、人間と機械間のシームレスなコミュニケーションも可能にします。

脳の信号を言語に変換するこれまでの技術では、脳に電極を埋め込む手術（マスク氏のニューラリンクなど）か、MRI装置でのスキャンが必要だった。

前者は侵襲的であり、後者はかさばり、高価で、日常生活で使用するのが困難です。

さらに、これらの方法では通常、脳の信号を単語レベルの断片に変換するために視線追跡などの追加の補助ツールが必要ですが、BrainGPT にはこの制限はありません。

この研究では29人の参加者がテストを受けました。脳波は人によって異なるため、BrainGPT が実証したデコード技術はより強力で適応性に優れています。

もちろん、この外部デバイスを介して受信される EEG 信号は、脳に埋め込まれた電極によって受信される信号よりもノイズが多くなりますが、翻訳結果から判断すると、精度はかなり良好です。

BrainGPT の BLEU-1 における翻訳精度スコアは現在約 40% です。

(BLEU スコアは、機械翻訳されたテキストが一連の高品質の参照翻訳とどの程度類似しているかを測定する 0 から 1 までの数値です。)

研究者たちは、このシステムが将来的には従来の言語翻訳や音声認識プログラムに匹敵する約90パーセントの精度を達成できると考えている。

論文の著者らは、現在のモデルは動詞のマッチングには優れているが、名詞に関しては精度が十分ではない可能性があると考えている。これは、意味的に類似した単語は、脳がそれらの単語を処理するときに同様の脳波パターンを生成する可能性が高いためです。

論文の詳細

この論文では、個別のエンコードシーケンスをオープン語彙の EEG からテキストへの翻訳タスクに統合する新しいフレームワーク DeWave を紹介しています。

DeWave は量子化された変分エンコーダーを使用して離散エンコーディングを導出し、それらを事前トレーニング済みの言語モデルと整合させます。

この離散表現には 2 つの利点があります。1) テキストと EEG のコントラストの調整トレーニングを導入することで、ラベルのない元の波の変換が実現されます。2) 不変の離散エンコーディングにより、EEG 波の個人差によって引き起こされる干渉が軽減されます。

DeWave は、離散コーディングを使用して、生の EEG からテキストへの変換を実現する最初の研究であり、自己教師付き波形コーディングモデルと対照学習ベースの EEG からテキストへのアライメントを導入して、エンコード機能を向上させています。

ZuCo データセットを使用したテストでは、DeWave モデルは BLEU-1 スコア 41.35、Rouge-F スコア 33.71 を達成しました。これは、それぞれ以前のベースラインより 3.06% と 6.34% 高い値です。

さらに、この論文では初めて、単語レベルの連続マーカー（視線など）なしで EEG 信号サイクル全体の翻訳をテストし、それぞれ 20.5（BLEU-1）と 29.5（Rouge-1）を達成しました。

研究方法

DeWave のプロセス全体を下の図に示します。元の EEG 特徴は埋め込みシーケンスにベクトル化され、離散エンコーディングに送信されます。言語モデルは、離散エンコーディング表現に基づいて翻訳出力を生成します。

DeWave モデル構造では、単語レベルの EEG 機能、または生の EEG 波形を埋め込みにベクトル化し、ベクトル化された機能を潜在変数にエンコードし、インデックス付けによって離散エンコードに変換します。最後に、事前トレーニング済みの BART モデルがこの離散的にエンコードされた表現をテキストに変換します。

単語レベルの EEG 特徴のシーケンス E が与えられた場合、目標は対応するオープン語彙のテキストトークン W をデコードすることです。これらの EEG テキストペア (E、W) は、自然な読書中に収集されました。

ここでは2つのトレーニングタスクが設定されている：（1）単語レベルのEEGからテキストへの翻訳。ここでは、EEG特徴シーケンスEがセグメント化され、シーケンスW内の各単語のタグに従って並べ替えられる。

（２）生のEEGからテキストへの翻訳。EEG特徴シーケンスEは、イベントラベル付けなしで翻訳のために埋め込みシーケンスに直接ベクトル化されます。

離散エンコーディング

DeWave は、EEG 信号表現に離散コーディングを導入した最初の研究です。

離散表現は、単語レベルの EEG 機能と生の脳波変換に役立ちます。脳波に離散コーディングを導入すると、次の 2 つの利点がもたらされます。

まず、EEG の特徴は、さまざまな被験者間でデータ分布が大きく異なります。同時に、データ収集の費用により、データセットには少数の被験者からのサンプルしか含めることができず、EEG ベースのディープラーニングモデルの一般化能力が大幅に弱まります。

離散コーディングを導入することで、入力のばらつきを大幅に軽減できます。

2 番目に、エンコーディングに含まれる時間的プロパティが少なくなるため、イベントマーカー (視線の固定など) と言語出力間の順序の不一致の問題を軽減できます。

EEGベクトル化

イベントラベル付きの単語レベルの EEG 特徴を取得するには、まず、注釈に指定された単語シーケンスの視線追跡ラベルに従って EEG 波をスライスします。

ここでは、4 つの周波数帯域フィルター (シータ帯域 (5-7Hz)、アルファ帯域 (8-13Hz)、ベータ帯域 (12-30Hz)、ガンマ帯域 (30Hz-)) の統計結果を計算し、各セグメントの統計周波数特性を取得します。

異なるクリップには異なる EEG ウィンドウサイズがある場合がありますが、統計結果は同じ (埋め込みサイズ 840) であることに注意することが重要です。

マルチヘッド Transformer レイヤーを適用して、埋め込みをサイズ 512 の特徴シーケンスに投影します。

自己教師あり EEG エンコーダーを使用して、生の EEG 信号を一連の埋め込みに変換します。

上の図は、元の波の自己教師あり事前トレーニングプロセスを示しています。左のサブ図は、対照学習による自己再構築とテキスト配置を活用してエンコーダーをガイドする戦略の詳細を示しています。

ここでは 2 つの指針があります。1 つは自己再構築で、これはエンコーダーの機能をトレーニングすると同時に、離散コードから元の波形を再構築します。

もう 1 つはテキストの配置で、エンコーディングが単語ベクトルと意味的に配置されます。

構造的には、特別に設計されたハイパーパラメータを持つ多層一貫性ベースのエンコーダーが採用されています。

1 次元畳み込み層を使用して EEG 波を処理し、埋め込みシーケンスを生成し、その後、EEG チャネルを各サイクルごとに固有の埋め込みに融合します。ここでは、時間的な関係をキャプチャするために、双方向の Transformer 注意レイヤーがシーケンスに適用されます。

このようにして、モデルは EEG 信号を再構築することを学習するだけでなく、対応するテキスト埋め込みと一致する信号の堅牢な表現も学習します。

このクロスモーダル学習により、EEG 信号とテキストの意味内容の間のギャップを埋め、翻訳システムを改善できます。

実験結果

DeWave は ZuCo 1.0 および 2.0 で実験します。このデータセットは、通常の読み取り (NR) タスクとタスク固有の読み取り (TSR) タスク中にテキストと EEG コーパスを同時に記録します。

EEG は、0.1 Hz から 100 Hz の周波数帯域フィルターを介して 500 Hz のサンプリングレートで 128 チャンネルシステムを使用して収集されました。ただし、ノイズ低減後は、翻訳に使用されるチャネルは 105 個のみになります。

実験では、視線に応じて脳波をスライスし、周波数特性を算出しました。生の EEG の場合、信号はデコードのために 0 ～ 1 の値の範囲に正規化されました。

読み取りタスクのデータは、トレーニング (80%)、開発 (10%)、テスト (10%) に分かれており、それぞれ 10,874、1,387、1,387 の文があり、重複はありません。

ここでは、上の表に示すように、NLP 指標 BLEU と ROUGE を使用して翻訳パフォーマンスを評価します。

単語レベルの EEG 機能の場合、一貫した言語モデルを維持するために、結果が EEG からテキストへの変換と比較されます。

生の EEG を処理する方法がないため、200 ミリ秒の時間ウィンドウと 100 ミリ秒のオーバーラップを使用して EEG 全体をシーケンス埋め込みに分割することにより、ベースライン (EEG からテキスト) を確立しました。

この実験では、もともと音声認識用に開発された Wave2Vec を脳波に適応させ、DeWave と比較しました。

さらに、この実験では、比較のために SSL 事前トレーニングと特徴抽出を使用し、教師なしの生の EEG 分類方法である BENDR と SCL も使用して、離散コーディングの影響を強調しています。

実際のアプリケーションでは学際的なパフォーマンスが非常に重要であるため、ここではベースライン手法と代表的なメタ学習手法 MAML との比較もさらに示します。

上記の表は 18 人の被験者の平均パフォーマンスを示しており、指標が低いほど優れています。 DeWave モデルは、両方の設定 (直接テストと MAML の使用) で優れたパフォーマンスを示していることがわかります。

異なる被験者間のパフォーマンスの違いをさらに説明するために、被験者 YAG のデータのみを使用してモデルのトレーニングを行い、他のすべての被験者の指標をテストします。

結果は上の図に示されています。レーダーチャートから、モデルのパフォーマンスはさまざまな対象に対して比較的安定していることがわかります。

<<:

>>:

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソースプロジェクトです。

ブログ

NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

ブログ

AIのマインドリーディングがサミットであなたを驚かせる！モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される｜NeurIPS 2023

論文の詳細

研究方法

離散エンコーディング

EEGベクトル化

実験結果

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソースプロジェクトです。

ChatGPT「コードインタープリター」が正式リリースされました！ 30秒で写真を動画に変え、口を動かしてショーを作りましょう

人工知能を背景とした公共読書空間の探究と創造

採血時に血管が見つからない？人工知能には解決策がある

数学者は解けないコンピュータの問題を発見した

自動運転事故を回避するために、CV 分野では物理的な攻撃をどのように検出できるでしょうか?

NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

推薦する

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

AIビッグモデルがついにデータ争奪戦に参戦

調査レポート：2021年の人工知能開発動向予測

「星から来た」ロボットは自閉症の子供たちを治せるのか？

生物学的ニューラルネットワークから人工ニューラルネットワークへ

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

仮想誘拐：人工知能がランサムウェア詐欺を助長

自然言語処理のためのOne Hot Modelについて

ディープラーニングを使用してフロントエンドデザインモデルをコードに自動的に変換する方法は?