今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画生成、AI による小説執筆、AI による放送... しかし、最近の NeurIPS カンファレンスでは、GrapheneX-UTS の研究者が、さらに衝撃的な応用シナリオを発表しました。それは、AI による心を読む BrainGPT です。 論文アドレス: https://arxiv.org/pdf/2309.14030v2.pdf AIがあなたの考えを知ることができたら何が起こるでしょうか?想像もつきません。 ビデオでは、研究チームが AI による心を読む動作を実演しました。 被験者は心の中で黙って文章を暗唱し、一連のセンサーを通して脳波をサンプリングする。その後、DeWaveと呼ばれるAIモデルが脳波を言語に変換し、スクリーンに映し出す。 全体のプロセスには少しSF的な雰囲気があり、特にバックグラウンドミュージックは「インターステラー」を思い起こさせます。 この研究は今年の NeurIPS カンファレンスの注目論文に選ばれており、研究チームはシドニー工科大学の GrapheneX-UTS (人間中心の人工知能センター) に所属しています。 UTS コンピュータサイエンス学部の特別教授であり、GrapheneX-UTS HAI センター所長でもある Chin-Teng Lin 教授は、この研究は生の脳波を直接言語に変換する画期的な取り組みであり、この分野における大きな進歩となると述べました。 「これは、離散エンコーディング技術を脳からテキストへの翻訳プロセスに組み込んだ初の方法であり、革新的なニューラルデコーディング方法を導入するものであり、大規模な言語モデルとの統合により、神経科学と人工知能の新たな分野も開拓されます。」 ——幸い、AIはヘッドギアを装着して、人間の考えを「聞く」ことができる。遠くから考えを捉えられると困る。 もし私がこのテストを受けるとしたら、おそらくかなりストレスを感じるでしょう。 ——結局、黙読することが頭の中で考えていることと同じなのかはわかりません。頭の中で考えていることなどもAIが読み上げてくれるのでしょうか? 編集者はホーキング博士のことを考えずにはいられませんでした。おそらくどこかのパラレルワールドで、彼もそのような BrainGPT を使用できるかもしれません。 では私はどうでしょうか?まだコンピューターの画面に向かってキーボードで入力する必要がありますか?必要なし!私がしなければならないのは、ベッドに横になって頭を使ってこの授業を受けることだけです。 この研究では、モデルが脳波信号をさまざまな単位に分割し、そこから特定の特徴とパターンを捉えます。 DeWave モデルは、大量の EEG データから学習することで、EEG 信号を単語や文章に変換する能力を獲得します。 BrainGPT は、病気や怪我 (脳卒中、麻痺など) により話すことができない人のコミュニケーションを支援するだけでなく、バイオニック アームやロボットの操作など、人間と機械間のシームレスなコミュニケーションも可能にします。 脳の信号を言語に変換するこれまでの技術では、脳に電極を埋め込む手術(マスク氏のニューラリンクなど)か、MRI装置でのスキャンが必要だった。 前者は侵襲的であり、後者はかさばり、高価で、日常生活で使用するのが困難です。 さらに、これらの方法では通常、脳の信号を単語レベルの断片に変換するために視線追跡などの追加の補助ツールが必要ですが、BrainGPT にはこの制限はありません。 この研究では29人の参加者がテストを受けました。脳波は人によって異なるため、BrainGPT が実証したデコード技術はより強力で適応性に優れています。 もちろん、この外部デバイスを介して受信される EEG 信号は、脳に埋め込まれた電極によって受信される信号よりもノイズが多くなりますが、翻訳結果から判断すると、精度はかなり良好です。 BrainGPT の BLEU-1 における翻訳精度スコアは現在約 40% です。 (BLEU スコアは、機械翻訳されたテキストが一連の高品質の参照翻訳とどの程度類似しているかを測定する 0 から 1 までの数値です。) 研究者たちは、このシステムが将来的には従来の言語翻訳や音声認識プログラムに匹敵する約90パーセントの精度を達成できると考えている。 論文の著者らは、現在のモデルは動詞のマッチングには優れているが、名詞に関しては精度が十分ではない可能性があると考えている。これは、意味的に類似した単語は、脳がそれらの単語を処理するときに同様の脳波パターンを生成する可能性が高いためです。 論文の詳細この論文では、個別のエンコードシーケンスをオープン語彙の EEG からテキストへの翻訳タスクに統合する新しいフレームワーク DeWave を紹介しています。 DeWave は量子化された変分エンコーダーを使用して離散エンコーディングを導出し、それらを事前トレーニング済みの言語モデルと整合させます。 この離散表現には 2 つの利点があります。1) テキストと EEG のコントラストの調整トレーニングを導入することで、ラベルのない元の波の変換が実現されます。2) 不変の離散エンコーディングにより、EEG 波の個人差によって引き起こされる干渉が軽減されます。 DeWave は、離散コーディングを使用して、生の EEG からテキストへの変換を実現する最初の研究であり、自己教師付き波形コーディング モデルと対照学習ベースの EEG からテキストへのアライメントを導入して、エンコード機能を向上させています。 ZuCo データセットを使用したテストでは、DeWave モデルは BLEU-1 スコア 41.35、Rouge-F スコア 33.71 を達成しました。これは、それぞれ以前のベースラインより 3.06% と 6.34% 高い値です。 さらに、この論文では初めて、単語レベルの連続マーカー(視線など)なしで EEG 信号サイクル全体の翻訳をテストし、それぞれ 20.5(BLEU-1)と 29.5(Rouge-1)を達成しました。 研究方法DeWave のプロセス全体を下の図に示します。元の EEG 特徴は埋め込みシーケンスにベクトル化され、離散エンコーディングに送信されます。言語モデルは、離散エンコーディング表現に基づいて翻訳出力を生成します。 DeWave モデル構造では、単語レベルの EEG 機能、または生の EEG 波形を埋め込みにベクトル化し、ベクトル化された機能を潜在変数にエンコードし、インデックス付けによって離散エンコードに変換します。最後に、事前トレーニング済みの BART モデルがこの離散的にエンコードされた表現をテキストに変換します。 単語レベルの EEG 特徴のシーケンス E が与えられた場合、目標は対応するオープン語彙のテキスト トークン W をデコードすることです。これらの EEG テキスト ペア (E、W) は、自然な読書中に収集されました。 ここでは2つのトレーニングタスクが設定されている:(1)単語レベルのEEGからテキストへの翻訳。ここでは、EEG特徴シーケンスEがセグメント化され、シーケンスW内の各単語のタグに従って並べ替えられる。 (2)生のEEGからテキストへの翻訳。EEG特徴シーケンスEは、イベントラベル付けなしで翻訳のために埋め込みシーケンスに直接ベクトル化されます。 離散エンコーディングDeWave は、EEG 信号表現に離散コーディングを導入した最初の研究です。 離散表現は、単語レベルの EEG 機能と生の脳波変換に役立ちます。脳波に離散コーディングを導入すると、次の 2 つの利点がもたらされます。 まず、EEG の特徴は、さまざまな被験者間でデータ分布が大きく異なります。同時に、データ収集の費用により、データセットには少数の被験者からのサンプルしか含めることができず、EEG ベースのディープラーニング モデルの一般化能力が大幅に弱まります。 離散コーディングを導入することで、入力のばらつきを大幅に軽減できます。 2 番目に、エンコーディングに含まれる時間的プロパティが少なくなるため、イベント マーカー (視線の固定など) と言語出力間の順序の不一致の問題を軽減できます。 EEGベクトル化イベント ラベル付きの単語レベルの EEG 特徴を取得するには、まず、注釈に指定された単語シーケンスの視線追跡ラベルに従って EEG 波をスライスします。 ここでは、4 つの周波数帯域フィルター (シータ帯域 (5-7Hz)、アルファ帯域 (8-13Hz)、ベータ帯域 (12-30Hz)、ガンマ帯域 (30Hz-)) の統計結果を計算し、各セグメントの統計周波数特性を取得します。 異なるクリップには異なる EEG ウィンドウ サイズがある場合がありますが、統計結果は同じ (埋め込みサイズ 840) であることに注意することが重要です。 マルチヘッド Transformer レイヤーを適用して、埋め込みをサイズ 512 の特徴シーケンスに投影します。 自己教師あり EEG エンコーダーを使用して、生の EEG 信号を一連の埋め込みに変換します。 上の図は、元の波の自己教師あり事前トレーニング プロセスを示しています。左のサブ図は、対照学習による自己再構築とテキスト配置を活用してエンコーダーをガイドする戦略の詳細を示しています。 ここでは 2 つの指針があります。1 つは自己再構築で、これはエンコーダーの機能をトレーニングすると同時に、離散コードから元の波形を再構築します。 もう 1 つはテキストの配置で、エンコーディングが単語ベクトルと意味的に配置されます。 構造的には、特別に設計されたハイパーパラメータを持つ多層一貫性ベースのエンコーダーが採用されています。 1 次元畳み込み層を使用して EEG 波を処理し、埋め込みシーケンスを生成し、その後、EEG チャネルを各サイクルごとに固有の埋め込みに融合します。ここでは、時間的な関係をキャプチャするために、双方向の Transformer 注意レイヤーがシーケンスに適用されます。 このようにして、モデルは EEG 信号を再構築することを学習するだけでなく、対応するテキスト埋め込みと一致する信号の堅牢な表現も学習します。 このクロスモーダル学習により、EEG 信号とテキストの意味内容の間のギャップを埋め、翻訳システムを改善できます。 実験結果DeWave は ZuCo 1.0 および 2.0 で実験します。このデータセットは、通常の読み取り (NR) タスクとタスク固有の読み取り (TSR) タスク中にテキストと EEG コーパスを同時に記録します。 EEG は、0.1 Hz から 100 Hz の周波数帯域フィルターを介して 500 Hz のサンプリング レートで 128 チャンネル システムを使用して収集されました。ただし、ノイズ低減後は、翻訳に使用されるチャネルは 105 個のみになります。 実験では、視線に応じて脳波をスライスし、周波数特性を算出しました。生の EEG の場合、信号はデコードのために 0 ~ 1 の値の範囲に正規化されました。 読み取りタスクのデータは、トレーニング (80%)、開発 (10%)、テスト (10%) に分かれており、それぞれ 10,874、1,387、1,387 の文があり、重複はありません。 ここでは、上の表に示すように、NLP 指標 BLEU と ROUGE を使用して翻訳パフォーマンスを評価します。 単語レベルの EEG 機能の場合、一貫した言語モデルを維持するために、結果が EEG からテキストへの変換と比較されます。 生の EEG を処理する方法がないため、200 ミリ秒の時間ウィンドウと 100 ミリ秒のオーバーラップを使用して EEG 全体をシーケンス埋め込みに分割することにより、ベースライン (EEG からテキスト) を確立しました。 この実験では、もともと音声認識用に開発された Wave2Vec を脳波に適応させ、DeWave と比較しました。 さらに、この実験では、比較のために SSL 事前トレーニングと特徴抽出を使用し、教師なしの生の EEG 分類方法である BENDR と SCL も使用して、離散コーディングの影響を強調しています。 実際のアプリケーションでは学際的なパフォーマンスが非常に重要であるため、ここではベースライン手法と代表的なメタ学習手法 MAML との比較もさらに示します。 上記の表は 18 人の被験者の平均パフォーマンスを示しており、指標が低いほど優れています。 DeWave モデルは、両方の設定 (直接テストと MAML の使用) で優れたパフォーマンスを示していることがわかります。 異なる被験者間のパフォーマンスの違いをさらに説明するために、被験者 YAG のデータのみを使用してモデルのトレーニングを行い、他のすべての被験者の指標をテストします。 結果は上の図に示されています。レーダーチャートから、モデルのパフォーマンスはさまざまな対象に対して比較的安定していることがわかります。 |
データの前処理は、機械学習モデルを構築する際の最初の (そしておそらく最も重要な) ステップであり、...
スティーブ・ジョブズはかつて、世間では「スティーブ・ジョブズの質問」と呼ばれている、と発言しました。...
Docker ネットワーク管理は、コンテナをホストに接続し、Docker コンテナ環境での通信とネッ...
コードに特化した Code Llama が登場したとき、誰もが、誰かがコードを定量化してスリム化し、...
今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...
遠隔医療の普及に伴い、便利で効率的な医療サポートを求める患者にとって、オンライン医療相談が第一の選択...
スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...
人工知能は、過去 10 年間にわたって年間を通じて最もホットな話題の 1 つとなっています。そして、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[273088]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[390709]]近年、自動機械学習(AutoML)は、モデル構造やトレーニング戦略など、多くのデ...
[[323254]]ちょうど今、Facebook と AWS は PyTorch の 2 つのメジ...
自動化およびオーケストレーション ネットワーク ツールは、人間のオペレーターよりも高速かつ正確にタス...