カリフォルニア大学バークレー校が脳コンピューターインターフェースで新たな進歩を遂げました！脳波で歌を再現できるなんて、言語障害を持つ人にとってはありがたい存在？

脳コンピューターインターフェースの時代では、毎日新しいものが生まれます。

今日、私が皆さんに紹介したいのは、「脳に埋め込まれた音楽」という 4 つの言葉です。

具体的には、まずAIを利用して、ある音楽が人の脳内でどのような電波を発生させるかを観察し、次に、この電波の活動を必要とする人の脳内で直接シミュレートすることで、特定の病気を治療するという目的を達成するというものです。

数年前のアルバニー医療センターに注目し、そこで神経科学者たちが何をしたかを見てみましょう。

言語の壁がある人にとって朗報です!

アルバニー医療センターでは、「Another Brick in the Wall」という曲がゆったりと流れ、病棟全体に響き渡った。

聞き手は医師ではなく、てんかん手術を受ける準備をしながら病院のベッドに横たわっている患者たちだった。

神経科学者たちが集まり、コンピューター画面上で患者の脳内の電極の活動を観察した。

主な観察は、音楽特有の何かを聞いた後に脳のいくつかの領域で生成される電極活動であり、記録された電極活動が聴いている音楽を再現できるかどうかを確認することです。

音楽に属するものとしては、音程、リズム、ハーモニー、歌詞などが挙げられます。

この研究は10年以上にわたって実施されました。カリフォルニア大学バークレー校の神経科学者らは、実験を受けたてんかん患者29人のデータの詳細な分析を行った。

結果は良好で、科学者たちは患者の脳内の電極の活動に基づいて音楽を再現することができた。

再現された歌の中で、歌詞の一つ「結局のところ、それは壁の中のレンガに過ぎなかった」のリズムは非常に完璧だ。歌詞はあまり明瞭ではないが、研究者らは解読可能であり、混乱はしていないと述べた。

この歌は、科学者が脳の電極活動を通じて歌を再現することに成功した初めての事例でもある。

結果は、脳波を記録して放出することで、いくつかの音楽要素と音節を捉えることができることを示しています。

専門用語では、これらの音楽要素は韻律とも呼ばれ、リズム、強勢、イントネーションなどを指します。これらの要素は言葉だけでは表現できません。

また、この頭蓋内脳波（iEEG）は脳の表面（聴覚中枢に最も近い部分）の活動のみを記録するため、友人は、この方法を使用して誰かが短期的にあなたが聞いている曲を盗み聞きすることを心配する必要はありません（笑）。

しかし、脳卒中を患ったり、麻痺したりしてコミュニケーションが困難な人にとっては、脳表面の電極からの活動を再現することで、楽曲の音楽性を再現するのに役立つ可能性がある。

明らかに、これは以前のロボットのような鈍い声の演奏よりもはるかに優れています。上で述べたように、言葉だけでは不十分なこともあります。私たちが聞くのは音色です。

これは注目すべき成果だと、ヘレン・ウィルス神経科学研究所の神経科学者であり、カリフォルニア大学バークレー校の心理学教授でもあるロバート・ナイト氏は言う。

「私にとって、音楽の魅力の一つは、その前奏とそれが表現する感情的な内容にあります。脳とコンピューターのインターフェースの分野では、継続的な進歩が見られ、この技術は、インプラントを通して音楽だけが提供できるものを、必要とする人々に提供することができます。聴衆には、ALS やてんかんの患者、つまり、言語出力神経に影響を与える病気を持つすべての人が含まれる可能性があります。」

「つまり、今私たちにできることは、言葉そのものだけではありません。音楽性に比べると、言葉で表現される感情というのは、少し薄いのかもしれません。この瞬間から、私たちは本当に解読の旅を始めたのだと思います。」

脳波記録技術が進歩するにつれ、将来的には脳を切らずに頭皮に電極を取り付けて記録できるようになるかもしれません。

ナイト氏は、現在の頭皮脳波計は、長い文字列から個々の文字を検出するなど、すでにある程度の脳活動を測定・記録できると述べた。 1 文字あたり少なくとも 20 秒かかったため、あまり効率的ではありませんでしたが、それは始まりでした。

頭皮電極の開発が活発に行われている理由は、現在の非侵襲技術がまだ十分に洗練されていないためです。つまり、開頭測定では 100% の安全性を保証することはできません。

しかし、頭皮電極の測定精度、特に脳の深部の測定精度は、まだ十分ではありません。私が言えるのは、それは成功したが、完全に成功したわけではないということだけです。

あなたは心を読むことができますか?

直接答えてください: いいえ。

例えば、発話障害のある人にとって、脳コンピュータインターフェース技術は「キーボード」を与えるのと同じことです。脳波の活動を捉えることで、この「キーボード」に入力して、表現したいことを表現することができます。

たとえば、ホーキング博士は、このような装置を使って脳波を捉え、ロボットのような音声を生成しました。

ここでの例えは理解できるはずです。この「キーボード」を見ただけでは、彼が何を考えているのか全く分かりません。現在の技術は彼が望んでいるものであり、「キーボード」が起動され、音声が出力されます。彼が考えなければ、「キーボード」は起動せず、彼が何を考えているのか分かりません。

つまり、心を読むことは機能しないのです。

実験的なコンテンツ

下の図の A は、実験で使用した曲の全体的な波形です。 A の下は曲の聴覚スペクトルで、上部のオレンジ色のバーは人間の声の存在を表しています。

図 B は患者の電極被覆の X 線写真を示しています。各ドットは電極を表します。

図 C は、図 B の 4 つの電極の電極信号です。さらに、この図には歌の刺激によって引き起こされる HFA (高周波活動) も示されており、これは 70 ～ 150 Hz の周波数の短い黒い線で表されています。

図 D は、A の曲の短い部分 (10 秒) の拡大された聴覚スペクトログラムと電極神経活動グラフです。 HFA の時間ポイントは、スペクトル図の各マークされた四角形の右側にある赤い線と一致していることがわかります。

これらの組み合わせは、研究者がエンコーディングモデルのトレーニングと評価に使用する例となります。

研究者の実験結果によると、下の図に示すように、デコードモデルで予測子として使用される電極の数と予測精度の間には対数関係があることが示されています。

たとえば、43 個の電極 (または 12.4%) を使用した場合、80% という最高の予測精度が達成されました (347 個の電極すべてを使用した場合、最高の予測精度が得られました)。

研究者たちは個々の患者において同様の関係を観察した。

さらに、研究者らはブートストラップ分析を通じて、データセットの期間と予測精度の間に同様の対数関係があることを観察しました（下の図を参照）。

たとえば、長さが 69 秒 (36.1%) のデータを使用すると、90% の最高のパフォーマンスを実現できます (曲全体の長さである 190.72 秒を使用すると、最高のパフォーマンスが得られます)。

モデルタイプに関しては、線形デコードの平均デコード精度は 0.325 であるのに対し、2 層の全結合ニューラルネットワークを使用した非線形デコードの平均デコード精度は 0.429 です。

全体的に、線形音楽の曲の再構成 (オーディオ S2) は、いくつかの音楽要素 (ボーカル音節とリードギターを参照) の存在を示す強いリズムの手がかりがあり、こもったように聞こえますが、他の要素の認識は限られている可能性があります。

非線形の曲の再構築 (Audio S3) は、線形の再構築と比較して、より豊かな詳細を備えた認識可能な曲を再現します。ピッチや音色などのスペクトル要素の知覚品質が大幅に向上し、音素の特徴がより明確に区別できるようになりました。線形再構成に存在する一部の認識盲点もある程度改善されます。

次の図に示すように:

そこで研究者らは、29人目の患者から採取した61個の電極を使って非線形モデルで歌を再現した。

これらのモデルは、すべての患者の電極に基づく線形再構成よりも優れたパフォーマンスを発揮しましたが、デコード精度は、すべての患者からの 347 個の電極を使用して得られた精度よりも低かったです。

知覚の面では、これらの単一患者ベースのモデルは、研究者が歌を識別できるほど十分に高いスペクトル時間の詳細を提供しました (オーディオ S4)。

同時に、一人の患者に基づく解読の下限を評価するために、研究者らは他の3人の患者の脳神経活動から歌を再構成した。この3人の患者の電極はそれぞれ23、17、10と少なく、前述の29番目の患者は61個の電極があり、電極密度も比較的低かった。もちろん、曲の応答領域もカバーしており、リニアデコードの精度も良好です。

再構築された波形（音声ファイル S5、S6、S7）では、研究者らは人間の声の一部を抽出しました。次に、オリジナルの曲とデコードされた曲のスペクトログラムを相関させ、デコードされた曲の認識可能性を定量化しました。

線形再構築 (下の図 A) と非線形再構築 (下の図 B) はどちらも、正しい認識率が高くなります。

さらに、研究者らは、347 個の重要な電極すべての STRF (スペクトル時間受容野) 係数を分析し、さまざまな音楽要素がさまざまな脳領域にどのようにエンコードされるかを評価しました。

この分析により、さまざまなスペクトル時間調整パターンが明らかになりました。

歌のスペクトログラムと神経活動の関係を包括的に特徴付けるために、研究者らはすべての重要な STRF に対して独立成分分析 (ICA) を実行しました。

研究者らは、スペクトルと時間の調整パターンが異なる 3 つのコンポーネントを発見しました。各コンポーネントは分散の 5% 以上を説明し、合計分散は 52.5% でした (下の図を参照)。

最初の要素 (説明分散 28%) は、HFA が観測される前の約 90 ミリ秒の狭い時間枠内で、約 500 Hz から 7000 Hz の広い周波数範囲にわたって分布する正の係数のクラスターを示しています。

この過渡的なクラスターは、音の開始のチューニングを示しています。この部分は発症部分と呼ばれ、下の図に示すように、両側 STG の後部の電極にのみ現れます。

最後に、研究者らは、今後の研究では電極の適用範囲を他の領域に拡大したり、モデルの機能やターゲットを変更したり、新たな行動の次元を追加したりする可能性があると述べている。

<<: ChatGPT は月間アクティブユーザー数が 15 億人に達し、他社を大きくリードしています。 50社が6か月間競争し、そのうち80％が自社で立ち上げた企業だった

>>: ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース？ユーザーの不満: 設定が古すぎる