初めて、脳コンピューターインターフェースが人間の音声をリアルタイムで読み取ることができるようになった

私たちが思考だけを使って入力したりチャットしたり、コンピューターに命令を出したりできるようになる日もそう遠くないだろう。本日、Facebook とカリフォルニア大学サンフランシスコ校 (UCSF) は、脳コンピューターインターフェース研究の最新の進展を発表し、その論文は Nature 誌の子会社である Nature Communications の最新号に掲載されました。

「本日、私たちは、人々が言いたいことを想像するだけで入力できる、非侵襲性のウェアラブルデバイスの構築に関する新たな取り組みを発表します」と、フェイスブックのコミュニケーション担当副社長アンドリュー・ボズワースは語った。「この開発は、将来の AR ヘッドセットの入力およびインタラクション機能の新たな可能性を示しています。」

この研究は、会話中に人々が生成する脳の活動を、リアルタイムでコンピューター画面上のテキストにデコードできることを実証しています。これまで、このような作業はオフラインで行われていました。テキストのリアルタイム「翻訳」は、脳コンピューターインターフェース研究の分野では初めてのことです。研究者らによると、彼らのアルゴリズムは今のところ少数の単語やフレーズしか認識できないが、現在進行中の研究はより多くの単語を翻訳し、認識エラー率を大幅に削減することを目指しているという。

[[272367]]

この研究の主著者は、UCSFの准教授エドワード・F・チャン氏と博士研究員のデビッド・A・モーゼス氏です。

新たな研究で示された可能性は、まだ我々の手には程遠いかもしれない。フェイスブックはその後公開された公式ブログで、「さらに10年かかるかもしれないが、その差は縮まると考えている」と述べた。

Facebook と UCSF の研究は、リアルタイムの脳活動で意図的な発話を検出することにより、神経損傷を負った患者が普通の人と同じようにコミュニケーションできるようにすることを目指しています。興味深いことに、脳内の神経電流を検出する多くの方法とは異なり、Facebook と UCSF が検討している戦略は、パルスオキシメトリーを使用してニューロンによる酸素消費量、ひいては脳の活動を検出するというものです。この間接的で非侵襲的なアプローチは、はるかに安全であると思われます。

[[272368]]

2017年、Facebook Reality Labの脳コンピューターインターフェースプロジェクトの研究ディレクター、マーク・シェビレット氏は、非侵襲的技術を使用して人間の脳から1分間に100語を読み取ることが実現可能であることを証明するために2年を費やした。

2年後、結果が出ました。「まだ期待はあります」とシェビレット氏は言います。「これは実現可能だと私たちは考えています。」彼はプロジェクトを前進させるつもりです。チームの最終的な目標は、声を出さずに制御できる AR ヘッドセットを開発することです。

カリフォルニア大学サンフランシスコ校の神経外科医で論文著者の一人であるエドワード・チャン氏は、この研究結果は脳卒中や脊髄損傷などにより発話能力を失った人々が正常なコミュニケーションを取り戻すのに役立つ神経インプラントの実現に向けた重要な一歩であると述べた。 4月にチャン氏のチームは、脳信号から直接音声を解読できる別の脳コンピューターインターフェースを構築した。

デコード精度を向上させる秘訣：コンテキストの追加

今回発表された研究の目的は、脳活動の解読精度を向上させることです。研究者らは、脳の2つの異なる部分から2種類の情報を解読し、それを文脈として利用しており、それが解読の精度に大きな影響を与えているという。

デコード精度の向上は、コンテキストを追加するという単純な概念に基づいています。研究者らは、てんかん患者3人の脳に埋め込まれた電極を使用して、録音された一連の質問を聞いてもらい、その後、聞いた内容を声に出して言ってもらう際の脳の活動を記録しました。

その後、研究者たちはこの脳データを用いて機械学習アルゴリズムを訓練しました。その後、参加者が再度質問に答えるよう求められたとき、アルゴリズムは脳の活動のみを使用して、参加者が聞いているのか話しているのかを判断し、音声を解読しようとしました。

ほとんどの音声デコーダーは、人が何を言いたいのかを推測することで機能するため、通常の脳のデコーダーは「シンセサイザー」や「肥料」などの似た発音の単語に混乱する可能性があります。

しかし、この記事で説明する新しいシステムでは、混同されやすいコンテンツを区別するためのコンテキストが追加されています。まず、アルゴリズムは、既知の質問のセットから「畑に何を蒔きましたか？」などの質問を予測します。この情報は、答え「肥料」を予測するための文脈として使用されます。

質問（青）と回答（赤）のタスクにおけるリアルタイム音声デコードの概略図。

チャン氏は、文脈を追加することで、脳コンピューターインターフェースが答えを予測しやすくなるだろうと語る。特定の制限された一連の質問と回答を使用することで、システムは、知覚された（聞いた）音声と生成された（話された）音声をそれぞれ 76% と 61% の精度で解読することができました。しかし、チームは将来的にシステムの語彙を拡張したいと考えている。

また、アルゴリズムが優れているほど、コンピューターが高速化し、デコード速度も速くなるとも述べた。かつてはオフラインで処理するのに数週間、あるいは数か月かかっていたものが、今ではリアルタイムで実行できるようになりました。

Facebook vs. Neuralink:脳コンピューターインターフェースへの2つの異なるアプローチ

フェイスブックが脳コンピューターインターフェースの新たな進歩について控えめに発表したことは、マスク氏がつい最近、自身の脳コンピューターインターフェース企業ニューラリンクにおける新たな進歩について大々的に発表したこととは全く対照的だ。

[[272370]]

Neuralinkは脳コンピューターインターフェース「ミシン」をリリースした。

マスク氏の侵襲的BCIとは異なり、Facebookは赤外線を利用して外部から脳信号を受信するARヘッドセットの開発を目指している（技術的な詳細についてはFacebookのブログを参照）。一方、Neuralinkは脳機能を強化するために3,000個の柔軟な電極の埋め込み型アレイを開発している。

2つの異なる開発モデルは、脳の活動を解読できる商業的な脳コンピューターインターフェースを最初に提供するために両社が競争していることを示しているようだ。ただし、この目標を達成するには時間がかかる可能性があり、一夜にして達成できるものではありません。

「この技術はまだ研究の初期段階にあるため、実際の製品計画はありません」とシェビレット氏は語った。

その間、チャンさんは、すぐに話すことができない患者たちに有意義な変化をもたらしたいと願っている。現在まで、チームのすべての作業は、話すことができるボランティアによって行われてきました。そこで研究チームは、言語能力を失った一人の研究参加者と協力して、コンピューター画面上に関連するテキストを生成する作業を1年かけて行う予定だ。

すべてのデータは UCSF によって収集され、厳重な機密性を保ちながら学校のサーバーに保存されます。同時に、Facebook との共同研究で得られたすべての研究成果は公開され、学術コミュニティに公開されます。「これが私たちが行っている研究だけでなく、この分野全体に利益をもたらすことを願っています」とチャン氏は強調した。

中国教授チーム

この研究のほとんどは UCSF で行われました。カリフォルニア大学サンフランシスコ校の中国系アメリカ人科学者エドワード F. チャンのチームは、近年、脳コンピューターインターフェースの研究でよく知られるようになりました。今年4月、人工知能を使って脳の電気信号を識別し、それを合成音声として出力する研究チームの研究成果が、ネイチャー誌に掲載された。

[[272371]]

エドワード・チャン教授。

エドワード・チャンは、カリフォルニア大学サンフランシスコ校の脳神経外科および生理学の准教授です。彼の研究は、人間の言語、運動、認知の脳のメカニズムに焦点を当てています。彼はまた、カリフォルニア大学バークレー校とカリフォルニア大学サンフランシスコ校の神経工学および義肢センターの共同所長も務めています。

本日発表された研究結果は、UCSF のより大規模な研究プロジェクトである Project Steno の一部です。報道によると、プロジェクト・ステノの最終段階では、人間が脳の活動を利用して障害者のコミュニケーション能力を回復できるかどうかを判定する1年間の研究が行われる予定だ。資金提供に加え、Facebook の研究者の小規模チームがチャン氏と彼の研究室と直接協力してエンジニアリングサポートを提供しています。

拡張現実技術のビジョンは、人々を互いに、そして世界とシームレスに結びつけ、携帯電話の画面に目を向けなくてもコミュニケーションできるようにすることです。これは未来的な方法となるでしょう。近い将来、脳からリアルタイムでテキストを読み取る能力が私たちの日常生活の一部になるかもしれません。

<<: AIがビールの品質をコントロールするので、コスト効率と信頼性が高まります。

>>: クアルコム：米国は自動運転技術の標準化で中国に遅れをとる可能性