初めて、脳コンピューターインターフェースが人間の音声をリアルタイムで読み取ることができるようになった

初めて、脳コンピューターインターフェースが人間の音声をリアルタイムで読み取ることができるようになった

私たちが思考だけを使って入力したりチャットしたり、コンピューターに命令を出したりできるようになる日もそう遠くないだろう。本日、Facebook とカリフォルニア大学サンフランシスコ校 (UCSF) は、脳コンピューターインターフェース研究の最新の進展を発表し、その論文は Nature 誌の子会社である Nature Communications の最新号に掲載されました。

「本日、私たちは、人々が言いたいことを想像するだけで入力できる、非侵襲性のウェアラブルデバイスの構築に関する新たな取り組みを発表します」と、フェイスブックのコミュニケーション担当副社長アンドリュー・ボズワースは語った。 「この開発は、将来の AR ヘッドセットの入力およびインタラクション機能の新たな可能性を示しています。」

この研究は、会話中に人々が生成する脳の活動を、リアルタイムでコンピューター画面上のテキストにデコードできることを実証しています。これまで、このような作業はオフラインで行われていました。テキストのリアルタイム「翻訳」は、脳コンピューターインターフェース研究の分野では初めてのことです。研究者らによると、彼らのアルゴリズムは今のところ少数の単語やフレーズしか認識できないが、現在進行中の研究はより多くの単語を翻訳し、認識エラー率を大幅に削減することを目指しているという。

[[272367]]

この研究の主著者は、UCSFの准教授エドワード・F・チャン氏と博士研究員のデビッド・A・モーゼス氏です。

新たな研究で示された可能性は、まだ我々の手には程遠いかもしれない。フェイスブックはその後公開された公式ブログで、「さらに10年かかるかもしれないが、その差は縮まると考えている」と述べた。

Facebook と UCSF の研究は、リアルタイムの脳活動で意図的な発話を検出することにより、神経損傷を負った患者が普通の人と同じようにコミュニケーションできるようにすることを目指しています。興味深いことに、脳内の神経電流を検出する多くの方法とは異なり、Facebook と UCSF が検討している戦略は、パルスオキシメトリーを使用してニューロンによる酸素消費量、ひいては脳の活動を検出するというものです。この間接的で非侵襲的なアプローチは、はるかに安全であると思われます。

[[272368]]

2017年、Facebook Reality Labの脳コンピューターインターフェースプロジェクトの研究ディレクター、マーク・シェビレット氏は、非侵襲的技術を使用して人間の脳から1分間に100語を読み取ることが実現可能であることを証明するために2年を費やした。

2年後、結果が出ました。「まだ期待はあります」とシェビレット氏は言います。「これは実現可能だと私たちは考えています。」彼はプロジェクトを前進させるつもりです。チームの最終的な目標は、声を出さずに制御できる AR ヘッドセットを開発することです。

カリフォルニア大学サンフランシスコ校の神経外科医で論文著者の一人であるエドワード・チャン氏は、この研究結果は脳卒中や脊髄損傷などにより発話能力を失った人々が正常なコミュニケーションを取り戻すのに役立つ神経インプラントの実現に向けた重要な一歩であると述べた。 4月にチャン氏のチームは、脳信号から直接音声を解読できる別の脳コンピューターインターフェースを構築した。

デコード精度を向上させる秘訣:コンテキストの追加

今回発表された研究の目的は、脳活動の解読精度を向上させることです。研究者らは、脳の2つの異なる部分から2種類の情報を解読し、それを文脈として利用しており、それが解読の精度に大きな影響を与えているという。

デコード精度の向上は、コンテキストを追加するという単純な概念に基づいています。研究者らは、てんかん患者3人の脳に埋め込まれた電極を使用して、録音された一連の質問を聞いてもらい、その後、聞いた内容を声に出して言ってもらう際の脳の活動を記録しました。


その後、研究者たちはこの脳データを用いて機械学習アルゴリズムを訓練しました。その後、参加者が再度質問に答えるよう求められたとき、アルゴリズムは脳の活動のみを使用して、参加者が聞いているのか話しているのかを判断し、音声を解読しようとしました。

ほとんどの音声デコーダーは、人が何を言いたいのかを推測することで機能するため、通常の脳のデコーダーは「シンセサイザー」や「肥料」などの似た発音の単語に混乱する可能性があります。

しかし、この記事で説明する新しいシステムでは、混同されやすいコンテンツを区別するためのコンテキストが追加されています。まず、アルゴリズムは、既知の質問のセットから「畑に何を蒔きましたか?」などの質問を予測します。この情報は、答え「肥料」を予測するための文脈として使用されます。

質問(青)と回答(赤)のタスクにおけるリアルタイム音声デコードの概略図。

チャン氏は、文脈を追加することで、脳コンピューターインターフェースが答えを予測しやすくなるだろうと語る。特定の制限された一連の質問と回答を使用することで、システムは、知覚された(聞いた)音声と生成された(話された)音声をそれぞれ 76% と 61% の精度で解読することができました。しかし、チームは将来的にシステムの語彙を拡張したいと考えている。

また、アルゴリズムが優れているほど、コンピューターが高速化し、デコード速度も速くなるとも述べた。かつてはオフラインで処理するのに数週間、あるいは数か月かかっていたものが、今ではリアルタイムで実行できるようになりました。

Facebook vs. Neuralink:脳コンピューターインターフェースへの2つの異なるアプローチ

フェイスブックが脳コンピューターインターフェースの新たな進歩について控えめに発表したことは、マスク氏がつい最近、自身の脳コンピューターインターフェース企業ニューラリンクにおける新たな進歩について大々的に発表したこととは全く対照的だ。

[[272370]]

Neuralinkは脳コンピューターインターフェース「ミシン」をリリースした。  

マスク氏の侵襲的BCIとは異なり、Facebookは赤外線を利用して外部から脳信号を受信するARヘッドセットの開発を目指している(技術的な詳細についてはFacebookのブログを参照)。一方、Neuralinkは脳機能を強化するために3,000個の柔軟な電極の埋め込み型アレイを開発している。

2つの異なる開発モデルは、脳の活動を解読できる商業的な脳コンピューターインターフェースを最初に提供するために両社が競争していることを示しているようだ。ただし、この目標を達成するには時間がかかる可能性があり、一夜にして達成できるものではありません。

「この技術はまだ研究の初期段階にあるため、実際の製品計画はありません」とシェビレット氏は語った。

その間、チャンさんは、すぐに話すことができない患者たちに有意義な変化をもたらしたいと願っている。現在まで、チームのすべての作業は、話すことができるボランティアによって行われてきました。そこで研究チームは、言語能力を失った一人の研究参加者と協力して、コンピューター画面上に関連するテキストを生成する作業を1年かけて行う予定だ。

すべてのデータは UCSF によって収集され、厳重な機密性を保ちながら学校のサーバーに保存されます。同時に、Facebook との共同研究で得られたすべての研究成果は公開され、学術コミュニティに公開されます。 「これが私たちが行っている研究だけでなく、この分野全体に利益をもたらすことを願っています」とチャン氏は強調した。

中国教授チーム

この研究のほとんどは UCSF で行われました。カリフォルニア大学サンフランシスコ校の中国系アメリカ人科学者エドワード F. チャンのチームは、近年、脳コンピューターインターフェースの研究でよく知られるようになりました。今年4月、人工知能を使って脳の電気信号を識別し、それを合成音声として出力する研究チームの研究成果が、ネイチャー誌に掲載された。

[[272371]]

エドワード・チャン教授。

エドワード・チャンは、カリフォルニア大学サンフランシスコ校の脳神経外科および生理学の准教授です。彼の研究は、人間の言語、運動、認知の脳のメカニズムに焦点を当てています。彼はまた、カリフォルニア大学バークレー校とカリフォルニア大学サンフランシスコ校の神経工学および義肢センターの共同所長も務めています。

本日発表された研究結果は、UCSF のより大規模な研究プロジェクトである Project Steno の一部です。報道によると、プロジェクト・ステノの最終段階では、人間が脳の活動を利用して障害者のコミュニケーション能力を回復できるかどうかを判定する1年間の研究が行われる予定だ。資金提供に加え、Facebook の研究者の小規模チームがチャン氏と彼の研究室と直接協力してエンジニアリング サポートを提供しています。

拡張現実技術のビジョンは、人々を互いに、そして世界とシームレスに結びつけ、携帯電話の画面に目を向けなくてもコミュニケーションできるようにすることです。これは未来的な方法となるでしょう。近い将来、脳からリアルタイムでテキストを読み取る能力が私たちの日常生活の一部になるかもしれません。

<<:  AIがビールの品質をコントロールするので、コスト効率と信頼性が高まります。

>>:  クアルコム:米国は自動運転技術の標準化で中国に遅れをとる可能性

ブログ    
ブログ    
ブログ    

推薦する

...

テンセント AI ラボが初の自動モデル圧縮フレームワークのソースを公開: ディープラーニングをポケットに

テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「P...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

[[240152]]人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意...

BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

12月20日、2023年百度クラウドインテリジェンスカンファレンスおよびインテリジェントコンピューテ...

どこにでもAI?小売業における 10 のエキサイティングな AI アプリケーション

[[311856]]小売業における当社の中核的な経験は、近年ほとんど変わっていません。店舗(またはオ...

ジェフ・ディーンが2020年の機械学習のトレンドについて語る:マルチタスクとマルチモダリティが大きく進歩する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米軍のAIブラックテクノロジー:暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか?

[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...

人工知能は企業で実用化されつつある

AI は、従来のプロセスや従来のテクノロジーにまき散らされた魔法の精霊ではなく、ビジネスのやり方を根...

...

人々は長い間、運転免許試験に悩まされてきました。自動運転は、その苦しみを緩和できるのでしょうか?

運転するには運転免許証を持っていることが前提条件であり、運転免許証を取得するには運転免許試験を受ける...

世界のAI支出は2024年に1100億ドルに達すると予想

人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...

防衛とセキュリティの再定義に貢献するAIスタートアップ

人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために...

毎日のアルゴリズム: スパイラルマトリックス

[[431971]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

2021 年のサイバーセキュリティにおける人工知能のトレンドは何ですか?

研究によると、人工知能技術はサイバーセキュリティの脅威やデータ侵害を防ぐ上で非常に重要です。人工知能...