未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

4月23日、海外メディアの報道によると、カリフォルニア大学サンフランシスコ校の研究チームが開発した新しい人工知能システムは、人間の脳信号に基づいて最大97%の精度でテキストを生成できるという。 AmazonやGoogleなどのテクノロジー企業が開発した仮想アシスタントは非常に先進的で、音声認識機能は数年前と比べて劇的に向上していますが、人々がその威力を理解し始めたのはここ数年のことです。

しかし実際には、さらに驚くべき、奇妙な技術的マイルストーンが近づいているかもしれない。人間の脳の活動に基づいて単語を一語も聞かずに完全なテキストを生成できる強力な人工知能 (AI) システムにより、音声認識技術ははるかに上回ります。

これはまさにSFから出てきた概念ではありません。ここ数十年で、動物モデルから人間の被験者に至るまで、脳コンピューターインターフェース技術の発展は急速に進んでいます。実際、この種のテクノロジーはすでにこの概念を空想から現実に変えようとしています。

[[323428]]

カリフォルニア大学サンフランシスコ校の研究者らは新たな研究で、現時点ではこの技術を使って人間の脳の信号をテキストに変換した結果はあまり正確ではないと説明した。

これを改善できるかどうかを調べるために、UCSFの神経外科医エドワード・チャンの研究室の神経外科教授エドワード・チャンが率いるチームは、脳に埋め込まれた電極を通じて得られる皮質活動によって生成される電気インパルスの記録である皮質電気図(ECG)を解読する新しいアプローチを使用しました。

この研究では、てんかん患者4人がインプラントを使用して、てんかんによる発作を監視した。研究チームは副次的な実験も行った。参加者に事前に用意した文章を声に出して繰り返し読んでもらい、その間に電極を使って脳の活動を記録した。

このデータはニューラルネットワークに送られ、実験の音声録音に基づいて、母音、子音、口の形などの特定の発話特徴に対応する脳活動のパターンが分析されました。

次に、別のニューラル ネットワークがこれらの脳表現 (被験者が 30 ~ 50 の文章を繰り返し声に出して読む際の脳活動データ) を解読し、単語を読んだときに生成される皮質信号に基づいて被験者が何を言ったかを予測しようとしました。

最良のケースでは、システムは参加者の脳信号を単語誤り率(WER)わずか3%でテキストに変換しました。これは、少なくともこれらの厳しく制限された実験条件下では、人間の思考を読み取るAIのこれまでの最高のパフォーマンスに近い可能性があります。

研究論文の中で、研究チームは、参加者が読んだ参照文とニューラルネットワークによって生成された「予測」の多くの例を詳しく示した。それらの予測は時々間違っていましたが、常にそうだったわけではありません。しかし、非常に明白なエラーから判断すると、それらは人間の耳が音声を聞くときに犯すエラーとは大きく異なるようです(これは、AI に導入されたデータセットが限られていることが原因である可能性があります)。

ニューラル ネットワークによって発生したエラーの例には、次のようなものがあります。「博物館は毎晩ミュージシャンを雇っています」が「博物館は毎朝高価なミュージシャンを雇っています」と予測されたこと、「ケーキの一部は犬に食べられました」が「ケーキの一部はクッキーでした」と予測されたこと、「ティナ ターナーはポップ シンガーです」が「ダイド ターナーはポップ シンガーです」と予測されたことなどです。

最悪の例では、ニューラル ネットワークのエラーは完全に説明がつかず、音声的にも意味的にも実際の文と何の関係もありませんでした。「彼女は暖かいウールのオーバーオールを着ていた」が「オアシスは蜃気楼だった」と予測されました。

しかし、研究チームは、これらの明らかな誤りにもかかわらず、このシステムは、単語誤り率が最高でわずか5%であり、専門家による人間の音声書き起こしに匹敵する、AIベースの脳活動解読における新たな最先端技術を確立する可能性があると述べている。

もちろん、日常会話に対応するプロの文字起こし担当者は、数万語の語彙を持っていなければなりません。対照的に、このシステムは限られた数の短い文章から約 250 語の皮質特徴しか学習できないため、両者を比較するのは公平ではありません。

克服すべきハードルはまだ多くあるが、研究チームはこのシステムにより、話す能力を失った人々がいつか再び話せるようになるかもしれないと信じている。もしこのようなことが可能であれば、一部の人々に周囲の世界とコミュニケーションをとる手段を提供することになり、大きな影響を与える可能性があり、その影響は現在人々が想像しているよりもはるかに大きくなる可能性があります。

研究論文の著者らは、「慢性的にインプラントを使用している被験者の場合、利用可能なトレーニングデータの量は、この研究で使用された約30分間の音声よりも数桁多いため、入力言語の語彙と表現の柔軟性が大幅に向上することになる」と説明している。

この研究の結果はNature Neuroscience誌に掲載された。

<<:  AIは新型コロナウイルスという「ブラックスワン」をいかにして「飼いならす」ことができるのか?

>>:  Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明

ブログ    
ブログ    
ブログ    

推薦する

人工知能:顔認識技術の応用シナリオの紹介

1. シーン分類 顔認識:セキュリティ監視認識、顔アクセス制御、有名人の顔、VIP ID認識など。人...

人工知能の未来を見据えて:2020年のAIの8つの主要トレンド

人工知能は、最も急速に成長し、最も予測不可能な産業の 1 つです。ディープラーニング、AI 駆動型機...

AIは物理的なセキュリティ運用に高度な分析を活用しています

人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...

Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創...

...

...

TensorFlow とオートエンコーダー モデルを使用して手書き数字を生成する方法

[[209419]]オートエンコーダーは、入力データを効率的にエンコードする方法を学習するために使用...

マイクロソフトの動画編集ツールClipchampには、AI自動作成やAIテキスト読み上げなどの新機能が搭載されている。

IT Homeは12月12日、マイクロソフトが2021年にウェブベースの使いやすいビデオ編集ツール...

9つの主要テーマ!機械学習アルゴリズム理論に関する面接の質問の要約

[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...

目から涙が溢れてきました!ビクーニャのデジタルツインは10年前の自分を再現し、10年間の対話は数え切れないほどの人々に影響を与えた

Reddit のネットユーザーが何か新しいことをやっている。彼は、自身のオンラインフットプリントデー...

2021年、AIはどんな未来を迎えるのでしょうか?

人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...

LLM で会話インターフェースを設計するにはどうすればいいですか?

著者:ヴァルン・シェノイ編纂者:王睿平大規模言語モデル (LLM) で構築されたテキスト ボックスの...

...

2021年のスマートシティの変革と再構築のトレンド

現代では、混沌とした賑やかな都市がどんどん増え、実際に「スマートシティ」の称号を競い合っています。そ...

ニューヨークタイムズの李開復のコラム:米国における中国のAIに関するいくつかの大きな誤解

米国のテクノロジー界では、中国における AI の現状について次のような誤解がよく見られます。彼らはし...