新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話す能力を失った人々の才能を真に回復させることができるという。カリフォルニア大学サンフランシスコ校(UCSF)の神経科学者らは、脳の言語野からの信号を新しい2段階のプロセスで解釈する脳コンピューターインターフェースを開発した。

[[263483]]

研究者たちは、脳の活動を直接音に変換しようとするのではなく、神経信号を人間の発声器官が音をデジタル的に作り出すために使用する動きに変換している。

その結果、人工音声は実際の人間の声にさらに近づき、通常の会話速度に近づき始めます。

「被験者の声帯(唇、舌、顎、喉頭など)の動きをコンピューターシミュレーションで明確にシミュレートすることで、音声解読のための脳活動が得られることを実証した」と、カリフォルニア大学サンフランシスコ校の神経外科教授エドワード・チャン氏は火曜日、記者団に語った。

昨年、MITは、ヘッドフォンを使用して脳から口と顎に送られる信号を拾うという、これと関連したアプローチを採用した。

この新しいシステムはチャン氏の研究室で開発されており、チームの進捗状況は水曜日にネイチャー誌に掲載された新しい論文で概説されている。

研究者らは、脳神経外科手術に備えてすでに脳に一時的な電極を埋め込んでいる少数のボランティアを対象に研究を実施した。被験者は脳の活動を記録しながら、何百もの文章を声に出して読むように求められました。このデータと参加者の発声の録音により、科学者は仮想の声道を作成することができました。発話を作成するために使用される解剖学的構造の詳細なコンピューターシミュレーションは、脳の活動によって制御できるようになります。以下のビデオでは、結果の例をいくつか示します。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は声明で述べた。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

現在、重度の発話障害を持つ人向けの多くのデバイスでは、単語を一語一語考え、1分間に最大10語しか発音できないことが求められます。しかし、文章全体を翻訳できるシステムがあれば、人々はもっと速く、おそらく1分あたり100~150語の自然言語に近い速度でコミュニケーションできるようになるかもしれない。

「著者らの2段階アプローチにより、音響歪みが大幅に減少した」と、この研究には関与していないバイオメディカルエンジニアのチェサン・パンダリナス氏とヤヒア・H・アリ氏は述べた。 「しかし、多くの課題が残っています...再構成された音声の明瞭度は、自然な音声の明瞭度をはるかに下回っています。」

新しい研究の共著者であるジョシュ・シャルティエ氏は、彼らのシステムによって生み出される精度のレベルは既存の技術よりも優れていると主張しているが、話し言葉を模倣するにはまだ道のりが残っていることを認めている。

「私たちは『sh』や『z』のようなゆっくりした発音を合成したり、発音のリズムやイントネーション、話者の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のようなより鋭い発音は、少し不明瞭になります。」

もう一つの有望な発見は、発声運動の神経コードは必ずしも各個人に固有のものではないということです。 「腕や足を動かすことができない人々は、脳を使ってロボットの手足を制御することを学んできた」とシャルティエ氏は語った。 「私たちは、いつの日か言語障害を持つ人々が、この脳制御の人工発声器官を使って再び話すことを学べるようになると期待しています。」

<<:  有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

>>:  人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

ブログ    
ブログ    

推薦する

複数の機械学習モデルインスタンスを素早く比較する

導入機械学習プロジェクトに取り組むとき、すべてのデータ サイエンティストが直面しなければならない質問...

2021年4月の自動運転分野における重要な進展の概要

2021年に入ってから、自動運転分野の開発は着実に進展しており、4月には自動運転関連のさまざまな動き...

...

人工知能は教育にどのような変化をもたらすのでしょうか?

[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...

...

AIIA2020人工知能開発者会議が成功裏に開催され、オープンソースを採用してAIの新たな勢いが生まれました。

【51CTO.comオリジナル記事】 9月28日、「オープンソース開発とオープン性」をテーマにした...

バーチャルアイドル+人工知能+ブロックチェーン、スターを追いかける新しい方法が誕生!

最近、暗号通貨の世界では多くのニュースがありました。BTC は再びフォークを経験し、ビットコインは急...

機械学習初心者からマスターまで

序文振り返ってみると、Coursera で Andrew Ng が教えている機械学習コースから多くの...

アメリカ人教授がAI会議での不正行為を暴露:著者は査読者と共謀し、ゴミ論文も査読を通過

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

LLM ウィザード、コードの事前トレーニングは魔法の杖です! UIUC中国チームがコードデータの3つの利点を明らかに

大規模モデルの時代における言語モデル (LLM) は、サイズが大きくなるだけでなく、トレーニング デ...

医療におけるロボティック プロセス オートメーションのユースケース

[[419917]]多くの大規模医療機関は現在、デジタル化を実現するためにロボティック・プロセス・オ...

PyTorch 1.8 と Tensorflow 2.5、どちらを使用すればよいですか?

[[408717]]ディープラーニングが再び認知されて以来、多くの機械学習フレームワークが登場し、...