新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話す能力を失った人々の才能を真に回復させることができるという。カリフォルニア大学サンフランシスコ校(UCSF)の神経科学者らは、脳の言語野からの信号を新しい2段階のプロセスで解釈する脳コンピューターインターフェースを開発した。

[[263483]]

研究者たちは、脳の活動を直接音に変換しようとするのではなく、神経信号を人間の発声器官が音をデジタル的に作り出すために使用する動きに変換している。

その結果、人工音声は実際の人間の声にさらに近づき、通常の会話速度に近づき始めます。

「被験者の声帯(唇、舌、顎、喉頭など)の動きをコンピューターシミュレーションで明確にシミュレートすることで、音声解読のための脳活動が得られることを実証した」と、カリフォルニア大学サンフランシスコ校の神経外科教授エドワード・チャン氏は火曜日、記者団に語った。

昨年、MITは、ヘッドフォンを使用して脳から口と顎に送られる信号を拾うという、これと関連したアプローチを採用した。

この新しいシステムはチャン氏の研究室で開発されており、チームの進捗状況は水曜日にネイチャー誌に掲載された新しい論文で概説されている。

研究者らは、脳神経外科手術に備えてすでに脳に一時的な電極を埋め込んでいる少数のボランティアを対象に研究を実施した。被験者は脳の活動を記録しながら、何百もの文章を声に出して読むように求められました。このデータと参加者の発声の録音により、科学者は仮想の声道を作成することができました。発話を作成するために使用される解剖学的構造の詳細なコンピューターシミュレーションは、脳の活動によって制御できるようになります。以下のビデオでは、結果の例をいくつか示します。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は声明で述べた。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

現在、重度の発話障害を持つ人向けの多くのデバイスでは、単語を一語一語考え、1分間に最大10語しか発音できないことが求められます。しかし、文章全体を翻訳できるシステムがあれば、人々はもっと速く、おそらく1分あたり100~150語の自然言語に近い速度でコミュニケーションできるようになるかもしれない。

「著者らの2段階アプローチにより、音響歪みが大幅に減少した」と、この研究には関与していないバイオメディカルエンジニアのチェサン・パンダリナス氏とヤヒア・H・アリ氏は述べた。 「しかし、多くの課題が残っています...再構成された音声の明瞭度は、自然な音声の明瞭度をはるかに下回っています。」

新しい研究の共著者であるジョシュ・シャルティエ氏は、彼らのシステムによって生み出される精度のレベルは既存の技術よりも優れていると主張しているが、話し言葉を模倣するにはまだ道のりが残っていることを認めている。

「私たちは『sh』や『z』のようなゆっくりした発音を合成したり、発音のリズムやイントネーション、話者の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のようなより鋭い発音は、少し不明瞭になります。」

もう一つの有望な発見は、発声運動の神経コードは必ずしも各個人に固有のものではないということです。 「腕や足を動かすことができない人々は、脳を使ってロボットの手足を制御することを学んできた」とシャルティエ氏は語った。 「私たちは、いつの日か言語障害を持つ人々が、この脳制御の人工発声器官を使って再び話すことを学べるようになると期待しています。」

<<:  有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

>>:  人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

ブログ    

推薦する

デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

12月19日、デンマーク工科大学のスニ・レーマン・ヨルゲンセン氏と彼のチームは、保険業界で使用されて...

人工知能は工場のメンテナンスに大きな役割を果たすだろう

検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...

...

このAIアルゴリズムの面接体験は非常に役立つ:Amazonは履歴書から面接まで実践的な経験を共有

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

建設業界には後継者がいないのでしょうか?考えすぎです!建設ロボットがやって来ます!

世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...

AI 教育がアメリカの高校の授業に導入: 普遍的な AI 学習までどのくらいの距離があるのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

顔スキャン決済は問題多し、アマゾンは「手のひら」スキャンを選択し無人スーパーで正式に商品化

さあ、手払いについて学んでみましょう〜アマゾンはこのほど、自社が開発した手のひら認識技術「Amazo...

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

[[427319]] 01 データデータは、携帯電話に残すデジタルフットプリントから健康記録、買い物...

AIがハッカーを騙すために偽の文書を作成

ハッカーは貴重なファイルを盗むためにネットワーク防御を突破する技術を向上しています。そこで、彼らを完...

Frontier Insights: VRヘルメットをかぶって操作できるロボット

Frontier Insightsの今号では、VRで制御できるロボット プログラム、フル充電で消毒剤...

機械はどのように学習するのでしょうか?人工知能の「双方向戦闘」を詳しく解説

金庸の武侠小説『射雁英雄伝』には、桃花島に閉じ込められた「悪童」周伯同が「左右の格闘術」を編み出した...

北京大学、バイトダンス等は増分学習を用いたスーパーピクセルセグメンテーションモデルLNSNetを提案した

オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配...

...

...

テスラの自動運転タクシー参入は依然として困難

[[442909]] [51CTO.com クイック翻訳]テスラは2019年4月に「Autonomy...