新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話す能力を失った人々の才能を真に回復させることができるという。カリフォルニア大学サンフランシスコ校(UCSF)の神経科学者らは、脳の言語野からの信号を新しい2段階のプロセスで解釈する脳コンピューターインターフェースを開発した。

[[263483]]

研究者たちは、脳の活動を直接音に変換しようとするのではなく、神経信号を人間の発声器官が音をデジタル的に作り出すために使用する動きに変換している。

その結果、人工音声は実際の人間の声にさらに近づき、通常の会話速度に近づき始めます。

「被験者の声帯(唇、舌、顎、喉頭など)の動きをコンピューターシミュレーションで明確にシミュレートすることで、音声解読のための脳活動が得られることを実証した」と、カリフォルニア大学サンフランシスコ校の神経外科教授エドワード・チャン氏は火曜日、記者団に語った。

昨年、MITは、ヘッドフォンを使用して脳から口と顎に送られる信号を拾うという、これと関連したアプローチを採用した。

この新しいシステムはチャン氏の研究室で開発されており、チームの進捗状況は水曜日にネイチャー誌に掲載された新しい論文で概説されている。

研究者らは、脳神経外科手術に備えてすでに脳に一時的な電極を埋め込んでいる少数のボランティアを対象に研究を実施した。被験者は脳の活動を記録しながら、何百もの文章を声に出して読むように求められました。このデータと参加者の発声の録音により、科学者は仮想の声道を作成することができました。発話を作成するために使用される解剖学的構造の詳細なコンピューターシミュレーションは、脳の活動によって制御できるようになります。以下のビデオでは、結果の例をいくつか示します。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は声明で述べた。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

現在、重度の発話障害を持つ人向けの多くのデバイスでは、単語を一語一語考え、1分間に最大10語しか発音できないことが求められます。しかし、文章全体を翻訳できるシステムがあれば、人々はもっと速く、おそらく1分あたり100~150語の自然言語に近い速度でコミュニケーションできるようになるかもしれない。

「著者らの2段階アプローチにより、音響歪みが大幅に減少した」と、この研究には関与していないバイオメディカルエンジニアのチェサン・パンダリナス氏とヤヒア・H・アリ氏は述べた。 「しかし、多くの課題が残っています...再構成された音声の明瞭度は、自然な音声の明瞭度をはるかに下回っています。」

新しい研究の共著者であるジョシュ・シャルティエ氏は、彼らのシステムによって生み出される精度のレベルは既存の技術よりも優れていると主張しているが、話し言葉を模倣するにはまだ道のりが残っていることを認めている。

「私たちは『sh』や『z』のようなゆっくりした発音を合成したり、発音のリズムやイントネーション、話者の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のようなより鋭い発音は、少し不明瞭になります。」

もう一つの有望な発見は、発声運動の神経コードは必ずしも各個人に固有のものではないということです。 「腕や足を動かすことができない人々は、脳を使ってロボットの手足を制御することを学んできた」とシャルティエ氏は語った。 「私たちは、いつの日か言語障害を持つ人々が、この脳制御の人工発声器官を使って再び話すことを学べるようになると期待しています。」

<<:  有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

>>:  人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

ブログ    
ブログ    

推薦する

5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

パート01 顔認識技術の概要顔認識技術は生体認証技術の一種で、人物の顔の特定の特徴(目、鼻、口、眉毛...

リスト発表:海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

著名なIT技術メディア51CTOが主催する第16回中国企業年次選考活動「IT印象:イノベーションの活...

...

...

AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い

イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...

「ディープラーニング」市場の動向を多面的に分析

[[192373]]業界分析2016 年、世界のディープラーニング市場規模は 2 億 2,700 万...

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

人間が世界をどのように見ているかを理解するために、コンピューターは「目を動かす」ことを学び始めていま...

民間ドローンの産業応用シナリオに関する簡単な議論

[[357620]]科学技術の発展に伴い、人類は機械工学、材料科学、電子技術、自動制御、コンピュータ...

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...

AIの失敗例と今後の課題と機会

人工知能は画期的であり、時には衝撃的です。私たちは、効率性、自動化、スマートな予測に関する素晴らしい...

工業情報化部:中国初の個人情報保護AIモデル「智慧」アシスタントをリリース

2月29日、工業情報化省は2023年第4四半期の電気通信サービスの品質に関する通知を発行した。通知で...

モジュラー大型モデルが登場! IBMがWatsonXコアアーキテクチャの技術的詳細を公開

大規模言語モデル (LLM) は強力なパフォーマンスを備えていますが、既存のモデルのトレーニングと展...

ディープラーニング可視化ツールの包括的なレビュー(リソース付き)

ディープネットワークは機械学習の研究・応用分野に大きな影響を与えてきましたが、同時にディープネットワ...