新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話す能力を失った人々の才能を真に回復させることができるという。カリフォルニア大学サンフランシスコ校(UCSF)の神経科学者らは、脳の言語野からの信号を新しい2段階のプロセスで解釈する脳コンピューターインターフェースを開発した。

[[263483]]

研究者たちは、脳の活動を直接音に変換しようとするのではなく、神経信号を人間の発声器官が音をデジタル的に作り出すために使用する動きに変換している。

その結果、人工音声は実際の人間の声にさらに近づき、通常の会話速度に近づき始めます。

「被験者の声帯(唇、舌、顎、喉頭など)の動きをコンピューターシミュレーションで明確にシミュレートすることで、音声解読のための脳活動が得られることを実証した」と、カリフォルニア大学サンフランシスコ校の神経外科教授エドワード・チャン氏は火曜日、記者団に語った。

昨年、MITは、ヘッドフォンを使用して脳から口と顎に送られる信号を拾うという、これと関連したアプローチを採用した。

この新しいシステムはチャン氏の研究室で開発されており、チームの進捗状況は水曜日にネイチャー誌に掲載された新しい論文で概説されている。

研究者らは、脳神経外科手術に備えてすでに脳に一時的な電極を埋め込んでいる少数のボランティアを対象に研究を実施した。被験者は脳の活動を記録しながら、何百もの文章を声に出して読むように求められました。このデータと参加者の発声の録音により、科学者は仮想の声道を作成することができました。発話を作成するために使用される解剖学的構造の詳細なコンピューターシミュレーションは、脳の活動によって制御できるようになります。以下のビデオでは、結果の例をいくつか示します。

「この研究は、個人の脳活動に基づいて完全な音声文章を生成できることを示している」とチャン氏は声明で述べた。 「これは、すでに手の届く範囲にある技術を使って、言語障害を持つ患者に臨床的に実現可能なデバイスを構築できるはずであるという、エキサイティングな原理実証です。」

現在、重度の発話障害を持つ人向けの多くのデバイスでは、単語を一語一語考え、1分間に最大10語しか発音できないことが求められます。しかし、文章全体を翻訳できるシステムがあれば、人々はもっと速く、おそらく1分あたり100~150語の自然言語に近い速度でコミュニケーションできるようになるかもしれない。

「著者らの2段階アプローチにより、音響歪みが大幅に減少した」と、この研究には関与していないバイオメディカルエンジニアのチェサン・パンダリナス氏とヤヒア・H・アリ氏は述べた。 「しかし、多くの課題が残っています...再構成された音声の明瞭度は、自然な音声の明瞭度をはるかに下回っています。」

新しい研究の共著者であるジョシュ・シャルティエ氏は、彼らのシステムによって生み出される精度のレベルは既存の技術よりも優れていると主張しているが、話し言葉を模倣するにはまだ道のりが残っていることを認めている。

「私たちは『sh』や『z』のようなゆっくりした発音を合成したり、発音のリズムやイントネーション、話者の性別やアイデンティティを維持したりするのは得意ですが、『b』や『p』のようなより鋭い発音は、少し不明瞭になります。」

もう一つの有望な発見は、発声運動の神経コードは必ずしも各個人に固有のものではないということです。 「腕や足を動かすことができない人々は、脳を使ってロボットの手足を制御することを学んできた」とシャルティエ氏は語った。 「私たちは、いつの日か言語障害を持つ人々が、この脳制御の人工発声器官を使って再び話すことを学べるようになると期待しています。」

<<:  有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

>>:  人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2021年なのに、出会い系アプリのアルゴリズムはなぜこんなにも悪いのでしょうか?

[[407925]]ビッグデータダイジェスト制作出典: Wiredパンデミックの間、出会い系アプリ...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か?

人工知能は今や破壊的な技術となり、人工知能産業は 21 世紀最大の新興産業の 1 つとなるでしょう。...

トークン化ガイド: バイトペアエンコーディング、WordPiece およびその他の方法 Python コードの詳細な説明

2022年11月にOpenAIのChatGPTがリリースされて以来、大規模言語モデル(LLM)が非常...

...

スマートコックピット、進行中のインタラクティブ革命

今日では、スマートカーは都市ネットワークにおける「デジタルノード」となっています。優れた環境認識能力...

...

...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

米メディア:OpenAI、自社技術の軍事利用を禁じる条項を削除

米国の調査報道サイト「ザ・インターセプト」が1月12日に報じたところによると、ChatGPTの親会社...

報告書では、人工知能の新世代について再び言及しており、3つのキーワードが完全に解釈されている。

最近、「両会」の政府活動報告では、人工知能が再び言及された。「新世代人工知能の研究開発と応用を強化し...

機械学習でよく使われる損失関数についてどれくらい知っていますか?

機械は損失関数を通じて学習します。これは、特定のアルゴリズムが与えられたデータをどれだけ適切にモデル...

自然言語処理の応用展望

自然言語処理 (NLP) の定義自然言語処理(NLP)は、コンピューターが人間と同じように言語を理解...