科学者たちは、歌詞付きの歌を聞くと読書の妨げになりやすいのと同じように、音声信号とテキスト信号が脳に入るときにいくつかの処理経路を共有することに長い間気づいていました。関連する探検は、100年以上前にある若者の偶然の発見にまで遡ることができます。
1874年、カール・ウェルニッケは有名な神経病理学者セオドア・マイナートのもとで学んでいました。彼は2人の奇妙な患者を記録した。彼らは何らかの言語障害を抱えているようでしたが、症状は典型的な表現性失語症とはまったく異なっていました。彼らは流暢に話したり書いたりすることができましたが、言葉はすべて意味不明でした。ウェルニッケは最終的に、現在では感覚失語症と呼ばれているこの症状が、側頭葉の後部と上部の脳損傷に起因すると結論付けた。患者の言語理解能力が破壊されるため、患者は自分が言ったことや書いたことを忘れてしまうことがよくあります。「何を言おうとしていたのだろう?」現代の科学者は、脳の活動を観察する過程で、ついに脳内に音声とテキストの「収束領域」が存在することを確認しました。これらの領域は、音声とテキストの両方の理解を担っています。 外国語の映画を見るとき、字幕を見ればスムーズに映画を見ることができます。ここでの字幕は音声翻訳技術を利用しており、ソース言語の音声をターゲット言語(母国語など)のテキストに翻訳します。 しかし、コンピューターにとって、音声とテキストは非常に異なる方法で表現されます。テキストは通常、数十個の記号で構成されているだけですが、音声は数百万個にも及ぶ連続した音の波形で構成されています。同じ言葉を発しても、誰が、どのような環境で、どのような状況で発するかによって、まったく違って聞こえることがあります。さらに、音声とテキストは異なる方法でエンコードされます。テキストの単語は語根と接辞で構成されています。スピーチは一連の形態素で構成され、強調とイントネーションによって補完されます。 人間にとって簡単なことでも、人工知能にとっては非常に難しい場合があります。テキストと音声の違いは非常に大きいため、テキスト処理の研究は実りある成果を上げている一方で、音声のパフォーマンスは大きく遅れをとっています。このギャップを埋めるには、私たちの脳と同じように、音声とテキストを均一に理解する必要があります。 現在、人工知能を研究する際には、解剖学や神経学からインスピレーションを得てモデルを最適化するようになり、人工知能はますます私たちに近づいてきています。 |
>>: 人工知能の時代では、女の子よりも男の子の方が失業する可能性が高いです!
私はテスラの「純粋なビジュアルルート」に常に懐疑的でした。疑問なのは、アルゴリズムの進歩によってカメ...
大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿った...
「人工知能の女王」ジャスティン・カッセル氏が済南の中国重汽で「人工知能と世界の未来経済」について講演...
手書き模倣AIの研究背景諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、...
PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...
今年の第 2 四半期だけで、Nvidia は 816 トンの H100 を販売しました。同じペースで...
前回の機械学習のトピックは終了しました。機械学習の分野でよく使用されるアルゴリズム、モデル、その原理...
この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...
「スマートホーム」という用語は何年も前から存在しているようですが、業界自体は比較的初期段階にあります...
数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...
[[191744]]バッチ正規化は、ディープラーニングにおいて最近登場した効果的な手法です。その有効...
AIとビッグデータの時代に、最初の開発言語となるのは誰でしょうか?これは議論の余地のない質問です。...
【CNMOニュース】最近、百度の創業者で会長兼CEOのロビン・リー氏はインド工科大学マドラス校が開...