音声認識データベースが人工知能の中核となる

音声認識データベースが人工知能の中核となる

音声認識データベースと音声合成データベースは、人工知能の重要な技術です。機械が人間のように聞き、話し、学び、理解し、考え、人間の生活や仕事の強力な助っ人や親密なパートナーになることは、人類の長年の夢でした。過去半世紀にわたるインテリジェント音声技術の進歩とディープニューラルネットワーク技術(DNN)の工学応用により、人類はこの夢に近づきつつあり、この夢はインテリジェント音声技術の発展を大きく推進しています。当初、人間が機械に人間のような声を出させることは可能だったが、18世紀後半にヨーロッパ人が作ったケンペレン発声機械のように、限られた数の単語と短い文章を話す機械しか作れなかった。 2 世紀以上が経過した今日の「チャットボット」は、非常に自然な声で人々とコミュニケーションできるだけでなく、ジョークを言ったり、かわいらしい行動をしたりすることもできます。 1950 年代に AT&T ベル研究所が開発した Audry は、10 個の英語の数字を認識できました。現在、音声認識技術の自然言語認識精度は95%を超えています。

[[185952]]

マイクロソフトがリリースした「XiaoIce」と百度がリリースした「DuBi」は、再び一般の人々の間で人工知能と人間とコンピューターの相互作用への熱狂を引き起こした。

XiaoIceとDuMiの知能、リスニング、スピーキング能力の秘密をより深く理解するために、記者は北京海天瑞盛科技有限公司のCEO、唐迪飛氏にインタビューした。中国、さらにはアジア最大の人工知能データリソースサプライヤーとして、海天瑞生は、音声合成(TTS)、音声認識(ASR)、自然言語理解(NLP)、機械翻訳(MT)などの技術分野における基本データリソースの開発で17年の専門経験を積んできました。インテリジェント音声の基本データリソースに関しては、現在、70以上の国と地域をカバーする116の言語でデータリソースを作成する能力を備えています。

Xiaoice と Dumi の人間の命令を理解する能力は、以前の音声アシスタントよりもはるかに優れています。百度世界大会で、DuerOS は Robin Li のさまざまな課題を難なく処理しました。「工場長」がオンラインでカフェラテ 2 杯を注文するのを手伝っただけでなく、ペット同伴可能なレストランを予約したり、アニメ映画のチケットをオンラインでグループ購入したりもしました。では、XiaoIce と DuMi が人間の命令を正確に理解できる秘密は何でしょうか?

唐迪菲氏は、これは音声認識(ASR)技術と自然言語理解(NLP)技術の驚異的な革新と進歩によるものだと述べた。初期のDNNモデルから現在のLSTMモデルまで、機械学習(ML)からディープラーニング(DL)まで、それぞれの技術革新がユーザーにまったく新しい体験をもたらしてきた。それだけでなく、音声認識エンジンのトレーニングに使用される基本的な音声コーパスも重要な要素です。コーパスを設計する際には、専門の言語学者が、特定の言語の言語現象に基づいて、コーパスの分野分布、アプリケーションシナリオ分布、コーパスの適時性などの要素を総合的に考慮する必要があります。同時に、対応するNLP処理技術と注釈チームを使用して、データベースコーパスプールの規模と構造が科学的で合理的であること、音素のカバレッジとバランス、文の意味が完全であること、意味が一貫していること、スペルが正確であること、読みやすく理解しやすいことを保証します。最後に、話者分布、アクセント分布、テキスト分布、音素分布、シナリオ分布などの条件に応じて、DTW動的ルールアルゴリズムなどの対応するアルゴリズムを使用して話者のテキストを抽出し、特定の発音のテキストを形成します。

アクセント、年齢、学歴、居住地域の違いにより、異なる人々が同じ考えを表現したり、同じ質問をしたり、同じ文章を微妙な違いで言ったりすることがあります。たとえば、インテリジェントなカスタマー サービス アプリケーションでは、ロボットは顧客の発言を理解するだけでなく、顧客の感情を認識できなければなりません。たとえば、顧客の感情が不安なのか落ち着いているのかに基づいて、または顧客の感情の変化に基づいて、顧客が怒っているのか、徐々に落ち着いているのかを判断し、異なる処理の優先順位とフィードバック方法を採用することができます。これには、トレーニング コーパスに感情的な要素を導入することが含まれます。しかし、現時点では、Xiaoice と DuMi はこれを完全に達成できません。

唐迪菲氏によると、「XiaoIce」が自然で甘く流暢な声で話せるようにするために、大規模な音声合成(TTS)データベースの設計と開発が、彼女のユーザー体験を根本的に決定づけるという。データベースを設計する際には、まず適切な年齢と声質を持つ話し手を選ぶ必要があります。話し手の声は若々しく、明るく、スマートで、活力に満ちている必要があります。第二に、データベースの設計では、言語と音素の包括的なカバー範囲を十分に考慮する必要があり、コーパスは主に大規模なチャット対話コーパスから取得されます。小冰が感情的な女の子であることを強調するために、彼女は真面目な話をするだけでなく、怒ったり、かわいく振る舞ったりもします。そのため、コーパス設計に多くの口語文やインターネット用語、さらにはオンライン小説の文章を追加する必要があります。同時に、よく使われる英語の語彙、中英混合語彙、数字列、地名などの特別な言語教材も必要です。人間の自然言語では、同じ文でも文脈によってイントネーションやリズムが異なります。したがって、コーパスの設計ではこれらの要素を考慮する必要があります。その結果、コーパスのサイズは数万、あるいは数十万の文になることがよくあります。ある程度、音声合成コーパスの設計の失敗は、音声合成技術の進歩を大きく損なうことになります。

XiaoIce や DuMi のようなチャットボットから真の機械の仲間に至るまで、人間が進むべき道はまだまだ長く、克服すべき困難も数多くあります。さまざまな指示をより正確に理解して対応し、人の感情の変化や感情​​的なニーズを「理解」し、感情的なサポートや慰めなど、より人間らしいサービスを提供できるよう「考える」ことができなければなりません。言語表現の面でも、実際の人間の感情や気持ちの表現に近づき、より自然で流暢なものになるはずです。もちろん、この困難には多くの理由があります。Tang Difei 氏は、その理由の 1 つとして、基本的なデータ リソースの不足とコストの高さを挙げました。前述のように、チャットボットが人間の言語や感情を可能な限り理解できるようにする、あるいは実際に「理解」できるようにするには、基本的なデータ リソースの設計者と開発者に高い要件が課せられます。

<<:  Google、ファイルサイズを35%削減できる新しいJPEGアルゴリズムをオープンソース化

>>:  ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

これからオープンする無人コンビニや無人スーパーにはこんな7つのブラックテクノロジーが隠されている

もうすぐダブルイレブンがやってきます。さまざまな商店が準備を進めています。JDの無人コンビニや無人ス...

エッジコンピューティングが企業のコスト削減と効率向上にどのように役立つか

エッジ コンピューティングへの期待が高まる中、業界では「エッジがクラウドを飲み込む」や、医療、小売、...

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高ま...

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

伝統的な教育方法は、過去 1 世紀か 2 世紀の間にあまり変わっていません。通常、生徒は教室で教師の...

2018 年に人工知能を変える 5 つのビッグデータ トレンド

ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...

2020 年に注目すべき機械学習とデータサイエンスのウェブサイト トップ 20

今日最も進歩的で、最先端で、刺激的なもの…データ サイエンスと機械学習は、今日非常に魅力的で、非常に...

...

AIのダークサイドを暴く:人工知能は人間に取って代わるが、機械をどのように学習するかは分からない

[[189044]]昨年、自動運転車がニュージャージー州モンマス郡に侵入した。チップメーカーのNvi...

5G、Wi-Fi 6、AIがいかにしてよりスマートなホームエクスペリエンスを実現するか

[[335277]]家全体のスマートホームライフが実現するまでには、まだ時間がかかりそうですが、スマ...

卒業後すぐに年収56万は貰えるんですか?右! Twitterの機械学習の専門家が書いた上級マニュアルをご覧ください

[[210651]]年収10万?プログラマーにとっては、これで十分です。国家統計局が今年上半期に発表...

現在人気の人工知能専攻の年収は30万元にも達する

人工知能は再びホットな話題となっている。南京大学に人工知能学院が設立され、新たなチャンスに直面し、今...

OpenAI が GPT-4 やその他のモデルを更新し、新しい API 関数呼び出しを追加し、価格を最大 75% 引き下げ

数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...

なぜ人工知能はテクノロジーの未来なのか?

人類の知恵はさまざまな文明を生み出してきました。人間の知能はさまざまな形態の人工知能を通じて強化する...

脳とコンピューターのインターフェースのための新しい「接着剤」が発明され、人間と機械の融合「サイボーグ」における新たな進歩がもたらされる

マスク氏の脳コンピューターインターフェースは「人間でテスト」されようとしているが、侵襲的な脳コンピュ...

プログラマーは「自殺」している。人工知能が進化し続ける中、人間は何をすべきか?

中国、日本、韓国の囲碁名人数十人がこのゲームに挑み、アルファ碁は1敗もせずに60連勝した。その後、世...