音声認識データベースと音声合成データベースは、人工知能の重要な技術です。機械が人間のように聞き、話し、学び、理解し、考え、人間の生活や仕事の強力な助っ人や親密なパートナーになることは、人類の長年の夢でした。過去半世紀にわたるインテリジェント音声技術の進歩とディープニューラルネットワーク技術(DNN)の工学応用により、人類はこの夢に近づきつつあり、この夢はインテリジェント音声技術の発展を大きく推進しています。当初、人間が機械に人間のような声を出させることは可能だったが、18世紀後半にヨーロッパ人が作ったケンペレン発声機械のように、限られた数の単語と短い文章を話す機械しか作れなかった。 2 世紀以上が経過した今日の「チャットボット」は、非常に自然な声で人々とコミュニケーションできるだけでなく、ジョークを言ったり、かわいらしい行動をしたりすることもできます。 1950 年代に AT&T ベル研究所が開発した Audry は、10 個の英語の数字を認識できました。現在、音声認識技術の自然言語認識精度は95%を超えています。
マイクロソフトがリリースした「XiaoIce」と百度がリリースした「DuBi」は、再び一般の人々の間で人工知能と人間とコンピューターの相互作用への熱狂を引き起こした。 XiaoIceとDuMiの知能、リスニング、スピーキング能力の秘密をより深く理解するために、記者は北京海天瑞盛科技有限公司のCEO、唐迪飛氏にインタビューした。中国、さらにはアジア最大の人工知能データリソースサプライヤーとして、海天瑞生は、音声合成(TTS)、音声認識(ASR)、自然言語理解(NLP)、機械翻訳(MT)などの技術分野における基本データリソースの開発で17年の専門経験を積んできました。インテリジェント音声の基本データリソースに関しては、現在、70以上の国と地域をカバーする116の言語でデータリソースを作成する能力を備えています。 Xiaoice と Dumi の人間の命令を理解する能力は、以前の音声アシスタントよりもはるかに優れています。百度世界大会で、DuerOS は Robin Li のさまざまな課題を難なく処理しました。「工場長」がオンラインでカフェラテ 2 杯を注文するのを手伝っただけでなく、ペット同伴可能なレストランを予約したり、アニメ映画のチケットをオンラインでグループ購入したりもしました。では、XiaoIce と DuMi が人間の命令を正確に理解できる秘密は何でしょうか? 唐迪菲氏は、これは音声認識(ASR)技術と自然言語理解(NLP)技術の驚異的な革新と進歩によるものだと述べた。初期のDNNモデルから現在のLSTMモデルまで、機械学習(ML)からディープラーニング(DL)まで、それぞれの技術革新がユーザーにまったく新しい体験をもたらしてきた。それだけでなく、音声認識エンジンのトレーニングに使用される基本的な音声コーパスも重要な要素です。コーパスを設計する際には、専門の言語学者が、特定の言語の言語現象に基づいて、コーパスの分野分布、アプリケーションシナリオ分布、コーパスの適時性などの要素を総合的に考慮する必要があります。同時に、対応するNLP処理技術と注釈チームを使用して、データベースコーパスプールの規模と構造が科学的で合理的であること、音素のカバレッジとバランス、文の意味が完全であること、意味が一貫していること、スペルが正確であること、読みやすく理解しやすいことを保証します。最後に、話者分布、アクセント分布、テキスト分布、音素分布、シナリオ分布などの条件に応じて、DTW動的ルールアルゴリズムなどの対応するアルゴリズムを使用して話者のテキストを抽出し、特定の発音のテキストを形成します。 アクセント、年齢、学歴、居住地域の違いにより、異なる人々が同じ考えを表現したり、同じ質問をしたり、同じ文章を微妙な違いで言ったりすることがあります。たとえば、インテリジェントなカスタマー サービス アプリケーションでは、ロボットは顧客の発言を理解するだけでなく、顧客の感情を認識できなければなりません。たとえば、顧客の感情が不安なのか落ち着いているのかに基づいて、または顧客の感情の変化に基づいて、顧客が怒っているのか、徐々に落ち着いているのかを判断し、異なる処理の優先順位とフィードバック方法を採用することができます。これには、トレーニング コーパスに感情的な要素を導入することが含まれます。しかし、現時点では、Xiaoice と DuMi はこれを完全に達成できません。 唐迪菲氏によると、「XiaoIce」が自然で甘く流暢な声で話せるようにするために、大規模な音声合成(TTS)データベースの設計と開発が、彼女のユーザー体験を根本的に決定づけるという。データベースを設計する際には、まず適切な年齢と声質を持つ話し手を選ぶ必要があります。話し手の声は若々しく、明るく、スマートで、活力に満ちている必要があります。第二に、データベースの設計では、言語と音素の包括的なカバー範囲を十分に考慮する必要があり、コーパスは主に大規模なチャット対話コーパスから取得されます。小冰が感情的な女の子であることを強調するために、彼女は真面目な話をするだけでなく、怒ったり、かわいく振る舞ったりもします。そのため、コーパス設計に多くの口語文やインターネット用語、さらにはオンライン小説の文章を追加する必要があります。同時に、よく使われる英語の語彙、中英混合語彙、数字列、地名などの特別な言語教材も必要です。人間の自然言語では、同じ文でも文脈によってイントネーションやリズムが異なります。したがって、コーパスの設計ではこれらの要素を考慮する必要があります。その結果、コーパスのサイズは数万、あるいは数十万の文になることがよくあります。ある程度、音声合成コーパスの設計の失敗は、音声合成技術の進歩を大きく損なうことになります。 XiaoIce や DuMi のようなチャットボットから真の機械の仲間に至るまで、人間が進むべき道はまだまだ長く、克服すべき困難も数多くあります。さまざまな指示をより正確に理解して対応し、人の感情の変化や感情的なニーズを「理解」し、感情的なサポートや慰めなど、より人間らしいサービスを提供できるよう「考える」ことができなければなりません。言語表現の面でも、実際の人間の感情や気持ちの表現に近づき、より自然で流暢なものになるはずです。もちろん、この困難には多くの理由があります。Tang Difei 氏は、その理由の 1 つとして、基本的なデータ リソースの不足とコストの高さを挙げました。前述のように、チャットボットが人間の言語や感情を可能な限り理解できるようにする、あるいは実際に「理解」できるようにするには、基本的なデータ リソースの設計者と開発者に高い要件が課せられます。 |
<<: Google、ファイルサイズを35%削減できる新しいJPEGアルゴリズムをオープンソース化
>>: ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?
[[374390]]人工知能 (AI) は、組織によって競争上の優位性を獲得するための重要なテクノロ...
[[190049]]この記事は、4月27日にBig Data Talk WeChatコミュニティで...
偉大な科学的成果は試行錯誤だけでは達成できません。たとえば、宇宙計画におけるすべての打ち上げは、空気...
GPT-4.5 は、私たちの知らないうちに密かにリリースされたのでしょうか?最近、多くのネットユーザ...
K-クラスタリングとはどういう意味ですか? K-means クラスタリングは、最も人気があり、広く使...
近年、人工知能技術は飛躍的な進歩を遂げており、各国は人工知能技術の戦略的意義を認識し、国家戦略レベル...
この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...
未来の建築: AIが新たな現実を構築する人工知能 (AI) は、未来的な概念という見せかけを超えて、...
Redis のメモリ オーバーフローの問題は、通常、次のような状況によって発生します。データが多す...
[[407129]] 2年前、NVIDIAは、大雑把な落書きをリアルタイムでフォトリアリスティックな...
現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...
ここでは、ネットワーク セキュリティにおける人工知能の応用について、主にネットワーク セキュリティ防...