DAMOアカデミーが音声AIの新たな進歩を発表:モバイル端末でも実際の人間に近い音声対話体験を実現可能

DAMOアカデミーが音声AIの新たな進歩を発表:モバイル端末でも実際の人間に近い音声対話体験を実現可能

DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表しました。デバイス上の音声認識と音声合成機能が初めてクラウドに匹敵するレベルに達し、将来的には個々のユーザーがモバイル端末で実際の人間に近い音声技術を簡単に体験できるようになることを意味します。 DAMOアカデミーの最新音声技術は、Taobao Live、DingTalk Conference、AutoNavi Navigationなどのシーンで広く活用されており、現在、対外的に全面的に開放されているという。

音声 AI の中核は、機械が人間の言語を理解して話せるようにすることです。音声合成と音声認識の技術は、これらの目標を達成するための基礎となります。しかし、ここ数年、業界における音声モデルの画期的な革新がなかったため、高精度の音声対話タスクは長い間クラウドコンピューティングのパワーに依存しており、音声コマンドの処理に遅延が生じるなどの問題が避けられませんでした。

今回、DAMO Academyはアルゴリズムモデルの革新をリードし、E2E-ASRエンドツーエンド音声認識技術と新しいオンエンドKAN-TTS音声合成技術を発表し、モバイル端末で初めてクラウドに近い音声認識・合成効果を実現しました。

音声認識に関しては、DAMOアカデミーはSAN-Mネットワーク構造とSCAMAベースのストリーミングエンドツーエンド音声認識フレームワークを提案し、これによりコンピューティング効率が向上しただけでなく、難易度の高いシナリオでの音声認識エラー率が約30%削減されたと報告されています。 DAMO Academyが開発した音声認識システムは、完全にオフラインで低コストで携帯電話に導入できます。プロトタイプシステムは40MB未満で、その認識効果は100GBを超えるDAMO Academyの前世代DFSMN-CTCクラウドシステムに匹敵します。

DAMO Academyは昨年、シミュレーション率が最大97%の自社開発KAN-TTS音声合成モデルをリリースした後、モバイル端末上の音声モデルの「大幅なスリム化」を実現しました。クラウド側と比較すると、端末上のモデルサイズは101倍、コンピューティングパワーは35倍圧縮され、端末のコンピューティングパワーで実際の人間の声に近い音声を素早く再現できます。例えば、Amapは最近、DAMOアカデミーの新しい音声技術を使用して合成された、李佳琦、林志玲、肖団団などの有名人のナビゲーション音声パッケージをリリースしました。音声効果は以前よりも自然になり、ネットワークが切断されても音声ナビゲーションが中断されることはありません。

DAMO アカデミーの音声ラボの責任者である Yan Zhijie 氏は、次のように述べています。「端末での音声タスクの処理は、学界と産業界にとって常に難しい問題でした。DAMO アカデミーの最新の音声技術は、端末デバイスの機能を効果的に解き放ち、音声タスクを簡単に処理できるようにしました。端末のコンピューティング能力とクラウド コンピューティング能力の協調的なサポートにより、音声インタラクションは将来どこにでもあるようになると確信しています。」

過去数年間、アリババの音声AIは一連のブレークスルーを達成しました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。

<<:  ビッグデータと人工知能の関係

>>:  アリババDAMOアカデミー、世界初のマルチソース地球観測データ分析AI EARTHをリリース

推薦する

人工知能の「想像力」を実現する

[[416371]] [51CTO.com クイック翻訳]まず、オレンジ色の猫を頭の中で想像してくだ...

Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

5月19日、海外メディアの報道によると、人工知能はヘルスケア分野で多くの用途があるため、Google...

李開復氏、ペントランド氏と会談:AIはワンマンショーではない、AI冷戦は避けるべき

最近、Sinovation Venturesの会長兼CEOであるKai-Fu Lee博士とAlex ...

人工知能時代のデザイン業界の未来

人工知能 (AI) は設計の仕事を引き継ぐのでしょうか? 将来的にはデザイナーに取って代わるのでしょ...

医療診断AIプロジェクトを実施するための10のステップ

【51CTO.com クイック翻訳】ヘルスケアのあらゆる側面において、時間は常に最も貴重な部分である...

...

...

Baidu が DuerOS 3.0 会話型 AI システムをリリース: Bluetooth デバイスに会話機能を持たせる

昨年のAI開発者会議で、百度は「人工知能時代のAndroidシステム」であると主張する会話型人工知能...

新しいニューラルネットワークモデルが登場:生成的敵対ネットワークよりも優れている

ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場していま...

スタートアップがAIを活用している3つの分野

[[311593]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...

...

図解機械学習: ニューラルネットワークと TensorFlow によるテキスト分類

開発者はよく、機械学習を始めたいなら、まずアルゴリズムを学ぶべきだと言います。しかし、それは私の経験...

...

...