DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表しました。デバイス上の音声認識と音声合成機能が初めてクラウドに匹敵するレベルに達し、将来的には個々のユーザーがモバイル端末で実際の人間に近い音声技術を簡単に体験できるようになることを意味します。 DAMOアカデミーの最新音声技術は、Taobao Live、DingTalk Conference、AutoNavi Navigationなどのシーンで広く活用されており、現在、対外的に全面的に開放されているという。 音声 AI の中核は、機械が人間の言語を理解して話せるようにすることです。音声合成と音声認識の技術は、これらの目標を達成するための基礎となります。しかし、ここ数年、業界における音声モデルの画期的な革新がなかったため、高精度の音声対話タスクは長い間クラウドコンピューティングのパワーに依存しており、音声コマンドの処理に遅延が生じるなどの問題が避けられませんでした。 今回、DAMO Academyはアルゴリズムモデルの革新をリードし、E2E-ASRエンドツーエンド音声認識技術と新しいオンエンドKAN-TTS音声合成技術を発表し、モバイル端末で初めてクラウドに近い音声認識・合成効果を実現しました。 音声認識に関しては、DAMOアカデミーはSAN-Mネットワーク構造とSCAMAベースのストリーミングエンドツーエンド音声認識フレームワークを提案し、これによりコンピューティング効率が向上しただけでなく、難易度の高いシナリオでの音声認識エラー率が約30%削減されたと報告されています。 DAMO Academyが開発した音声認識システムは、完全にオフラインで低コストで携帯電話に導入できます。プロトタイプシステムは40MB未満で、その認識効果は100GBを超えるDAMO Academyの前世代DFSMN-CTCクラウドシステムに匹敵します。 DAMO Academyは昨年、シミュレーション率が最大97%の自社開発KAN-TTS音声合成モデルをリリースした後、モバイル端末上の音声モデルの「大幅なスリム化」を実現しました。クラウド側と比較すると、端末上のモデルサイズは101倍、コンピューティングパワーは35倍圧縮され、端末のコンピューティングパワーで実際の人間の声に近い音声を素早く再現できます。例えば、Amapは最近、DAMOアカデミーの新しい音声技術を使用して合成された、李佳琦、林志玲、肖団団などの有名人のナビゲーション音声パッケージをリリースしました。音声効果は以前よりも自然になり、ネットワークが切断されても音声ナビゲーションが中断されることはありません。 DAMO アカデミーの音声ラボの責任者である Yan Zhijie 氏は、次のように述べています。「端末での音声タスクの処理は、学界と産業界にとって常に難しい問題でした。DAMO アカデミーの最新の音声技術は、端末デバイスの機能を効果的に解き放ち、音声タスクを簡単に処理できるようにしました。端末のコンピューティング能力とクラウド コンピューティング能力の協調的なサポートにより、音声インタラクションは将来どこにでもあるようになると確信しています。」 過去数年間、アリババの音声AIは一連のブレークスルーを達成しました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。 |
>>: アリババDAMOアカデミー、世界初のマルチソース地球観測データ分析AI EARTHをリリース
最近、Deepin OS 20.05がリリースされ、追加された顔認識機能がコミュニティの注目を集めて...
IT Homeは11月21日、Microsoft Azure AIインフラストラクチャがアップグレー...
現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...
会話型人工知能 (AI) プロジェクトを正常に展開することは、他のデジタル ビジネス プロセスのアッ...
検索エンジンは誕生以来、基本的な検索エージェントから人工知能 (AI) と機械学習 (ML) に基づ...
AIの兵器化?大規模言語モデルの誕生以来、人々はその潜在的な影響について議論し続けています。しかし...
データ中心の機能と対象顧客への理解を備えた人工知能とデータサイエンスが世界を席巻しています。企業は、...
教育革命が起こっており、人工知能は2032年までに882億ドルに達すると予想されています。人工知能(...
滴滴出行は1月25日、2018年スマート交通サミットでスマート交通戦略製品「Traffic Brai...
[[384554]]人工知能は、人類がより早く、より効果的に病気と闘い、より健康的な生活を送るのに役...
グラフ埋め込み、グラフ表現、グラフ分類、グラフニューラルネットワーク、この記事では必要なグラフモデリ...
新しいテクノロジー時代の幕開けを迎えた今、クラウド コンピューティングと人工知能 (AI) の融合に...
昨日、Lao Huangが再び「勝利」しました!なぜ?最新の MLPerf ベンチマークでは、NVI...