DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表しました。デバイス上の音声認識と音声合成機能が初めてクラウドに匹敵するレベルに達し、将来的には個々のユーザーがモバイル端末で実際の人間に近い音声技術を簡単に体験できるようになることを意味します。 DAMOアカデミーの最新音声技術は、Taobao Live、DingTalk Conference、AutoNavi Navigationなどのシーンで広く活用されており、現在、対外的に全面的に開放されているという。 音声 AI の中核は、機械が人間の言語を理解して話せるようにすることです。音声合成と音声認識の技術は、これらの目標を達成するための基礎となります。しかし、ここ数年、業界における音声モデルの画期的な革新がなかったため、高精度の音声対話タスクは長い間クラウドコンピューティングのパワーに依存しており、音声コマンドの処理に遅延が生じるなどの問題が避けられませんでした。 今回、DAMO Academyはアルゴリズムモデルの革新をリードし、E2E-ASRエンドツーエンド音声認識技術と新しいオンエンドKAN-TTS音声合成技術を発表し、モバイル端末で初めてクラウドに近い音声認識・合成効果を実現しました。 音声認識に関しては、DAMOアカデミーはSAN-Mネットワーク構造とSCAMAベースのストリーミングエンドツーエンド音声認識フレームワークを提案し、これによりコンピューティング効率が向上しただけでなく、難易度の高いシナリオでの音声認識エラー率が約30%削減されたと報告されています。 DAMO Academyが開発した音声認識システムは、完全にオフラインで低コストで携帯電話に導入できます。プロトタイプシステムは40MB未満で、その認識効果は100GBを超えるDAMO Academyの前世代DFSMN-CTCクラウドシステムに匹敵します。 DAMO Academyは昨年、シミュレーション率が最大97%の自社開発KAN-TTS音声合成モデルをリリースした後、モバイル端末上の音声モデルの「大幅なスリム化」を実現しました。クラウド側と比較すると、端末上のモデルサイズは101倍、コンピューティングパワーは35倍圧縮され、端末のコンピューティングパワーで実際の人間の声に近い音声を素早く再現できます。例えば、Amapは最近、DAMOアカデミーの新しい音声技術を使用して合成された、李佳琦、林志玲、肖団団などの有名人のナビゲーション音声パッケージをリリースしました。音声効果は以前よりも自然になり、ネットワークが切断されても音声ナビゲーションが中断されることはありません。 DAMO アカデミーの音声ラボの責任者である Yan Zhijie 氏は、次のように述べています。「端末での音声タスクの処理は、学界と産業界にとって常に難しい問題でした。DAMO アカデミーの最新の音声技術は、端末デバイスの機能を効果的に解き放ち、音声タスクを簡単に処理できるようにしました。端末のコンピューティング能力とクラウド コンピューティング能力の協調的なサポートにより、音声インタラクションは将来どこにでもあるようになると確信しています。」 過去数年間、アリババの音声AIは一連のブレークスルーを達成しました。 2019年、アリババ音声AIはMIT Reviewの「世界のブレークスルーテクノロジートップ10」に選ばれ、リストに載った唯一の中国テクノロジー企業となった。今年7月にIDCが発表した「中国AIクラウドサービス市場半期調査レポート」によると、アリババ音声AIはクラウド音声AI市場で44%の市場シェアで第1位となった。 |
>>: アリババDAMOアカデミー、世界初のマルチソース地球観測データ分析AI EARTHをリリース
過去1年間、「次のトークンを予測する」ことを本質とする大規模なモデルが人間の世界の多くのタスクに浸透...
一夜にして、世界で最も強力なオープンソースの大型モデル Falcon 180B がインターネット全体...
最近、2021年世界ロボット大会が北京で盛大に開幕しました。ロボット分野の最先端技術と最新の成果が展...
AlphaGo が囲碁のゲームを解読した日、人類は自分たちの仕事が AI に置き換えられるのではない...
世界の通信業界の専門家が2024年を予測5G が世界をカバーし、人工知能がネットワークを再形成し、デ...
ロイターが確認したメモによると、10月12日、米宇宙軍はデータセキュリティに関する懸念から、職員によ...
[[385336]] AI顔認識技術は人気歌手のコンサートから逃亡した犯人を捕まえるのに役立ち、AI...
「教育は死んだが、学習は不滅である。」半世紀前、アメリカの教育思想家イリイチは著書『脱学校社会』の...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
OpenAI は AI 画像認識を開始しようとしています。最新のニュースとしては、同社が検出ツールを...
気がつけば、もう2024年も最後の月になってしまいました。今年のテクノロジー業界の申し子として、Op...