DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表しました。世界最大の無料音声認識データベースLibriSpeechのデータによると、音声認識モデルDFSMNは、世界の音声認識精度記録を96.04%まで引き上げました。

DAMOアカデミー機械知能研究所の音声認識チームが音声認識モデルDFSMNの研究開発を主導し、世界中の企業や個人にオープンソースとして公開しました。最も広く使用されている LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを搭載したスマート スピーカーやスマート ホーム デバイスは、従来のディープラーニング トレーニングよりも 3 倍高速で、音声認識は 2 倍高速です。

雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」と実際の店員との間で興味深い競争が行われました。騒がしい環境の中で、「AIレジ係」はユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文しました。 DFSMN 音声認識モデルは、スマート注文受付「ウェイター」に使用されているだけでなく、上海地下鉄の券売機にも使用されています。

音声認識の著名な専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回ソースを公開したDFSMNモデルは、音声認識精度の着実な向上において画期的な進歩を遂げた。これは、近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。

<<:  人工知能とビッグデータの違い

>>:  私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

ブログ    

推薦する

賢くなる方法: 神経科学にヒントを得た人工知能

[[201067]]私はデイビッド・マーが「神経科学のチューリング」のような存在だといつも感じていま...

...

...

顔の特徴を検出するシンプルなディープラーニング手法を教えます

著者注: 携帯電話で、人の顔に特殊効果を加えるアプリを見たことがあるかもしれません。これらのアプリは...

...

自律型 AI エージェント: 未来の生産性エンジン

翻訳者 | 崔昊レビュー | Chonglouまとめこの記事では、タスクを自ら作成し、優先順位を付け...

...

生成AI技術:医師の燃え尽き症候群を軽減する新たな希望

若い医師の慢性的な不足により、2034年までに米国全土で124,000件もの求人が発生すると推定され...

1 行のコードで AI モデルの推論速度が 10 倍に向上します。 Reddit の技術共有は「恥知らずな自己宣伝」として揶揄される

Reddit フォーラムでは、さまざまな AI テクノロジーについて頻繁に議論されています。最近、あ...

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

[原文は51CTO.comより] 8月22日、インテルとToutiaoの共同戦略協力記者会見と「デー...

...

...

顔認識は使いやすいが、情報セキュリティは高価

生体認証の一種である顔は固有のものであり、ひとたび情報漏洩が発生するとリスクが非常に高くなります。顔...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...

...