DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表しました。世界最大の無料音声認識データベースLibriSpeechのデータによると、音声認識モデルDFSMNは、世界の音声認識精度記録を96.04%まで引き上げました。

DAMOアカデミー機械知能研究所の音声認識チームが音声認識モデルDFSMNの研究開発を主導し、世界中の企業や個人にオープンソースとして公開しました。最も広く使用されている LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを搭載したスマート スピーカーやスマート ホーム デバイスは、従来のディープラーニング トレーニングよりも 3 倍高速で、音声認識は 2 倍高速です。

雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」と実際の店員との間で興味深い競争が行われました。騒がしい環境の中で、「AIレジ係」はユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文しました。 DFSMN 音声認識モデルは、スマート注文受付「ウェイター」に使用されているだけでなく、上海地下鉄の券売機にも使用されています。

音声認識の著名な専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回ソースを公開したDFSMNモデルは、音声認識精度の着実な向上において画期的な進歩を遂げた。これは、近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。

<<:  人工知能とビッグデータの違い

>>:  私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

ブログ    

推薦する

...

...

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

以下は、テンセント研究所法律研究センター副所長兼主任研究員である蔡雄山氏の講演の記録です。多くの場合...

...

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

今日のモデルには数千億、あるいは数兆ものパラメータがあります。一般の人がモデルをトレーニングできない...

ディープラーニングを使用してXSSを検出する方法

1. はじめに周知のとおり、ディープラーニングはコンピュータービジョン、自然言語処理、人工知能などの...

...

Intel と AMD はパフォーマンスの向上のために AI PC に期待していますが、消費者はそれらを買い替える資金を持っているのでしょうか?

11月2日、新型コロナウイルス感染症のパンデミックをきっかけに2年間成長を続けてきたパソコン(PC...

エッジ AI はどのようにして将来の AI および IoT トレンドのロードマップとなるのでしょうか?

エッジデバイスとコンピューティングにおける AI アプリケーションが未来である理由は何でしょうか?変...

...

...

アルゴリズムの練習とプログラミング学習に最適な 6 つの Web サイト

Google や Facebook のアルゴリズムを理解しなければ、面接に合格することはできません。...

AI合成音声の潜在的な用途は何ですか?

AI Voice はディープラーニングを使用して、実際の人間の音声のピッチ、トーン、リズムをより正...

...

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...