アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表し、世界の音声認識精度記録を96.04％に引き上げました（このデータテストは、世界最大の無料音声認識データベースであるLibriSpeechに基づいています）。

このモデルの開発はDAMOアカデミーの機械知能研究所の音声認識チームが主導し、世界中の企業や個人にオープンソースとして公開することを発表しました。業界で最も広く使用されているモデルである LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを使用するスマートスピーカーやスマートホームデバイスでは、前世代のテクノロジーと比較して、ディープラーニングのトレーニング速度が 3 倍、音声認識速度が 2 倍向上します。

図：アリババは自社開発のDFSMN音声認識モデルをGitHubプラットフォームでオープンソース化した

先日の雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」が実際の店員との競争の中で、騒がしい環境でもユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文した。さらに、この音声認識技術を搭載した自動券売機も上海地下鉄で導入されている。

著名な音声認識の専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回オープンソース化したDFSMNモデルは、音声認識精度の着実な向上において画期的な成果を収めた。これは近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。業界関係者は、DFSMNが従来のLSTMモデルに次ぐ、世界の音声認識分野で最も重要な音響認識モデルの1つになると期待していると述べた。

<<: 全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

>>: 人工知能とビッグデータの違い

オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場

ブログ

プロジェクトを始めたいけれど、どこから始めればいいのか分からないですか?興味深いオープンソースの機械学習プロジェクト7つを試してみる

プロジェクトを始めたいけれど、どこから始めればいいのか分からないですか?興味深いオープンソースの機械学習プロジェクト7つを試してみる

ブログ

2022年に注目すべき6つのAIトレンド

2022年に注目すべき6つのAIトレンド

ブログ

次世代AIの成功は効果的なパイロット戦略から始まります

次世代AIの成功は効果的なパイロット戦略から始まります

ブログ

ブログ

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

ブログ

気候変動と闘うためのAIの8つのガイドライン

気候変動と闘うためのAIの8つのガイドライン

ブログ

ブログ

Google Brainは、T5の最大7倍の事前トレーニング速度を備えた簡素化されたスパースアーキテクチャを提案しています。

Google Brainは、T5の最大7倍の事前トレーニング速度を備えた簡素化されたスパースアーキテクチャを提案しています。

ブログ

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

ブログ

推薦する

Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している

[[401455]]地熱発電は地球の地下の自然の熱を利用して電気を生み出すので、魅力的な点がたくさん...

人間の農業の将来は主にロボットに依存することになるのでしょうか?基本的に人間の介入は必要ありません

予想外のことが起こらなければ、人類は人工知能の時代へと急速に進んでいくだろう。ウェイター、宅配便業者...

...

AI テクノロジーはヘルスケアの変革にどのように役立つのでしょうか?

【51CTO.comオリジナル記事】近年、「人工知能」（AI）という言葉が頻繁に登場し、今日ではこ...

なぜAlipayは携帯電話の闇市場に関与しないのでしょうか?公式回答: 犯罪者は顔認識を突破できない

「携帯電話1台で世界中を旅する」というのは、ほぼすべての人の現状です。アクセスカード、バスカード、鍵...

トラフィックエンジニアリングによりコード生成の精度が2倍に向上: 19%から44%

新しい論文の著者は、コード生成を「強化」する方法を提案しています。コード生成は人工知能においてますま...

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

...

AIはGoogleの変革のツールとなり得るか？

[[252713]]画像出典: Visual China 2018年の中国インターネット業界を一言...

製造業の変革を促進、産業改革のためのAI主導ソリューション

製造業において、インダストリー 4.0 は単なる流行語ではなく、新たな現実となっています。新型コロナ...

コロナウイルスのパンデミックはデジタル音声技術に新たな刺激を与えた

突然、タッチを恐れるようになった世界で、音声テクノロジーはまったく新しい様相を呈し始めています。 [...

清華大学チームは、GPT-4V、Google Bard、その他のモデルをクラックしました。商用のマルチモーダル大規模モデルも脆弱なのでしょうか?

GPT-4 は最近、視覚モダリティ (GPT-4V) を公開しました。 GPT-4V や Goog...

OpenAI の Whisper モデルを使用して音声をテキストに変換する

翻訳者 |ブガッティレビュー | Chonglou図1. OpenAI Whisperモデルの動作原...

ディープラーニングの19の格闘技を見てください。絶滅危惧動物の保護にも役立ちます

絶滅危惧動物を研究する上で最大の課題の一つは、その数を正確に推定することであり、各個体を追跡して詳細...

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

ポッドキャスティングは、よりカジュアルな形式のオーディオストーリーテリングへと進化しています。複雑な...