VentureBeatによると、Googleの人工知能研究部門は音声認識において新たな進歩を遂げ、騒がしい環境でも最大92%の精度で音を区別できるようになったという。 Googleの人工知能研究部門は、「完全教師付き話者ダイアライゼーション」と題した論文でこの新しいAIシステムについて説明し、「より効率的に音声を認識できる」と述べた。 この強力な AI システムには、話者ダイアライゼーションのタスクが含まれます。これには、「いつ」から「いつ」まで「誰が」話しているかをラベル付けし、音声サンプルを一意で均質なセグメントに分割することが必要です。また、新しい話者の発話を、これまでに遭遇したことのない音声の断片と関連付けることもできます。 そのコアアルゴリズムはすでにオープンソースで利用可能です。 NIST SRE 2000 CALLHOME ベンチマークでオンライン 2 値化エラー率 (DER) 7.6% を達成しました。これは、Google が以前に使用したアプローチの 8.8% と比較して、リアルタイム アプリケーションに十分な低さです。 Google の研究者による新しいアプローチは、内部状態を使用して入力のシーケンスを処理できる機械学習モデルの一種であるリカレント ニューラル ネットワーク (RNN) を通じて、話者の埋め込み (単語やフレーズの数学的表現など) をシミュレートします。各スピーカーは独自の RNN インスタンスから開始し、新しい埋め込みが与えられると RNN の状態が継続的に更新され、システムがスピーカーによって共有される高度な知識を学習できるようになります。 「システムのすべてのコンポーネントは教師あり設定で学習できるため、高品質のタイムスタンプ付き話者ラベルトレーニングデータが利用できる場合は、教師なしシステムよりも優先されます」と研究者は論文に記している。「私たちのシステムは完全に教師ありで、タイムスタンプ付き話者ラベルの例から学習することができます。」 研究チームは今後の研究で、コンテキスト情報を統合してオフラインデコードを実行できるようにモデルを改良し、DER をさらに削減することを計画しています。研究者らはまた、音響特徴を直接モデル化して、話者ダイアライゼーションシステム全体をエンドツーエンドでトレーニングできるようにしたいと考えている。 |
<<: ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース
>>: アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する
[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...
2月24日、Metaは「Spring Festival Gala」で、チーフサイエンティストのYan...
[[430184]]さまざまなアイテムの製造における 3D プリントの人気が高まるにつれ、特定の用途...
CNN というと、最初は特定のテレビ局を思い浮かべる人が多かったのですが、数年後にはディープラーニン...
AIトレンドがあらゆるところに広がる2021年を迎える準備はできていますか? 2021 年のトップ ...
革新的な建設技術により、大規模建設プロジェクトの安全性、効率性、生産性が大幅に向上します。建設業界に...
画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、スイスのグラウビュンデン応用科学大学のチームが、円周率の62.8兆桁の計算を101日と9時間で...
「新インフラ」は中国の「産業インテリジェンス」に強力な新たな原動力をもたらした。インテリジェント時...
諺にあるように、何千冊もの本を読むことは何千マイルも旅をすることと同じです。休暇中に本を読まないわけ...