GoogleのオープンソースAIは92%の精度で音を区別できる

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]]

VentureBeatによると、Googleの人工知能研究部門は音声認識において新たな進歩を遂げ、騒がしい環境でも最大92%の精度で音を区別できるようになったという。 Googleの人工知能研究部門は、「完全教師付き話者ダイアライゼーション」と題した論文でこの新しいAIシステムについて説明し、「より効率的に音声を認識できる」と述べた。

この強力な AI システムには、話者ダイアライゼーションのタスクが含まれます。これには、「いつ」から「いつ」まで「誰が」話しているかをラベル付けし、音声サンプルを一意で均質なセグメントに分割することが必要です。また、新しい話者の発話を、これまでに遭遇したことのない音声の断片と関連付けることもできます。

そのコアアルゴリズムはすでにオープンソースで利用可能です。 NIST SRE 2000 CALLHOME ベンチマークでオンライン 2 値化エラー率 (DER) 7.6% を達成しました。これは、Google が以前に使用したアプローチの 8.8% と比較して、リアルタイム アプリケーションに十分な低さです。

Google の研究者による新しいアプローチは、内部状態を使用して入力のシーケンスを処理できる機械学習モデルの一種であるリカレント ニューラル ネットワーク (RNN) を通じて、話者の埋め込み (単語やフレーズの数学的表現など) をシミュレートします。各スピーカーは独自の RNN インスタンスから開始し、新しい埋め込みが与えられると RNN の状態が継続的に更新され、システムがスピーカーによって共有される高度な知識を学習できるようになります。

「システムのすべてのコンポーネントは教師あり設定で学習できるため、高品質のタイムスタンプ付き話者ラベルトレーニングデータが利用できる場合は、教師なしシステムよりも優先されます」と研究者は論文に記している。「私たちのシステムは完全に教師ありで、タイムスタンプ付き話者ラベルの例から学習することができます。」

研究チームは今後の研究で、コンテキスト情報を統合してオフラインデコードを実行できるようにモデルを改良し、DER をさらに削減することを計画しています。研究者らはまた、音響特徴を直接モデル化して、話者ダイアライゼーションシステム全体をエンドツーエンドでトレーニングできるようにしたいと考えている。

<<:  ゼロからヒーローへ、OpenAIが深層強化学習リソースをリリース

>>:  アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

5Gベアラネットワークの運用は難しいが、機械学習技術で解決できる

5G の商用化が近づいており、通信事業者が 5G ベアラ ネットワークを構築するための時間はあまり残...

AIが「エッジ」に必要である理由

インテリジェンスは急速に増加しており、今日では、新しい生成型人工知能 (gen-AI) と機械学習 ...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

...

座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

マイクロソフト CEO ナデラ氏へのインタビュー: 人工知能の全体的な方向性と将来はどのようなものでしょうか?

人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...

クラウド コンピューティングの限界: エッジでの機械学習が必要な理由

機械学習には高い処理要件があり、通信コストがかかることから、最終的にはエッジ(スマートフォン)で動作...

研究者は特別な画像を使って人工知能を「毒する」

DALL-E、Midjourney、Stable Diffusion などの AI 生成アート ツ...

二度とアルゴリズムの罠に陥らないでください!背後にいる人物を見つけ出す

誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...

AI は DevOps をどのように変えるのでしょうか?

DevOps は、コードの品質を損なうことなく、ソフトウェア開発プロセスを加速し、顧客に価値をより...

遺伝的アルゴリズムの基本概念と実装(Java 実装例付き)

上図(左)に示すように、個体が複数の染色体で構成され、各染色体が複数の遺伝子で構成されている場合に遺...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...

...

ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

過去 10 年間で、機械学習 (特にディープラーニング) の分野では多数のアルゴリズムとアプリケーシ...