AIリップリーディング、騒音環境でも最大75%の音声認識精度

AIリップリーディング、騒音環境でも最大75%の音声認識精度

人は話者の唇の動きを聞いて観察することで会話を認識します。

では、AI も同じことができるのでしょうか?

実際、研究によれば、視覚的な手がかりは言語学習において重要な役割を果たすことがわかっています。対照的に、AI 音声認識システムは主に音声に基づいています。そして、トレーニングには通常、数万時間分の録音など、大量のデータが必要になります。

視覚効果、特に口の動きの映像が音声認識システムのパフォーマンスを向上させるかどうかを調査します。 Meta の研究者は、人の話し方を見て聞いて学習することで言語を理解するためのフレームワークである Audio-Visual Hidden Unit BERT (AV-HuBERT) を開発しました。

Meta は、AV-HuBERT は、同じ量の文字起こしを使用する最高のオーディオビジュアル音声認識システムよりも 75% 正確であると主張しています。さらに同社によれば、AV-HuBERT はラベル付けされたデータの 10 分の 1 を使用して、これまでの最高のオーディオビジュアル音声認識システムよりも優れた性能を発揮し、オーディオビジュアルデータが不足している言語にも潜在的に役立つ可能性があるという。

「将来的には、AV-HuBERT のような AI フレームワークを使用して、パーティーや混雑した通りでのやり取りなど、騒がしい日常の状況での音声認識技術のパフォーマンスを向上させることができます」と Meta AI の研究科学者である Abdelrahman Mohamed 氏は述べています。「スマートフォンのアシスタント、拡張現実メガネ、Alexa Echo Show のようなカメラ付きスマートスピーカーも、この技術の恩恵を受けることができます。」

現在、Meta は関連コードを GitHub にオープンソース化しています。

AV-HuBERT

Meta は、唇の動きを読み取る問題に人工知能を適用した最初の企業ではありません。 2016年、オックスフォード大学の研究者らは、いくつかのテストで熟練した唇の動きを読み取る人のほぼ2倍の精度を誇り、ビデオをリアルタイムで処理できるシステムを開発した。 2017年、アルファベットのディープマインドは、何千時間ものテレビ番組を使ってシステムをトレーニングし、テストセット上の単語の約50%をエラーなく正確に翻訳することができた。これは、人間の専門家が達成した12.4%をはるかに上回る数字だ。

しかし、オックスフォード モデルとディープマインド モデルは、その後の多くの唇読み取りモデルと同様に、認識できる単語の範囲が限られています。これらのモデルでは、トレーニング用にトランスクリプトとペアになったデータセットも必要であり、ビデオ内のどのスピーカーの音声も処理できません。

少し独特なのは、AV-HuBERT が教師なし学習または自己教師学習を活用していることです。教師あり学習では、DeepMind のようなアルゴリズムは、例と特定の出力の間の根本的な関係を検出できるようになるまで、ラベル付けされた例データでトレーニングされます。たとえば、コーギーの写真を見せられたときに「犬」という単語を書くようにシステムをトレーニングすることができます。ただし、AV-HuBERT はラベルのないデータを分類する方法を自ら学習し、データを処理してその固有の構造から学習します。

AV-HuBERT は、一連の音声と唇の動きの手がかりを通じて音声を認識することを学習する点でマルチモーダルでもあります。 AV-HuBERT は、発話中の唇や歯の動きなどの手がかりと聴覚情報を組み合わせることで、これら 2 つのデータ タイプ間の微妙な相関関係を捉えることができます。

オリジナルの AV-HuBERT モデルは 30 時間の TED トーク ビデオでトレーニングされましたが、これは以前の最先端モデルに必要だった 31,000 時間のトレーニング時間よりも大幅に短いものでした。しかし、より少ないデータでトレーニングされたにもかかわらず、話者の姿は見えても声が聞こえない状況での AV-HuBERT の単語誤り率 (WER) (音声認識性能の指標) は、旧モデルの 33.6% から 32.5% にわずかに向上しました。 (WER は誤認識された単語の数を総単語数で割って計算されます。32.5% は 30 単語につき約 1 つのエラーに相当します。) 433 時間の TED 講演のトレーニングにより、AV-HuBERT の WER はさらに 28.6% に減少しました。

AV-HuBERT がデータの構造と相関関係を十分に理解すると、研究者はラベルなしデータでさらにトレーニングできるようになりました。これにより、WER が 26.9 パーセントに低下しただけでなく、特定のアプリケーション (複数の人が同時に話しているときなど) や異なる言語のフレームワークをトレーニングするには、少量のラベル付きデータのみが必要であることが示されたと Meta は述べています。

実際、Meta は、バックグラウンドで大音量の音楽やノイズが流れているときに人の発話を認識する能力が、オーディオのみのモデルよりも AV-HuBERT の方が約 50% 優れていると主張しています。また、発話とバックグラウンド ノイズが同じくらい大きい場合、AV-HuBERT は、これまでの最高のマルチモーダル モデルの 25.5% と比較して 3.2% の WER を達成しています。

潜在的なデメリット

多くの点で、AV-HuBERT は、複雑なタスクに対する教師なしのマルチモーダル技術への Meta の投資の増加を象徴しています。

Meta氏は、AV-HuBERTは「低リソース」言語向けの会話モデルを開発する可能性を開く可能性があると述べた。同社によれば、AV-HuBERT は、発話障害を持つ人々のための音声認識システムの作成や、ディープフェイクの検出、仮想現実アバターのリアルな唇の動きの生成にも使用できるという。

あらゆる側面からのデータから見ると、この新しい方法のパフォーマンスは確かに非常に印象的ですが、一部の学者は懸念も抱いています。

その中で、ワシントン大学の人工知能倫理の専門家であるオス・ケイ氏は、ダウン症や脳卒中などの病気によって顔面麻痺を患っている人にとって、唇の動きに頼った音声認識はまだ意味があるのだろうか、と言及した。

マイクロソフトとカーネギーメロン大学がAIの公平性に関する研究ロードマップを示した論文の中で、著者らは、AV-HuBERTのような顔分析システムの一部は、ダウン症、軟骨無形成症(骨の成長を妨げる)、および「特徴的な顔の違いをもたらすその他の症状」を持つ人には機能しない可能性があると指摘している。

モハメド氏は、AV-HuBERT は顔全体ではなく、唇の動きを捉えるために唇の部分だけに焦点を当てていると強調しました。彼は、ほとんどの AI モデルと同様に、AV-HuBERT のパフォーマンスは「トレーニング データ内の多様な集団の代表的なサンプルの数に比例する」と付け加えました。

「私たちのアプローチを評価するために、2018年にオックスフォード大学の研究者が公開したTEDトークビデオで構成される、公開されているLRS3データセットを使用しました。このデータセットは障害のある話者を反映していないため、パフォーマンスが特定の割合で低下することは予想していませんでした」とモハメド氏は語った。

Metaは、「背景の雑音や話者の重なりがよくある日常のシナリオにおいて、視聴覚音声認識モデルを改善するためのベンチマークと方法の開発を継続する」と述べた。

<<:  AIとブロックチェーンが壊れたサプライチェーンを修復する方法

>>:  小さなバッチがディープラーニングの一般化を高める理由

ブログ    
ブログ    
ブログ    

推薦する

「AIGC+」|新たなマーケティングパラダイム:AIGCは海外進出企業にとって「新たな武器」となり得るか?

わずか 1 年で、AIGC がもたらした業界を変革するアプリケーションは、徐々に人々の生活の隅々に浸...

エンジニアリングチームでよく使用される 6 つの AI ツール

アレックス・オメイヤー翻訳者 | 陳俊レビュー | Chonglou人工知能(AI)の急速な進化と発...

AIはGoogleの変革のツールとなり得るか?

[[252713]]画像出典: Visual China 2018年の中国インターネット業界を一言...

DeepTraffic: MIT シミュレーション ゲームがディープラーニングを使用して交通渋滞を緩和

[[196857]]渋滞に巻き込まれるのはイライラするだけでなく、費用もかかります。頭痛の原因になっ...

AIの千里の道のりは一歩から始まる

人類の文明の歴史は、私たち自身を超えるための道具を絶えず生み出してきた歴史です。このトラックでは、ほ...

復旦NLPチームが大規模モデルエージェントの80ページのレビューを公開、AIエージェントの現状と将来を概観

最近、復旦大学の自然言語処理チーム (FudanNLP) が LLM ベースのエージェントに関するレ...

...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

新しいものに直面したとき、あなたはそれに適応しますか、学びますか、拒否しますか、それとも無視しますか...

需要が高まる最高AI責任者

出版社ファウンドリーの新しい調査によると、企業は生産性とイノベーションを高めるために人工知能に注目し...

レポート:中国の人工知能産業は2022年までに300億ドル近くの価値に達する

中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...

人工知能の6つの主要概念とAIプロジェクトを実装するための7つの考慮事項を1つの記事で理解する

AI はすべての問題を解決できるわけではありませんが、正しく適用すれば短期間で大きな変化をもたらすこ...

教育業界における自動問題解決と適応学習AIの応用

[51CTO.comより引用] 近年、人工知能が大流行し、多くの大企業、中堅企業、中小企業が動き始め...

...