世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

[[416170]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、Facebook は世界最大の多言語音声データセットである VoxPopuli をオープンソース化しました。

このデータセットは23 の言語をカバーし、 400,000時間以上にわたります。

各言語には、9,000 ～ 18,000 時間のラベルなし音声データがあります。

さらに、16 言語で合計 1,800 時間の文字起こし音声データと、15 の対象言語で合計 17,300 時間の通訳音声データも含まれています。

海外のネットユーザーたちはすぐにこの行動を賞賛した。

当然のことながら、データセットがすでに存在する場合は、それを倫理的に活用し、人間社会の改善に役立てる必要があります。

このデータセットの大量のラベルなしデータと幅広い言語カバレッジは、自己教師モデルの改善に大いに役立ちます。

Facebook はまた、音声変換ニューラルネットワークのトレーニングの信頼性を高めるために、音声データセットの品質と堅牢性の向上にも貢献したいと考えています。

最終的には、新しい NLP システムの開発が加速され、AI 翻訳がますます効果的になります。

データセットの名前である VoxPopuli は文字通り「人々の声」を意味し、元のデータのソースも示しています。

ソース音声はすべて、2009年から2020年までの欧州議会の活動の録音から収集されています。

2010年ヨーロッパ会議のコーパス

欧州議会の本会議、委員会会議、その他の行事などの各行事では、演説者が交代でさまざまな EU 言語で演説を行います。

Facebook は、欧州会議の公式ウェブサイトから各スピーチのテキストトランスクリプト、講演者情報、開始/終了タイムスタンプを取得しました。

次に、すべての生の音声データが処理され、大まかに次の 3 つのカテゴリに分類されます。

23 言語の 40 万時間分のラベルなし音声データ

各言語には 8,000 から 20,000 を超える生の音声データがあります。

そのため、Facebook のエネルギーベースの音声起動検出 (VAD) アルゴリズムは、完全なオーディオを 15 ～ 30 秒の短いセグメントに分割します。

最終的に、データの不均衡があまりなく、データサンプリング戦略の調整を必要としないデータセットが得られます。

したがって、多言語モデルのトレーニングに非常に適しています。

上記の表には、ラベルなしデータに加えて、2 番目のタイプである書き起こされた音声データも含まれています。

16言語で1,800時間分の音声データを書き起こしたもの

欧州会議の公式タイムスタンプは会議の講演者を特定するために使用できますが、多くの場合、短縮されたり、前後のスピーチのクリップと混ざったりするため、完全に正確ではありません。

そのため、Facebook は完全な会話音声に声紋セグメンテーションとクラスタリング (SD) を使用します。

この時点での音声セグメントの平均長さは 197 秒であり、その後、音声認識 (ASR) システムを使用して、約 20 秒の短いセグメントに分割されます。

上の表を見ると、最終データには、各言語の継続時間、話者数、女性話者の割合、マーカー数など、さまざまな属性が含まれていることがわかります。

15 のターゲット言語で 17,300 時間の通訳音声データ:

それぞれのオリジナルスピーチには対応する同時通訳があり、それらは相互に関連しています。

しかし、このデータセットを使用できるようにするには、徹底的な前処理とフィルタリングを行う必要があります。

そのため、Facebook は自動音声認識 (ASR) システムを使用して、ソース音声とターゲット音声を文レベルで一致させました。

領域外半教師あり学習における一般化可能性

それで、このデータセットはどのように機能するのでしょうか?

まず、ドメイン外、言語外の教師なし事前トレーニングを使用して、少数ショットの音声認識を行います。

表から、VP-Mono5K は 5 つの VoxPopuli 言語において XLSR-Mono および XLSR-10 よりも優れていることがわかります。

VP-100K は、10 言語のうち 8 言語で XLSR-10 よりも優れたパフォーマンスを発揮します。

また、XLSR-53 は Zh 言語をカバーしていますが、Zh でのパフォーマンスは VP-100K (Large) には遠く及びません。

これは、VP-100K によって学習された音声表現が非常に一般化可能であることを示しています。

次に、VoxPopuli データセットを使用した自己トレーニングまたは弱い監督のための言語翻訳 (ST) と音声認識 (ASR) があります。

表からわかるように、ドメイン内言語かドメイン外言語かに関係なく、VoxPopuli の自己トレーニングによってほとんどの場合パフォーマンスが向上します。

また、翻訳では高価なラベルデータを追加する必要はありません。

自己トレーニングを通じて、エンドツーエンドモデルとカスケードモデル間のギャップを狭めることができます。

論文の宛先:
https://arxiv.org/abs/2101.00390

ダウンロード：
https://github.com/facebookresearch/voxpopuli

<<: ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

>>: 人工知能と機械学習の違いと機能は何ですか?

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

ブログ

MySQL インデックスのデータ構造とアルゴリズム: インデックスの実装

ブログ

仕事再開時に間接接触を避けるには？顔認識アクセス制御で徹底した予防と管理を実現

ブログ

サイバーセキュリティにおける機械学習：課題と比較

ブログ

私は 8 つの企業と面接しましたが、機械学習に関する次のような質問をされました…

ブログ

新たなブレークスルー：科学者が脳のようなナノワイヤネットワークを開発し、AIが人間のリアルタイム学習と記憶を模倣できるようにする

ブログ

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

2010年ヨーロッパ会議のコーパス

領域外半教師あり学習における一般化可能性

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

MySQL インデックスのデータ構造とアルゴリズム: インデックスの実装

仕事再開時に間接接触を避けるには？顔認識アクセス制御で徹底した予防と管理を実現

サイバーセキュリティにおける機械学習：課題と比較

私は 8 つの企業と面接しましたが、機械学習に関する次のような質問をされました…

新たなブレークスルー：科学者が脳のようなナノワイヤネットワークを開発し、AIが人間のリアルタイム学習と記憶を模倣できるようにする

推薦する

これらの業界をリードする大型モデルはすべて1つの会社によって「買収」されました

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

HellobikeがAIベースのシェアモビリティ技術を発表

Github が絶賛: モザイクテキスト = 無意味、AI があなたの思考をすべて見抜く、オープンソースに

三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

深層強化学習とは：次世代のAIと深層学習

2018年末のAI分野におけるオープンソースフレームワークのまとめ

人間は「作り笑顔」を認識できますが、ロボットはどうでしょうか?

ホテル業界が人工知能と機械学習を活用して利益を最大化する方法

孫玄: Zhuanzhuan が AI エンジニアリングアーキテクチャシステムを構築する方法

エンタープライズレベルのAIインフラの構築を加速する「Fourth Paradigm」は、評価額約20億ドルでC+ラウンドの資金調達を完了した。

AIは医者と同等でしょうか？

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

tf.keras と Eager Execution を使用して複雑な問題を解決する方法