Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Facebook AI(ブシ)、より正確にはMeta AIが、合計128の言語をサポートする自己教師あり音声処理モデルXLS-Rをリリースしました。

[[436245]]

このテクノロジーは、Meta の最新の「Metaverse」ビジョンと密接に関連しています。

会話は人々が交流する自然な方法です。音声技術の発展により、将来の仮想世界は私たちの技術を使って交流できるようになり、仮想体験が現実世界と融合するでしょう。

人間の言語を話すということは、異なる母国語を持つ人々がメタバースで交流できるようにすることを意味します。1 人が英語を話し、もう 1 人が中国語を話し、2 人が XLS-R を通じてメタバースでシームレスにコミュニケーションできるのです。

実際の効果はどうですか?

MetaAIは、22言語から16言語への変換をサポートするHuggingFaceの音声翻訳モデルの試用版をリリースしました。まずは英語から中国語への翻訳効果を試してみましょう。

(翻訳は専門用語っぽいですが、それでも正確で、7秒の文章を翻訳するのに1.53秒しかかかりません)

世界には何千もの言語があることはわかっていますが、AIを使用してこれらの言語間の相互通信を実現するのは簡単ではありません。

一般的に、コーパスの豊富さが言語翻訳モデルの品質を決定します。音声翻訳は一般的に、少数のリソースと複数の言語に重点を置いています。しかし、少数言語のコーパスは不足していることが多いため、これらの言語を母国語とする人にとっては、高品質な AI 翻訳を実現することが難しい場合が多くあります。

XLS-R は自己監督技術を使用して音声データを 10 倍トレーニングし、従来の多言語モデル、特に少数言語の処理を大幅に改善します。

XLS-Rの原理

XLS-R は、Facebook が昨年リリースしたwav2vec 2.0テクノロジーに基づいています。

Wav2vec 2.0 は、オーディオのマスクされた部分から音声単位を予測してトレーニングされる点で BERT に似ています。違いは、音声オーディオは連続した信号であり、単語や他の単位に簡単に明確に分割できないことです。

Wav2vec 2.0 は、25 ミリ秒の長さの基本単位を学習することでこの問題に対処し、高レベルのコンテキスト表現を学習できるようにします。

わずか 1 時間のラベル付きトレーニング データで、wav2vec 2.0 は、その後の教師なしトレーニング データを使用した LibreSpeech ベンチマークの 100 時間のサブセットで SOTA パフォーマンスを達成できます。

その後、Facebook は、録音された音声とペアになっていないテキストのみから学習する、完全に教師なしの高性能音声認識モデルであるwav2vec-Uをリリースしました。

Facebook は、wav2vec-U に音声録音内の単語を認識させるため、GAN をトレーニングしました。ジェネレーターは、自己教師あり表現に埋め込まれた各オーディオ セグメントに基づいて、言語の音に対応する音素を予測します。

識別器は、予測された音素シーケンスが現実的であるかどうかを評価する役割を担います。最初は転写が非常に悪いですが、時間が経つにつれて、識別器からのフィードバックにより転写は正確になります。

このようにして、ジェネレーターの音声認識出力と実際のテキストを区別することを学習します。

これを基に、Facebook は 53 の言語をカバーする XLSR を開始しました。

新しくリリースされた XLS-R には 128 の言語が含まれており、これは XLSR の 2 倍以上の言語数であり、データ量は後者の 10 倍で、合計436,000 時間の音声です。

XLS-R は合計20 億のパラメータを持ち、テストされた 37 言語のほとんどで以前の研究を上回りました。ラオス語などの小さな言語の認識でも、エラー率は以前よりも低くなります。

さらに、XLS-R は、インドネシア語から英語への翻訳など、リソースの少ない言語と英語間の翻訳も大幅に改善し、BLEU (バイリンガル翻訳品質評価) の精度が平均で 2 倍になりました。

CoVoST-2 音声翻訳ベンチマークでは、XLS-R は 21 の英語翻訳方向で従来の技術よりも平均 7.4 BLEU 向上しました。

下の図からわかるように、XLS-R はリソースの少ない言語で特に大きな改善が見られます。

XLS-Rの微調整

XLS-R は、事前トレーニング済みのモデルにすぎません。特定のタスクをより適切に実行するには、モデルを微調整する必要があります。

Hugging Face では、詳細な微調整チュートリアルを公式に提供しています。

さらに、公式では、さまざまなパラメータスケールの音声認識モデルや、15の言語と英語間の翻訳モデルも提供しており、ユーザーがダウンロードできます。

ポータル

公式ブログ:
https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

GitHub ページ:
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

論文の宛先:
https://arxiv.org/abs/2111.09296v1

トライアルウェブページアドレス:
https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

微調整方法の簡単な紹介:
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2

<<:  米国商務省は、輸出規制に脳コンピューターインターフェース技術を含める予定です。このブラックテクノロジーは3年間で2度ブラックリストに載った

>>:  GAN が「思考を偽装」してネイチャー誌に登場: 初の合成神経活動データ

ブログ    
ブログ    

推薦する

...

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

タオ氏の新しい論文:有名な素数予想を部分的に証明、新しい方法は彼の古いモデルを使用する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

TCPとUDPの違いと、フロー制御、輻輳制御、高速再送、高速回復アルゴリズムの詳細な説明

[[413351]] UDPとTCPの違い前回の記事では、TCP の接続を確立するための 3 ウェイ...

AI は世界を変える。e コマースのビジネス シナリオで顔認識をどのように活用するのでしょうか?

【51CTO.comオリジナル記事】 1. 概要今日、コンピュータービジョンとディープラーニングの...

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...

...

製造業者はデジタルツインをどのように活用して生産性を向上できるでしょうか?

メーカーは、競争上の優位性を獲得し、コストを削減し、顧客によりカスタマイズされた体験を提供するために...

...

...

老黄が勝利! Nvidia H100の注文は24年待ち、マスク氏も黙っていられない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

10 分でチャットボットを作成するにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

人工知能がデジタル時代の教師の変革を促進

2021年人工知能と教育に関する国際会議では、人工知能と教育・指導の深い融合を推進し、人工知能を利用...

百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

4月20日の最新ニュースは、百度がApollp Robotaxi自動運転タクシーサービスの全面オー...