Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

国慶節の連休中、Douyinの「方言一つで故郷の出身者と証明」というアクティビティが全国のネットユーザーから熱心な参加を集めた。このトピックはDouyinのチャレンジリストでトップとなり、5000万回以上視聴された。

この「地方方言大賞」が人気を博した理由は、Douyinが開始した地方方言の新たな自動翻訳機能によるところが大きい。クリエイターが母国語の方言で短い動画を撮影する場合、「自動字幕」機能を使用し、「北京語の字幕に変換」を選択すると、動画コンテンツ内の方言の音声が自動的に認識され、動画内の方言コンテンツが北京語の字幕に変換されるため、他の地域のネットユーザーがさまざまな「暗号化された北京語」を簡単に理解できるようになります。福建省のネットユーザーが実際に試してみたところ、地域によって発音が異なる閩南語でも正確に翻訳できると語り、「TikTokで閩南語が何でもできる時代はもう終わった」と絶賛した。

ご存知のとおり、音声認識や機械翻訳のモデル学習には大量の学習データが必要です。しかし、方言は口頭で広まるため、モデル学習に利用できる方言コーパスデータはほとんどありません。では、この機能の技術サポートを行っている Volcano Engine 技術チームは、どのようにしてこの画期的な成果を達成したのでしょうか。

方言識別段階

Volcano Voice チームは長年にわたり、人気のビデオプラットフォーム向けに音声認識技術に基づいたインテリジェントなビデオ字幕ソリューションを提供してきました。簡単に言えば、ビデオ内の音声と歌詞を自動的にテキストに変換し、ビデオ作成を支援することができます。

このプロセスの中で、技術チームは、従来の教師あり学習は、特に主要言語の継続的な最適化とマイナー言語のコールドスタートにおいて、手動でラベル付けされた教師ありデータに大きく依存していることを発見しました。中国語や英語などの主要言語を例にとると、ビデオプラットフォームはビジネスシナリオに十分な音声データを提供しますが、教師ありデータが一定の規模に達すると、継続的なラベル付けのROIは非常に低くなります。技術者は、主要言語の音声認識の効果をさらに高めるために、数百万時間のラベルなしデータをどのように効果的に活用するかを必然的に検討する必要があります。

比較的ニッチな言語や方言の場合、リソースと人的資源の理由により、データのラベル付けのコストが高くなります。ラベル付けされたデータが非常に少ない場合 (10 時間程度)、教師ありトレーニングの効果は非常に低く、正常に収束しない可能性さえあります。また、購入したデータはターゲットシナリオに一致せず、ビジネスニーズを満たすことができないことがよくあります。

チームは以下のアプローチを採用しました。

低リソース方言自己監督

チームは、Wav2vec 2.0 自己教師学習技術に基づいて、ラベル付けされたデータがほとんどなくても方言 ASR 機能を実現する Efficient Wav2vec を提案しました。 Wav2vec2.0 のトレーニングが遅く、結果が不安定になるという問題を解決するために、一方では波形の代わりにフィルターバンク機能を使用して計算量を減らし、シーケンス長を短くし、フレームレートを下げることで、トレーニング効率を 2 倍にし、他方では等長データストリームと適応連続マスクを使用して、トレーニングの安定性と効果を大幅に向上させました。

この実験は、50,000 時間のラベルなし音声と 10 時間のラベル付き音声を使用して、広東語で実施されました。結果は次の表に示されています。効率的な Wav2vec (w2v-e) では、100M および 300M パラメータのモデルで Wav2vec 2.0 と比較して CER が 5% 減少し、トレーニングオーバーヘッドが半分になっています。

さらに、研究チームは、自己教師あり事前学習モデルを微調整して得られたCTCモデルをシードモデルとして、ラベルなしデータを疑似ラベル付けした後、より少ないパラメータ数でエンドツーエンドのLASモデルに提供して学習させた。これにより、モデル構造の移行と推論計算量の圧縮を同時に実現し、成熟したエンドツーエンドの推論エンジンに基づいてオンラインで直接展開できるようになった。この技術は、リソースの少ない 2 つの方言に適用され、10 時間のラベル付きデータを使用して 20% 未満の単語エラー率を達成しました。

キャプション: モデルパラメータと CER の比較

図: 教師なし学習に基づく ASR の実装プロセス

方言大規模事前学習+微調整学習モード

教師ありデータの注釈付けが完了した後、ASR モデルの継続的な最適化は非常に重要な研究方向です。半教師あり学習と教師なし学習は長い間非常に人気がありました。教師なし事前学習の主なアイデアは、ラベルなしデータセットを最大限に活用してラベル付きデータセットを拡張し、小規模な並列コーパスでより良い認識結果を達成することです。アルゴリズムのフローは次のとおりです。

（１）まず、手動で注釈を付けられた教師ありデータを使用してシードモデルをトレーニングし、次にそのモデルを使用してラベルなしデータを疑似ラベル付けします。

（２）疑似ラベル生成プロセスでは、ラベルなしデータに対するシードモデルの予測がすべて正確になることは不可能であるため、価値の低いデータを過剰に学習させる戦略を採用する必要がある。

（３）次に、生成された疑似ラベルを元のラベル付きデータと組み合わせ、組み合わせたデータに対して共同トレーニングを実行する。

（４）学習過程で大量の教師なしデータが追加されるため、教師なしデータの疑似ラベルの品質が教師ありデータの疑似ラベルほど良くない場合でも、より一般的な表現が得られることが多い。ビッグデータに基づいてトレーニングされた事前トレーニングモデルを使用し、手動でラベル付けされた方言データを使用して微調整します。これにより、事前トレーニングによってもたらされる優れた一般化を維持しながら、モデルの方言認識を向上させることができます。

5 つの方言の平均 CER (単語誤り率) は 35.3% から 17.21% に最適化されました。

	平均単語誤り率	広東語	福建省南部	上海	中原マンダリン	南西部中国語
単一の方言	35.3	14.05	48.87	41.29	61.56	10.7
100wh 事前トレーニング + 方言混合微調整	17.21	13. 14	22.84	19.60	19. 50	10.95

方言翻訳段階

通常、機械翻訳モデルのトレーニングには、大量のコーパスのサポートが必要です。しかし、方言は話し言葉で広まっていることが多く、方言の利用者は年々減少しています。これらの現象により、方言コーパスデータの収集の難易度が高まり、方言の機械翻訳効果を向上させることも困難になっています。

方言コーパスの不足という問題を解決するために、Volcano Translation チームは多言語翻訳モデル mRASP (multilingual Random Aligned Substitution Pre-training) と mRASP2 を提案しました。対照学習を導入し、アライメント強化法を補完することで、単一言語コーパスと二言語コーパスが統一されたトレーニングフレームワークに含まれ、コーパスを最大限に活用して言語に依存しないより優れた表現を学習し、多言語翻訳のパフォーマンスを向上させます。

論文アドレス: https://arxiv.org/abs/2105.09501

対照的な学習タスクを追加する設計は、異なる言語の同義語の文のエンコードされた表現は、高次元空間内の隣接する位置にある必要があるという古典的な仮定に基づいています。異なる言語の同義語の意味は同じであるため、つまり、「エンコード」プロセスの出力は同じです。たとえば、「おはようございます」と「おはようございます」という 2 つの文は、中国語と英語を理解する人にとっては同じ意味を持ちます。これは、「エンコードされた表現が高次元空間内の隣接する位置にある」ということに対応します。

トレーニング目標の設計

mRASP2 は、従来のクロスエントロピー損失にコントラスト損失を追加し、マルチタスク形式でトレーニングを実行します。図中のオレンジ色の矢印は、従来、機械翻訳のトレーニングにクロスエントロピー損失（CE損失）を使用する部分を示しており、黒い部分は、コントラスト損失（CTR損失）に対応する部分を示しています。

単語アライメントデータ拡張法は、Aligned Augmentation (AA) とも呼ばれ、mRASP の Random Aligned Substitution (RAS) 法から開発されました。

図に示すように、図(a)は対訳コーパスの拡張プロセスを示し、図(b)は単一言語コーパスの拡張プロセスを示しています。図(a)では、元の英語の単語が対応する中国語の単語に置き換えられています。図(b)では、元の中国語の単語がそれぞれ英語、フランス語、アラビア語、ドイツ語に置き換えられています。 mRASP の RAS は、バイリンガル同義語辞書の提供のみを必要とする最初の置換方法と同等ですが、2 番目の置換方法では、複数の言語をカバーする同義語辞書の提供が必要になります。最終的にアライメント強化法を使用する場合、方法 (a) のみ、または方法 (b) のみを使用できることに注意してください。

実験結果によると、mRASP2 は教師あり、教師なし、ゼロリソースのシナリオで翻訳パフォーマンスを向上させることが示されています。教師ありシナリオでは平均 1.98 BLEU 向上し、教師なしシナリオでは平均 14.13 BLEU 向上し、ゼロリソースシナリオでは平均 10.26 BLEU 向上しました。この方法は、幅広いシナリオで大幅なパフォーマンスの向上を実現し、リソースの少ない言語のトレーニングデータが不足するという問題を大幅に軽減できます。

最後に

方言と中国語は互いに補完し合い、どちらも中国の伝統文化の重要な担い手です。方言が伝える「地方訛り」は、中国人の故郷の感情的な象徴であり、感情的な絆です。短い動画と方言翻訳の助けを借りて、大多数のユーザーが世界中のさまざまな地域の文化を障害なく鑑賞するのに役立ちます。

現在、Douyinの「方言翻訳」機能は、広東語、閩語、呉語（上海）、西南方言（四川）、中原方言（陝西、河南）などをサポートしています。今後、さらに多くの方言がサポートされる予定とのことなので、楽しみに待ちましょう。

<<: 危険すぎる。Google は過去 12 年間、いまだにこれを公表しようとしない。

>>: Baidu World 2023 ネタバレ丨ドキュメントで PPT を生成し、ワンクリックで長い記事を要約... Baidu Library AI「ブラックテクノロジー」がスマートオフィスの革新をリード

ブログ

9 トピック PyTorch での畳み込みニューラルネットワーク (CNN) の実装

ブログ

Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

IEEE: AI の時代において、基本的なサイバー衛生で十分でしょうか?

デジタルマーケティング: AI はどのようにして人間の行動パターンを「見抜く」のでしょうか?

tf.keras と Eager Execution を使用して複雑な問題を解決する方法

OpenAI、「超知能」AIを制御するための新チームを発表

9 トピック PyTorch での畳み込みニューラルネットワーク (CNN) の実装

推薦する

AIとIoTが健康や医療のスマートイノベーションに貢献

LLaMA2コンテキストを10万に拡張し、MITと香港中文大学はLongLoRAメソッドを開発

GPT-4が化学者になる！ USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

TensorFlow レビュー: 最高のディープラーニングライブラリ、そして今も進化中

人工知能を理解し、適応する方法

AIと分析がIoT収益化の鍵となる理由

大規模モデルで長いテキストを評価する方法: 4 つの主要な評価データセットのタスク設計とデータセット構築ソリューション

将来、自動運転車が世界をどのように変えるか

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイムレンダリングフレームワーク

機器の検査に手作業が必要な人はいますか? AIの活用