Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

国慶節の連休中、Douyinの「方言一つで故郷の出身者と証明」というアクティビティが全国のネットユーザーから熱心な参加を集めた。このトピックはDouyinのチャレンジリストでトップとなり、5000万回以上視聴された。

この「地方方言大賞」が人気を博した理由は、Douyinが開始した地方方言の新たな自動翻訳機能によるところが大きい。クリエイターが母国語の方言で短い動画を撮影する場合、「自動字幕」機能を使用し、「北京語の字幕に変換」を選択すると、動画コンテンツ内の方言の音声が自動的に認識され、動画内の方言コンテンツが北京語の字幕に変換されるため、他の地域のネットユーザーがさまざまな「暗号化された北京語」を簡単に理解できるようになります。福建省のネットユーザーが実際に試してみたところ、地域によって発音が異なる閩南語でも正確に翻訳できると語り、「TikTokで閩南語が何でもできる時代はもう終わった」と絶賛した。

ご存知のとおり、音声認識や機械翻訳のモデル学習には大量の学習データが必要です。しかし、方言は口頭で広まるため、モデル学習に利用できる方言コーパスデータはほとんどありません。では、この機能の技術サポートを行っている Volcano Engine 技術チームは、どのようにしてこの画期的な成果を達成したのでしょうか。

方言識別段階

Volcano Voice チームは長年にわたり、人気のビデオ プラットフォーム向けに音声認識技術に基づいたインテリジェントなビデオ字幕ソリューションを提供してきました。簡単に言えば、ビデオ内の音声と歌詞を自動的にテキストに変換し、ビデオ作成を支援することができます。

このプロセスの中で、技術チームは、従来の教師あり学習は、特に主要言語の継続的な最適化とマイナー言語のコールドスタートにおいて、手動でラベル付けされた教師ありデータに大きく依存していることを発見しました。中国語や英語などの主要言語を例にとると、ビデオプラットフォームはビジネスシナリオに十分な音声データを提供しますが、教師ありデータが一定の規模に達すると、継続的なラベル付けのROIは非常に低くなります。技術者は、主要言語の音声認識の効果をさらに高めるために、数百万時間のラベルなしデータをどのように効果的に活用するかを必然的に検討する必要があります。

比較的ニッチな言語や方言の場合、リソースと人的資源の理由により、データのラベル付けのコストが高くなります。ラベル付けされたデータが非常に少ない場合 (10 時間程度)、教師ありトレーニングの効果は非常に低く、正常に収束しない可能性さえあります。また、購入したデータはターゲット シナリオに一致せず、ビジネス ニーズを満たすことができないことがよくあります。

チームは以下のアプローチを採用しました。

  1. 低リソース方言自己監督

チームは、Wav2vec 2.0 自己教師学習技術に基づいて、ラベル付けされたデータがほとんどなくても方言 ASR 機能を実現する Efficient Wav2vec を提案しました。 Wav2vec2.0 のトレーニングが遅く、結果が不安定になるという問題を解決するために、一方では波形の代わりにフィルターバンク機能を使用して計算量を減らし、シーケンス長を短くし、フレーム レートを下げることで、トレーニング効率を 2 倍にし、他方では等長データ ストリームと適応連続マスクを使用して、トレーニングの安定性と効果を大幅に向上させました。

この実験は、50,000 時間のラベルなし音声と 10 時間のラベル付き音声を使用して、広東語で実施されました。結果は次の表に示されています。効率的な Wav2vec (w2v-e) では、100M および 300M パラメータのモデルで Wav2vec 2.0 と比較して CER が 5% 減少し、トレーニング オーバーヘッドが半分になっています。

さらに、研究チームは、自己教師あり事前学習モデルを微調整して得られたCTCモデルをシードモデルとして、ラベルなしデータを疑似ラベル付けした後、より少ないパラメータ数でエンドツーエンドのLASモデルに提供して学習させた。これにより、モデル構造の移行と推論計算量の圧縮を同時に実現し、成熟したエンドツーエンドの推論エンジンに基づいてオンラインで直接展開できるようになった。この技術は、リソースの少ない 2 つの方言に適用され、10 時間のラベル付きデータを使用して 20% 未満の単語エラー率を達成しました。

キャプション: モデルパラメータと CER の比較

図: 教師なし学習に基づく ASR の実装プロセス

  1. 方言大規模事前学習+微調整学習モード

教師ありデータの注釈付けが完了した後、ASR モデルの継続的な最適化は非常に重要な研究方向です。半教師あり学習と教師なし学習は長い間非常に人気がありました。教師なし事前学習の主なアイデアは、ラベルなしデータセットを最大限に活用してラベル付きデータセットを拡張し、小規模な並列コーパスでより良い認識結果を達成することです。アルゴリズムのフローは次のとおりです。

(1)まず、手動で注釈を付けられた教師ありデータを使用してシードモデルをトレーニングし、次にそのモデルを使用してラベルなしデータを疑似ラベル付けします。

(2)疑似ラベル生成プロセスでは、ラベルなしデータに対するシードモデルの予測がすべて正確になることは不可能であるため、価値の低いデータを過剰に学習させる戦略を採用する必要がある。

(3)次に、生成された疑似ラベルを元のラベル付きデータと組み合わせ、組み合わせたデータに対して共同トレーニングを実行する。

(4)学習過程で大量の教師なしデータが追加されるため、教師なしデータの疑似ラベルの品質が教師ありデータの疑似ラベルほど良くない場合でも、より一般的な表現が得られることが多い。ビッグデータに基づいてトレーニングされた事前トレーニングモデルを使用し、手動でラベル付けされた方言データを使用して微調整します。これにより、事前トレーニングによってもたらされる優れた一般化を維持しながら、モデルの方言認識を向上させることができます。

5 つの方言の平均 CER (単語誤り率) は 35.3% から 17.21% に最適化されました。


平均単語誤り率

広東語

福建省南部

上海

中原マンダリン

南西部中国語

単一の方言

35.3

14.05

48.87

41.29

61.56

10.7

100wh 事前トレーニング + 方言混合微調整

17.21

13. 14

22.84

19.60

19. 50

10.95

方言翻訳段階

通常、機械翻訳モデルのトレーニングには、大量のコーパスのサポートが必要です。しかし、方言は話し言葉で広まっていることが多く、方言の利用者は年々減少しています。これらの現象により、方言コーパスデータの収集の難易度が高まり、方言の機械翻訳効果を向上させることも困難になっています。

方言コーパスの不足という問題を解決するために、Volcano Translation チームは多言語翻訳モデル mRASP (multilingual Random Aligned Substitution Pre-training) と mRASP2 を提案しました。対照学習を導入し、アライメント強化法を補完すること、単一言語コーパスと二言語コーパスが統一されたトレーニング フレームワークに含まれ、コーパスを最大限に活用して言語に依存しないより優れた表現を学習し、多言語翻訳のパフォーマンスを向上させます。

論文アドレス: https://arxiv.org/abs/2105.09501

対照的な学習タスクを追加する設計は、異なる言語の同義語の文のエンコードされた表現は、高次元空間内の隣接する位置にある必要があるという古典的な仮定に基づいています。異なる言語の同義語の意味は同じであるため、つまり、「エンコード」プロセスの出力は同じです。たとえば、「おはようございます」と「おはようございます」という 2 つの文は、中国語と英語を理解する人にとっては同じ意味を持ちます。これは、「エンコードされた表現が高次元空間内の隣接する位置にある」ということに対応します。

トレーニング目標の設計

mRASP2 は、従来のクロスエントロピー損失にコントラスト損失を追加し、マルチタスク形式でトレーニングを実行します。図中のオレンジ色の矢印は、従来、機械翻訳のトレーニングにクロスエントロピー損失(CE損失)を使用する部分を示しており、黒い部分は、コントラスト損失(CTR損失)に対応する部分を示しています。

単語アライメント データ拡張法は、Aligned Augmentation (AA) とも呼ばれ、mRASP の Random Aligned Substitution (RAS) 法から開発されました。

図に示すように、図(a)は対訳コーパスの拡張プロセスを示し、図(b)は単一言語コーパスの拡張プロセスを示しています。図(a)では、元の英語の単語が対応する中国語の単語に置き換えられています。図(b)では、元の中国語の単語がそれぞれ英語、フランス語、アラビア語、ドイツ語に置き換えられています。 mRASP の RAS は、バイリンガル同義語辞書の提供のみを必要とする最初の置換方法と同等ですが、2 番目の置換方法では、複数の言語をカバーする同義語辞書の提供が必要になります。最終的にアライメント強化法を使用する場合、方法 (a) のみ、または方法 (b) のみを使用できることに注意してください。

実験結果によると、mRASP2 は教師あり、教師なし、ゼロリソースのシナリオで翻訳パフォーマンスを向上させることが示されています。教師ありシナリオでは平均 1.98 BLEU 向上し、教師なしシナリオでは平均 14.13 BLEU 向上し、ゼロ リソース シナリオでは平均 10.26 BLEU 向上しました。この方法は、幅広いシナリオで大幅なパフォーマンスの向上を実現し、リソースの少ない言語のトレーニング データが不足するという問題を大幅に軽減できます。

最後に

方言と中国語は互いに補完し合い、どちらも中国の伝統文化の重要な担い手です。方言が伝える「地方訛り」は、中国人の故郷の感情的な象徴であり、感情的な絆です。短い動画と方言翻訳の助けを借りて、大多数のユーザーが世界中のさまざまな地域の文化を障害なく鑑賞するのに役立ちます。

現在、Douyinの「方言翻訳」機能は、広東語、閩語、呉語(上海)、西南方言(四川)、中原方言(陝西、河南)などをサポートしています。今後、さらに多くの方言がサポートされる予定とのことなので、楽しみに待ちましょう。

<<:  危険すぎる。Google は過去 12 年間、いまだにこれを公表しようとしない。

>>:  Baidu World 2023 ネタバレ丨ドキュメントで PPT を生成し、ワンクリックで長い記事を要約... Baidu Library AI「ブラックテクノロジー」がスマートオフィスの革新をリード

ブログ    

推薦する

わが国には「人工知能」関連企業が43万社以上あり、2021年上半期には前年比150.8%増加した。

IT Homeは7月5日、統計によると、現在わが国には43万9000社の「人工知能」関連企業がある...

AIを活用して混雑した都市での駐車のストレスを軽減

混雑した市街地でドライバーが駐車スペースを見つけるのを助ける人工知能がバース大学で開発されている。こ...

...

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...

ニューラルネットワークアルゴリズムの利点と応用

[[211834]]人工ニューラル ネットワーク (ANN) は脳の処理メカニズムに基づいており、複...

今日は秋分の日で収穫の季節。ドローンがショーの中心です。

9月22日は秋分の日であり、私の国では3回目の「農民の収穫祭」でもあります。収穫の季節と重なる黄金...

持続可能なテクノロジー: 2024 年のテクノロジートレンドにおけるグリーンイノベーション

急速に進化するテクノロジーの世界では、イノベーションこそが私たちを持続可能な未来へと導く原動力となり...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

C# のデータ構造とアルゴリズムにおけるツリーの役割を紹介します

C# データ構造とアルゴリズムツリーまず、Windows でコマンド ラインに「tree」と入力しま...

クラウド上でのインテリジェント運転の 3D 再構築のベスト プラクティス

インテリジェント運転技術の継続的な発展により、私たちの移動方法や交通システムは変化しています。 3D...

...

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づ...

1日で13.5%も急落!オラクル株は2002年以来最大の下落

オラクルの株価は現地時間9月12日に13.5%急落し、20年以上で最大の下落を記録した。その理由は、...

梅の花の山の上を歩くロボット犬?自転車は自分でバランスをとることができますか?テンセント・ロボティクスXラボ研究初の「開封」

テンセントは11月20日、移動ロボット研究における新たな進展を発表し、四足移動ロボット「ジャモカ」と...