ニューラル機械翻訳のための談話レベルの単一言語修正モデル

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「ニューラル機械翻訳のための談話レベルの単一言語修正モデル」[1]は、EMNLP 2019で発表された談話レベルのニューラル機械翻訳に関する論文です。段落レベルのバイリンガル データが不足しているという問題に対応して、この記事では段落レベルのモノリンガル データを使用して最終的なパフォーマンスを向上させる方法を検討し、従来の文レベルの翻訳結果を修正するためにターゲット側のモノリンガルに基づく段落レベルの修正モデル (DocRepair) を提案します。

1. 背景

近年、ニューラル機械翻訳は急速に発展しており、2017年にGoogleが提唱したTransformerモデル[2]により翻訳品質は大きく向上し、一部の領域では人間の翻訳に匹敵するレベルに達している[3]。しかし、今日の機械翻訳システムのほとんどは、依然として文レベルの情報に基づいており、段落レベルの文脈情報を活用することができません。機械翻訳プロセスで段落レベルの情報を効果的に活用する方法は、現在の研究のホットスポットの 1 つです。

機械翻訳タスクにおける自己注意メカニズムに基づく Transformer モデルが広く適用されるようになったため、リカレントニューラルネットワーク (RNN) 機械翻訳モデルに基づく以前の段落レベルの方法の多くは適用できなくなりました。最近、多くの研究者がエンコードまたはデコードの段階でコンテキスト情報を導入することで Transformer を改善しようと試みています。 Voitaら[4]は、Transformerモデル(図1)に基づいた段落レベルの翻訳モデルを初めて提案しました。従来のモデルに加えて、コンテキスト情報をエンコードするためのコンテキストエンコーダが追加され、現在の文のエンコード結果と融合されてデコーダに送られました。 Zhang Jiachengら[5]は別のアプローチを採用し、エンコーダとデコーダにそれぞれコンテキストアテンションサブレイヤーを追加して(図2)、コンテキスト情報を導入しました。一部の研究者は、2パスモデル[6][7]の使用も試みています。このモデルでは、最初に文レベルのデコードを実行し、次に段落レベルのデコーダーを使用して文レベルのデコード結果とソース言語のコンテキストエンコーディングを組み合わせて段落レベルのデコードを実行します。さらに、段落レベルの翻訳にどのような文脈情報を導入する必要があるかを検討した研究もあります。

上記の研究では、機械翻訳のプロセスに文脈情報を導入し、段落レベルの翻訳を全体的なプロセスとして捉えています。このモデリング方法はより自然ですが、トレーニングには十分な段落レベルのバイリンガルデータが必要です。しかし、実際には章レベルでバイリンガルデータを取得することは困難です。著者は、章レベルでのバイリンガルデータの不足という問題に対処するために、DocRepair モデルを提案しました。

2. DocRepairモデル

2 段階方式と同様に、DocRepair モデルも文レベルの結果を修正しますが、違いは、DocRepair モデルでは単一言語データのみを使用する必要があることです。 DocRepair モデルは、単一言語のシーケンスツーシーケンス モデル (seq2seq) であるため、コンテキストの不一致を解決するために、一貫性のないコンテキストを持つ文のグループを一貫した結果にマッピングする必要があります。このプロセスを図 2 に示します。

モデルのトレーニング コーパスは、簡単にアクセスできる単一言語のテキスト レベルのコーパスから取得されます。単一言語データ内の文脈一貫性のある文グループはモデル出力として使用され、ラウンドトリップによって構築された文脈一貫性のない文グループはモデル入力として使用されます。往復は 2 つの段階に分かれており、順方向と逆方向の 2 つの変換システムが必要です。まず、逆翻訳モデルを使用して、ターゲット側の章レベルの単一言語データをソース言語側に翻訳し、文間のコンテキスト情報を含むソース言語の結果を取得します。次に、ソース言語の結果を順翻訳モデルを介してターゲット側に再翻訳し、矛盾したコンテキストを持つターゲット側データを取得します。全体的なプロセスを図3に示します。

DocRepair モデルは、標準の Transformer 構造を使用します (図 4)。モデル入力は、コンテキスト情報を含まない文のシーケンスであり、分離トークンを介して長いシーケンスに接続されます。モデル出力は、一貫したコンテキストを持つ修正されたシーケンスであり、最終結果は分離トークンを削除することによって得られます。

著者が提案する構造は、翻訳モデルに依存しない自動ポスト編集システムとみなすことができ、その最大の利点は、対象の単一言語データのみを使用してトレーニングセットを構築できることです。それに応じて、このアプローチでは追加の構造が導入され、システム全体の複雑さが増し、トレーニングと推論のコストが増加します。同時に、翻訳結果に基づいてターゲット側でのみ修正が行われるため、ソース言語からの情報はまったく導入されず、DocRepair モデルはコンテキスト情報を十分に考慮しない可能性があります。これまでの研究でも、段落レベルの機械翻訳におけるソース言語のコンテキスト情報の役割が確認されています。ソース言語の単一言語データを使用してコンテキスト情報をより適切に抽出する方法も、今後研究する価値のある方向性です。

3. 実験

この方法の有効性を検証するために、著者らはBLEU、段落レベルの専用テストセット、手動評価の3つの観点から比較実験を行った。実験は英語とロシア語のタスクで実施され、使用されたデータセットはオープンデータセット OpenSubtitles2018 でした。

表1はDcoRepairの比較実験結果を示しています。このうちベースラインはTransformerベースモデルを採用しており、CADec[7]は2段階の章レベル翻訳モデルである。同時に、文章を後編集することで翻訳品質が向上するだけでなく、段落レベルの翻訳におけるDocRepairモデルの有効性を検証するために、文章レベルの修復モデルもトレーニングしました。 DocRepair は段落レベルの機械翻訳に効果的であり、文レベルの修復モデルよりも 0.5 BLEU 高く、ベースラインおよび CADec と比較して 0.7 BLEU の改善が見られることがわかります。

人間による評価では、DocrePair モデルが入力を完全にコピーしたケースを除いて、一般的なテスト セットから 700 個の例が使用されました。表 2 に示すように、サンプルの 52% は手動で同じ品質であると注釈が付けられ、残りのサンプルのうち 73% は DocrePair からの出力の方が優れていると判断され、モデルの有効性も確認されました。

段落レベルの翻訳における特定の問題に対するDocRepairの有効性を分析するために、著者らは英語-ロシア語の段落レベルの翻訳現象のために特別に構築されたデータセット[9]でそれを検証した。結果を表3に示す。 deixis は文間の参照問題を表し、lex.c はテキスト内のエンティティ翻訳の一貫性問題を表し、ell.infl と ell.VP はそれぞれソース言語には含まれるがターゲット言語には含まれない名詞形と動詞省略現象に対応します。

DocRepair は参照、語彙選択、名詞形態省略の問題では明らかに優位性がありますが、動詞省略の問題では DocRepair モデルは CADec よりも 5 パーセントポイント低くなります。考えられる理由は、DocRepair モデルがターゲット言語のみに依存しており、ラウンドトリップ方式を使用して構築されたトレーニング セットには動詞が欠落しているサンプルがほとんど含まれていないため、モデルが正しい予測を行うことが困難になっていることです。

単一言語データの限界を検証するために、著者らは DocRepair モデル上でさまざまなデータ構築方法の比較実験を実施しました。結果を表 4 に示します。一方向とは、ラウンドトリップの最初のステップをバイリンガル データのソース言語に置き換える逆のプロセスを指します。一般的には片道方式の方が往復方式よりも優れていることがわかりますが、往復方式にとって最も難しい問題は動詞の省略です。

4. まとめ

この研究では、機械翻訳の結果を修正し、段落レベルの不一致を解決するために、ターゲット言語に完全に基づいた DocRepair モデルを提案しています。同時に、特定の段落レベルの問題における DcoRepair のパフォーマンスが分析され、単一言語データとラウンドトリップ構築方法のみに依存することの限界が指摘されています。

これまでの研究は、主にデコード処理中に文脈情報を統合する方法に焦点を当ててきましたが、段落レベルのバイリンガル データの不足によりパフォーマンスが制限されることがよくあります。この研究は、バイリンガルデータの不足という問題を回避するための新しいアイデアを提供しますが、同時に新しい問題も生じます。段落レベルの翻訳の目的は、従来の文レベルの翻訳で文間の文脈情報が失われる問題を解決することです。このポスト編集方法では、ターゲット側の文脈の一貫性のない翻訳結果セットのみを使用して、ソース言語への配慮が欠けている単一言語修正モデルを通じて一貫した結果を得ることができます。著者は、バイリンガルが不足している場合、ソース言語のコンテキスト情報をより適切に導入する方法も興味深い問題であると考えています。

参考文献

[1] Voita、Elena、Rico Sennrich、Ivan Titov。「ニューラル機械翻訳のためのコンテキスト認識型単一言語修復」arXivプレプリントarXiv:1909.01383 (2019)。

[2] Vaswani、Ashish、et al.「必要なのは注意力だけ」神経情報処理システムの進歩。2017年。

[3] ハッサン・ハニー他「中国語から英語へのニュース自動翻訳で人間と同等の成果を達成する」arXivプレプリントarXiv:1803.05567 (2018)。

[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). 文脈認識ニューラル機械翻訳がアナフォラ解決を学習する。arXivプレプリントarXiv:1805.10163。

[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). ドキュメントレベルのコンテキストによるトランスフォーマー翻訳モデルの改善。arXiv プレプリント arXiv:1810.03581。

[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019年7月)。談話ニューラル機械翻訳のための一貫性のモデリング。AAAI人工知能会議論文集(第33巻、7338-7345頁)。

[7] Voita, E., Sennrich, R., & Titov, I. (2019). 「文脈上、良い翻訳が間違っている場合:文脈認識型機械翻訳は指示語、省略語、語彙の結束性を改善します」arXivプレプリントarXiv:1905.05979.

<<:  最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

>>:  新しいAIプログラミング言語はディープラーニングを超える

推薦する

たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

NANDフラッシュメモリのウェアレベリングアルゴリズムの最適化

0. はじめに現在、ノートパソコン、スマートフォン、ソリッドステートドライブなどの新しい電子機器には...

非常に厳しい CPU 制約下でも正常に動作しますか? Java におけるさまざまな圧縮アルゴリズムのパフォーマンス比較

この記事では、一般的に使用されているいくつかの圧縮アルゴリズムのパフォーマンスを比較します。結果は、...

俳優の顔の交換、AIデート、モザイク除去…2020年のAI界の注目トピックトップ10を振り返る

[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...

Didi、AI技術を活用して交通問題を解決するTraffic Brainをリリース

滴滴出行は1月25日、2018年スマート交通サミットでスマート交通戦略製品「Traffic Brai...

人工知能システムにおける不確実性の定量化

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...

マルチモーダルディープラーニング:ディープラーニングを用いてさまざまな情報を統合する

ディープラーニングを使用して、さまざまなソースからの情報を統合します。マルチモーダルデータ私たちの世...

...

非人道的だ!人工知能はソーシャルエンジニアリングの天敵である

人工知能 (AI) はまだ初期段階ですが、AI は急速に企業が自らを守るための重要な手段になりつつあ...

データがなければ自動運転の未来はない: 自動運転車にビッグデータが必要な理由

[[320195]]ビッグデータにより自動運転の未来が可能になります。自動運転は自動車メーカーの間で...

マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

「再帰的に自己進化する AI が人間を支配する」という問題に対する解決策はあるのでしょうか? !多く...

選択できるアルゴリズムが多すぎますか?適切な機械学習アルゴリズムを選択する方法

機械学習は科学であると同時に芸術でもあります。さまざまな機械学習アルゴリズムを見ると、普遍的な解決策...

...

AIとIoTの統合が加速

近年、モノのインターネットは大きな注目を集めていますが、ほとんどのアプリケーションには 2 つの重要...