ニューラル機械翻訳のための談話レベルの単一言語修正モデル

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「ニューラル機械翻訳のための談話レベルの単一言語修正モデル」[1]は、EMNLP 2019で発表された談話レベルのニューラル機械翻訳に関する論文です。段落レベルのバイリンガル データが不足しているという問題に対応して、この記事では段落レベルのモノリンガル データを使用して最終的なパフォーマンスを向上させる方法を検討し、従来の文レベルの翻訳結果を修正するためにターゲット側のモノリンガルに基づく段落レベルの修正モデル (DocRepair) を提案します。

1. 背景

近年、ニューラル機械翻訳は急速に発展しており、2017年にGoogleが提唱したTransformerモデル[2]により翻訳品質は大きく向上し、一部の領域では人間の翻訳に匹敵するレベルに達している[3]。しかし、今日の機械翻訳システムのほとんどは、依然として文レベルの情報に基づいており、段落レベルの文脈情報を活用することができません。機械翻訳プロセスで段落レベルの情報を効果的に活用する方法は、現在の研究のホットスポットの 1 つです。

機械翻訳タスクにおける自己注意メカニズムに基づく Transformer モデルが広く適用されるようになったため、リカレントニューラルネットワーク (RNN) 機械翻訳モデルに基づく以前の段落レベルの方法の多くは適用できなくなりました。最近、多くの研究者がエンコードまたはデコードの段階でコンテキスト情報を導入することで Transformer を改善しようと試みています。 Voitaら[4]は、Transformerモデル(図1)に基づいた段落レベルの翻訳モデルを初めて提案しました。従来のモデルに加えて、コンテキスト情報をエンコードするためのコンテキストエンコーダが追加され、現在の文のエンコード結果と融合されてデコーダに送られました。 Zhang Jiachengら[5]は別のアプローチを採用し、エンコーダとデコーダにそれぞれコンテキストアテンションサブレイヤーを追加して(図2)、コンテキスト情報を導入しました。一部の研究者は、2パスモデル[6][7]の使用も試みています。このモデルでは、最初に文レベルのデコードを実行し、次に段落レベルのデコーダーを使用して文レベルのデコード結果とソース言語のコンテキストエンコーディングを組み合わせて段落レベルのデコードを実行します。さらに、段落レベルの翻訳にどのような文脈情報を導入する必要があるかを検討した研究もあります。

上記の研究では、機械翻訳のプロセスに文脈情報を導入し、段落レベルの翻訳を全体的なプロセスとして捉えています。このモデリング方法はより自然ですが、トレーニングには十分な段落レベルのバイリンガルデータが必要です。しかし、実際には章レベルでバイリンガルデータを取得することは困難です。著者は、章レベルでのバイリンガルデータの不足という問題に対処するために、DocRepair モデルを提案しました。

2. DocRepairモデル

2 段階方式と同様に、DocRepair モデルも文レベルの結果を修正しますが、違いは、DocRepair モデルでは単一言語データのみを使用する必要があることです。 DocRepair モデルは、単一言語のシーケンスツーシーケンス モデル (seq2seq) であるため、コンテキストの不一致を解決するために、一貫性のないコンテキストを持つ文のグループを一貫した結果にマッピングする必要があります。このプロセスを図 2 に示します。

モデルのトレーニング コーパスは、簡単にアクセスできる単一言語のテキスト レベルのコーパスから取得されます。単一言語データ内の文脈一貫性のある文グループはモデル出力として使用され、ラウンドトリップによって構築された文脈一貫性のない文グループはモデル入力として使用されます。往復は 2 つの段階に分かれており、順方向と逆方向の 2 つの変換システムが必要です。まず、逆翻訳モデルを使用して、ターゲット側の章レベルの単一言語データをソース言語側に翻訳し、文間のコンテキスト情報を含むソース言語の結果を取得します。次に、ソース言語の結果を順翻訳モデルを介してターゲット側に再翻訳し、矛盾したコンテキストを持つターゲット側データを取得します。全体的なプロセスを図3に示します。

DocRepair モデルは、標準の Transformer 構造を使用します (図 4)。モデル入力は、コンテキスト情報を含まない文のシーケンスであり、分離トークンを介して長いシーケンスに接続されます。モデル出力は、一貫したコンテキストを持つ修正されたシーケンスであり、最終結果は分離トークンを削除することによって得られます。

著者が提案する構造は、翻訳モデルに依存しない自動ポスト編集システムとみなすことができ、その最大の利点は、対象の単一言語データのみを使用してトレーニングセットを構築できることです。それに応じて、このアプローチでは追加の構造が導入され、システム全体の複雑さが増し、トレーニングと推論のコストが増加します。同時に、翻訳結果に基づいてターゲット側でのみ修正が行われるため、ソース言語からの情報はまったく導入されず、DocRepair モデルはコンテキスト情報を十分に考慮しない可能性があります。これまでの研究でも、段落レベルの機械翻訳におけるソース言語のコンテキスト情報の役割が確認されています。ソース言語の単一言語データを使用してコンテキスト情報をより適切に抽出する方法も、今後研究する価値のある方向性です。

3. 実験

この方法の有効性を検証するために、著者らはBLEU、段落レベルの専用テストセット、手動評価の3つの観点から比較実験を行った。実験は英語とロシア語のタスクで実施され、使用されたデータセットはオープンデータセット OpenSubtitles2018 でした。

表1はDcoRepairの比較実験結果を示しています。このうちベースラインはTransformerベースモデルを採用しており、CADec[7]は2段階の章レベル翻訳モデルである。同時に、文章を後編集することで翻訳品質が向上するだけでなく、段落レベルの翻訳におけるDocRepairモデルの有効性を検証するために、文章レベルの修復モデルもトレーニングしました。 DocRepair は段落レベルの機械翻訳に効果的であり、文レベルの修復モデルよりも 0.5 BLEU 高く、ベースラインおよび CADec と比較して 0.7 BLEU の改善が見られることがわかります。

人間による評価では、DocrePair モデルが入力を完全にコピーしたケースを除いて、一般的なテスト セットから 700 個の例が使用されました。表 2 に示すように、サンプルの 52% は手動で同じ品質であると注釈が付けられ、残りのサンプルのうち 73% は DocrePair からの出力の方が優れていると判断され、モデルの有効性も確認されました。

段落レベルの翻訳における特定の問題に対するDocRepairの有効性を分析するために、著者らは英語-ロシア語の段落レベルの翻訳現象のために特別に構築されたデータセット[9]でそれを検証した。結果を表3に示す。 deixis は文間の参照問題を表し、lex.c はテキスト内のエンティティ翻訳の一貫性問題を表し、ell.infl と ell.VP はそれぞれソース言語には含まれるがターゲット言語には含まれない名詞形と動詞省略現象に対応します。

DocRepair は参照、語彙選択、名詞形態省略の問題では明らかに優位性がありますが、動詞省略の問題では DocRepair モデルは CADec よりも 5 パーセントポイント低くなります。考えられる理由は、DocRepair モデルがターゲット言語のみに依存しており、ラウンドトリップ方式を使用して構築されたトレーニング セットには動詞が欠落しているサンプルがほとんど含まれていないため、モデルが正しい予測を行うことが困難になっていることです。

単一言語データの限界を検証するために、著者らは DocRepair モデル上でさまざまなデータ構築方法の比較実験を実施しました。結果を表 4 に示します。一方向とは、ラウンドトリップの最初のステップをバイリンガル データのソース言語に置き換える逆のプロセスを指します。一般的には片道方式の方が往復方式よりも優れていることがわかりますが、往復方式にとって最も難しい問題は動詞の省略です。

4. まとめ

この研究では、機械翻訳の結果を修正し、段落レベルの不一致を解決するために、ターゲット言語に完全に基づいた DocRepair モデルを提案しています。同時に、特定の段落レベルの問題における DcoRepair のパフォーマンスが分析され、単一言語データとラウンドトリップ構築方法のみに依存することの限界が指摘されています。

これまでの研究は、主にデコード処理中に文脈情報を統合する方法に焦点を当ててきましたが、段落レベルのバイリンガル データの不足によりパフォーマンスが制限されることがよくあります。この研究は、バイリンガルデータの不足という問題を回避するための新しいアイデアを提供しますが、同時に新しい問題も生じます。段落レベルの翻訳の目的は、従来の文レベルの翻訳で文間の文脈情報が失われる問題を解決することです。このポスト編集方法では、ターゲット側の文脈の一貫性のない翻訳結果セットのみを使用して、ソース言語への配慮が欠けている単一言語修正モデルを通じて一貫した結果を得ることができます。著者は、バイリンガルが不足している場合、ソース言語のコンテキスト情報をより適切に導入する方法も興味深い問題であると考えています。

参考文献

[1] Voita、Elena、Rico Sennrich、Ivan Titov。「ニューラル機械翻訳のためのコンテキスト認識型単一言語修復」arXivプレプリントarXiv:1909.01383 (2019)。

[2] Vaswani、Ashish、et al.「必要なのは注意力だけ」神経情報処理システムの進歩。2017年。

[3] ハッサン・ハニー他「中国語から英語へのニュース自動翻訳で人間と同等の成果を達成する」arXivプレプリントarXiv:1803.05567 (2018)。

[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). 文脈認識ニューラル機械翻訳がアナフォラ解決を学習する。arXivプレプリントarXiv:1805.10163。

[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). ドキュメントレベルのコンテキストによるトランスフォーマー翻訳モデルの改善。arXiv プレプリント arXiv:1810.03581。

[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019年7月)。談話ニューラル機械翻訳のための一貫性のモデリング。AAAI人工知能会議論文集(第33巻、7338-7345頁)。

[7] Voita, E., Sennrich, R., & Titov, I. (2019). 「文脈上、良い翻訳が間違っている場合:文脈認識型機械翻訳は指示語、省略語、語彙の結束性を改善します」arXivプレプリントarXiv:1905.05979.

<<:  最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

>>:  新しいAIプログラミング言語はディープラーニングを超える

ブログ    
ブログ    

推薦する

COVID-19 最新情報: COVID-19 との戦いに役立つトップ 10 のイノベーション

[[320870]]迅速な感染検査から3Dプリントソリューションまで、世界中のテクノロジー企業が協力...

AI時代の企業の変革とイノベーション

人工知能は、私たちの生活、仕事、学習に影響を与えるだけでなく、企業の運営、戦略、組織にも影響を与える...

ChatGPTが新たな著作権紛争に巻き込まれる: ホラー小説作家2人が、訓練のために作品を盗んだとしてOpenAIを訴えた

7月6日、AIモデルのトレーニングデータソースの著作権は常に話題となっていた。以前、マイクロソフトは...

1.3MB の超軽量 YOLO アルゴリズム!すべてのプラットフォームで利用可能、45% 高速 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

メタバースと自動運転車のどちらが先に来るでしょうか?

今年、未来のテクノロジーの中で最も注目されている2つの分野は、メタバースと自動運転車です。メタバース...

彼の人工知能ツールは生きた細胞の内部を覗くことができる

[[272732]] ▲ 図:アレン細胞科学研究所のコンピュータービジョン研究者、グレッグ・ジョンソ...

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...

AI の応用分野トップ 10 を調べて、自分の専攻分野が含まれているかどうか確認してください。

人工知能や脳の研究を考えるとき、人々はターミネーターマシンが世界を破壊するイメージを思い浮かべます。...

...

今後の技術開発の動向はどうなると思いますか?

モバイル アプリケーション業界は長年にわたって発展しており、当社のシステムの重要な部分となっています...

ChatGPT は月間アクティブユーザー数が 15 億人に達し、他社を大きくリードしています。 50社が6か月間競争し、そのうち80%が自社で立ち上げた企業だった

生成 AI が人気を集め始めてほぼ 1 年が経ちましたが、そろそろ年次総括の時期が来ています。最近、...

機械学習の第一人者マイケル・ジョーダンが人工知能について語る8つの質問:マスクはAIを理解していない

写真ビッグデータダイジェスト制作Michael I. Jordan は、機械学習、確率、統計、グラフ...

研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

I. はじめに1. まず話をしましょう約4〜5年前、私はカーネギーメロン大学(CMU)の博士課程の...

人工知能(AI)の今後の動向

[[417224]] 21 世紀以降、人工知能は世界中で新たな科学技術革命と産業変革を主導し、人々の...

3Wイノベーションフェスティバル:先進的な起業家のアイデアが古都西安に流入

最近、西安で3Wイノベーションフェスティバルが開催されました。西安起業・イノベーション週間の代表的な...