語尾予測に基づく英語-ロシア語翻訳品質の向上方法

語尾予測に基づく英語-ロシア語翻訳品質の向上方法

[51CTO.com からのオリジナル記事] ニューラルネットワーク翻訳モデルは、使用できる語彙のサイズによって制限されます。多くの場合、語彙がソース側とターゲット側の単語をカバーできない状況に遭遇します。特に、形態論的に豊富な言語 (ロシア語、スペイン語など) を扱う場合、語彙がコーパス全体を十分にカバーしていないことが多く、多くの「未登録単語」が生成され、翻訳品質に重大な影響を及ぼします。

これまでの研究は、主に翻訳の粒度を調整し、語彙のサイズを拡大する方法に焦点を当ててきました。これらの研究により、「未登録語」の生成を減らすことはできますが、言語自体の形態論的問題は真に研究されておらず、具体的に解決されていません。

私たちの研究では、翻訳の粒度を制御することでデータのスパース性を減らし、「未登録の単語」を減らすだけでなく、効果的な語尾予測メカニズムを通じて対象のロシア語翻訳の形態論的誤りを大幅に減らし、英語からロシア語への翻訳の品質を向上させる革新的な方法を提案しています。 5000万語の超大規模データセットにおいて、いくつかの影響力のある既存の研究(サブワードベースおよび文字ベースの方法)と比較することにより、私たちの方法は、RNNとTransformerに基づく2つの主流のニューラルネットワーク翻訳モデルに対して安定した改善を達成することに成功しました。

背景

近年、ニューラル機械翻訳 (NMT) は、多くの言語とシナリオにおいて統計機械翻訳 (SMT) よりも大きな優位性を示しています。ニューラルネットワーク機械翻訳は、ソース言語の文を隠れ状態にエンコードし、この隠れ状態からデコードしてターゲット言語の翻訳単語を 1 つずつ生成します。 NMT システムは、ターゲット側で固定サイズの語彙を設定します。デコード フェーズの各ステップでは、この固定サイズの語彙から現在のステップの翻訳語として単語が予測されます。コンピュータのハードウェア リソースの制限により、単語リストは通常​​それほど大きく設定されません (通常 30,000 ~ 50,000)。さらに、語彙が増えるにつれて、予測の難易度もそれに応じて増加します。単語ベースの NMT システムでは、「語彙不足」(OOV) の問題がよく発生します。特に、ターゲット言語が形態論的に豊富な言語である場合、この問題はさらに深刻になります。 「英語-ロシア語」翻訳を例にとると、ロシア語は非常に豊富な形態論を持つ言語です。30,000~50,000語の語彙では、ロシア語側のすべての単語をカバーできないことが多く、多くのOOVが生成されます。 OOV の出現は翻訳の品質に大きな影響を与えます。

この問題を解決するための方法はたくさんあります。これらのアプローチの中には、翻訳の粒度の観点から始まるものもあれば、ターゲット語彙のサイズを効果的に拡張しようとするものもあります。これらの方法は OOV を効果的に削減できますが、ターゲット言語の形態論を具体的にモデル化するものではありません。

ロシア語のような形態論的に豊富な言語の場合、語幹の数は単語の数よりもはるかに少ないため、語幹と接尾辞を別々にモデル化するのが自然です。デコード中の各デコードステップで単語の語幹と末尾を個別に予測する方法を設計し、実装しました。トレーニング フェーズでは、ターゲット言語の語尾は、語幹シーケンスと単語末尾シーケンスの 2 つのシーケンスを使用します。語幹シーケンスと語尾シーケンスの生成プロセスを次の図に示します。

(語幹シーケンスと語尾シーケンスの生成、「N」は語幹と単語自体が同じであることを意味します。つまり、単語には語尾がありません)

このように、語幹の数は単語の数よりも大幅に少なく、語尾の種類も数百種類しかないため、データのスパース性の問題は緩和されます。

関連研究

サブワードベースと文字ベースの 2 つの方法は、翻訳の粒度を調整するという観点から、ターゲット側での形態論的に豊富な言語の翻訳の問題を軽減するのに役立ちます。サブワードベースのアプローチでは、BPE (Byte Pari Encoding) アルゴリズムを使用して語彙を生成します。コーパス内で頻繁に出現する単語は語彙に保持され、その他のあまり一般的でない単語はサブワードに分割されます。少数のサブワードですべての珍しい単語を表現できるため、NMT 語彙には一般的な単語とこれらのサブワードのみを保持すれば十分です。また、文字ベースの NMT システムもあり、ソース文とターゲット文の両方が文字のシーケンスとして表現されます。このシステムは、ソースの形態論が豊富な言語をより適切に処理でき、ソースに畳み込みニューラル ネットワーク (CNN) を導入することで、長距離の依存関係もモデル化できます。上記の 2 つの方法はデータのスパース性を軽減できますが、言語の形態を具体的にモデル化するものではありません。サブワードと文字は完全な言語単位ではありません。

ターゲット語彙をいかに効果的に拡張するかに焦点を当てた研究もあります。例えば、ターゲット側には大きな語彙が設定されていますが、各トレーニングプロセスでは、すべての可能な翻訳語を含むサブテーブルに対してのみ予測が行われます。この方法は未登録単語の問題を解決できますが、低頻度単語は完全にトレーニングされていないため、データのスパース性の問題は依然として存在します。

ニューラル機械翻訳

本稿では、リカレントニューラルネットワークベースの機械翻訳(RNNベース)と、2017年にGoogleが提案した最新のニューラルネットワーク翻訳モデル(Transformer)という2つの主要なニューラルネットワーク翻訳システムにおける「語尾予測ベース」手法の有効性を検証します。詳細な紹介については、該当する論文を参照してください。 RNN ベースのニューラル ネットワーク マシン翻訳は次のとおりです。

(「アラインメントと翻訳を共同学習するニューラル機械翻訳」、Bahdanau 他、2015 年)

Transformer の構造は次のとおりです。

(「Attention Is All You Need」、アシシュ・ヴァスワニ他、2017年)

ロシア語の語幹と語尾

ロシア語は形態論が豊かな言語です。数、格、性別はすべて単語の形態論に影響します。名詞「ball」を例に挙げてみましょう。「ball」は中性語なので、性別が変わっても変化しません。ただし、単数形や複数形、格が変わると、次の形になります。

ロシア語の単語は、語幹と接尾辞の 2 つの部分に分けられます。接尾辞の変化は、ロシア語の形態の変化を反映します。接尾辞は、ロシア語の単数形と複数形、格、男性名詞と女性名詞を反映することができます。ルールベースのロシア語語幹解析ツールを使用すると、ロシア語の文の各単語の語幹と語尾を取得できます。

語尾予測ネットワーク

NMT のデコード段階では、各デコード ステップでそれぞれ単語の語幹と末尾を予測します。語幹の生成は、NMT の元のネットワーク構造と一致しています。さらに、フィードフォワード ニューラル ネットワークを使用して、現在のステップで生成された語幹、現在のデコーダーの隠し状態、およびソースのソース コンテキスト情報を使用して、現在のステップの単語末尾を生成します。ネットワーク構造は次のとおりです。

***、生成された語幹と接尾辞を連結して、現在のステップの翻訳語を取得します。

実験

WMT-2017 英語-ロシア語ニュース翻訳タスクのトレーニングコーパス(約 530 万語)の一部に対して、RNN と Transformer の両方で実験を行いました。結果を次の図に示します。

このうち、Subword はサブワードベースの方式をベースラインとし、Fully Character-based は文字ベースの NMT システムをベースラインとしています。 「接尾辞予測」は私たちのシステムです。

さらに、この方法の有効性を証明するために、電子商取引分野の大規模なコーパス(5000万件)のデータも使用しました。実験結果を図に示します。

テスト セットには、以下に示すように、製品のタイトル (Title)、詳細 (Description)、およびユーザー コメント (Comment) のコンテンツが含まれています。

翻訳結果の例:

最初の例では、番号 1 と 2 のロシア語の単語の形態論から、この単語は再帰動詞であることがわかります。再帰動詞の直接目的語と主語は同じものです。言い換えれば、再帰動詞の行為者と患者は同じものです。原文から、「返品」の主体は商品を購入した人であり、対象は返品される特定の商品であることが分かるので、1と2の訳語は誤りです。翻訳語 3 は正解です。語尾から、目的語を持つことができる不定詞動詞であることがわかります。 2 番目の例では、数字 1 と 2 は複数形を表し、4 は単数形を表します。 3 番目の例では、3 は過去形を表し、1 と 2 は現在形を表します。上記の例では、当社のモデルは、サブワードベースや文字ベースのモデルと比較して、より正確なロシア語の形態論を生成できます。

要約する

形態論的に豊富な言語(英語-ロシア語など)を対象とした NMT システムの翻訳品質を向上させるシンプルで効果的な方法を提案します。デコードフェーズの各ステップでは、最初に語幹が生成され、次に語尾が生成されます。我々は、この方法の有効性を実証するために、2 つの NMT モデル (RNN ベースの NMT と Transformer) でサブワードベースおよび文字ベースの方法とこの方法を比較しました。私たちは大規模(530万)および超大規模(5000万)のコーパスを使用し、このアプローチがニュースと電子商取引の2つの分野で安定した改善をもたらすことができることをさらに実証しました。私たちの研究では、単語の末尾は NMT で具体的にモデル化されています。

チーム: iDst-NLP-翻訳プラットフォーム

著者: Kai Song (Alibaba)、Yue Zhang (シンガポール工科デザイン大学)、Min Zhang (蘇州大学)、Weihua Luo (Alibaba)

会議: AAAI-18

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  LinkedIn: データサイエンスと機械学習は米国で最も急速に成長している職業です。

>>:  ディープラーニングの未来: ニューラル進化

推薦する

...

人工知能を軸に:現代の情報管理の力を解き放つ

情報の海の中で、価値ある洞察を見つけることが重要です。最新の情報管理は、高度なテクノロジーと革新的な...

人工知能が再び大学入試に挑戦:AIはエッセイの書き手と比べて何点取れるのか?

今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...

わずか6ステップで機械学習アルゴリズムをゼロから実装

機械学習アルゴリズムをゼロから作成することで、多くの経験が得られます。ようやく読み終えたとき、嬉しい...

...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

...

オンラインクレジットは消費者保護において「難しい問題」でしょうか? AIアプリケーションは消費者の権利を保護する

何億人ものインターネットユーザーの一人として、クレジット取引を処理するためにオフラインの営業所に行く...

...

...

ターミネータースカイネット?国防総省は、敵の行動を数日前に予測できるAI予測システムGIDEをリリースした

[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...

オブジェクトストレージがAIの最大の課題を克服するのに理想的な理由

2020 年のコロナウイルスのパンデミックは、データの迅速な分析と解釈の重要性、そして情報に基づいた...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

...