語尾予測に基づく英語-ロシア語翻訳品質の向上方法

[51CTO.com からのオリジナル記事] ニューラルネットワーク翻訳モデルは、使用できる語彙のサイズによって制限されます。多くの場合、語彙がソース側とターゲット側の単語をカバーできない状況に遭遇します。特に、形態論的に豊富な言語 (ロシア語、スペイン語など) を扱う場合、語彙がコーパス全体を十分にカバーしていないことが多く、多くの「未登録単語」が生成され、翻訳品質に重大な影響を及ぼします。

これまでの研究は、主に翻訳の粒度を調整し、語彙のサイズを拡大する方法に焦点を当ててきました。これらの研究により、「未登録語」の生成を減らすことはできますが、言語自体の形態論的問題は真に研究されておらず、具体的に解決されていません。

私たちの研究では、翻訳の粒度を制御することでデータのスパース性を減らし、「未登録の単語」を減らすだけでなく、効果的な語尾予測メカニズムを通じて対象のロシア語翻訳の形態論的誤りを大幅に減らし、英語からロシア語への翻訳の品質を向上させる革新的な方法を提案しています。 5000万語の超大規模データセットにおいて、いくつかの影響力のある既存の研究（サブワードベースおよび文字ベースの方法）と比較することにより、私たちの方法は、RNNとTransformerに基づく2つの主流のニューラルネットワーク翻訳モデルに対して安定した改善を達成することに成功しました。

背景

近年、ニューラル機械翻訳 (NMT) は、多くの言語とシナリオにおいて統計機械翻訳 (SMT) よりも大きな優位性を示しています。ニューラルネットワーク機械翻訳は、ソース言語の文を隠れ状態にエンコードし、この隠れ状態からデコードしてターゲット言語の翻訳単語を 1 つずつ生成します。 NMT システムは、ターゲット側で固定サイズの語彙を設定します。デコードフェーズの各ステップでは、この固定サイズの語彙から現在のステップの翻訳語として単語が予測されます。コンピュータのハードウェアリソースの制限により、単語リストは通常それほど大きく設定されません (通常 30,000 ～ 50,000)。さらに、語彙が増えるにつれて、予測の難易度もそれに応じて増加します。単語ベースの NMT システムでは、「語彙不足」(OOV) の問題がよく発生します。特に、ターゲット言語が形態論的に豊富な言語である場合、この問題はさらに深刻になります。「英語-ロシア語」翻訳を例にとると、ロシア語は非常に豊富な形態論を持つ言語です。30,000～50,000語の語彙では、ロシア語側のすべての単語をカバーできないことが多く、多くのOOVが生成されます。 OOV の出現は翻訳の品質に大きな影響を与えます。

この問題を解決するための方法はたくさんあります。これらのアプローチの中には、翻訳の粒度の観点から始まるものもあれば、ターゲット語彙のサイズを効果的に拡張しようとするものもあります。これらの方法は OOV を効果的に削減できますが、ターゲット言語の形態論を具体的にモデル化するものではありません。

ロシア語のような形態論的に豊富な言語の場合、語幹の数は単語の数よりもはるかに少ないため、語幹と接尾辞を別々にモデル化するのが自然です。デコード中の各デコードステップで単語の語幹と末尾を個別に予測する方法を設計し、実装しました。トレーニングフェーズでは、ターゲット言語の語尾は、語幹シーケンスと単語末尾シーケンスの 2 つのシーケンスを使用します。語幹シーケンスと語尾シーケンスの生成プロセスを次の図に示します。

(語幹シーケンスと語尾シーケンスの生成、「N」は語幹と単語自体が同じであることを意味します。つまり、単語には語尾がありません)

このように、語幹の数は単語の数よりも大幅に少なく、語尾の種類も数百種類しかないため、データのスパース性の問題は緩和されます。

関連研究

サブワードベースと文字ベースの 2 つの方法は、翻訳の粒度を調整するという観点から、ターゲット側での形態論的に豊富な言語の翻訳の問題を軽減するのに役立ちます。サブワードベースのアプローチでは、BPE (Byte Pari Encoding) アルゴリズムを使用して語彙を生成します。コーパス内で頻繁に出現する単語は語彙に保持され、その他のあまり一般的でない単語はサブワードに分割されます。少数のサブワードですべての珍しい単語を表現できるため、NMT 語彙には一般的な単語とこれらのサブワードのみを保持すれば十分です。また、文字ベースの NMT システムもあり、ソース文とターゲット文の両方が文字のシーケンスとして表現されます。このシステムは、ソースの形態論が豊富な言語をより適切に処理でき、ソースに畳み込みニューラルネットワーク (CNN) を導入することで、長距離の依存関係もモデル化できます。上記の 2 つの方法はデータのスパース性を軽減できますが、言語の形態を具体的にモデル化するものではありません。サブワードと文字は完全な言語単位ではありません。

ターゲット語彙をいかに効果的に拡張するかに焦点を当てた研究もあります。例えば、ターゲット側には大きな語彙が設定されていますが、各トレーニングプロセスでは、すべての可能な翻訳語を含むサブテーブルに対してのみ予測が行われます。この方法は未登録単語の問題を解決できますが、低頻度単語は完全にトレーニングされていないため、データのスパース性の問題は依然として存在します。

ニューラル機械翻訳

本稿では、リカレントニューラルネットワークベースの機械翻訳（RNNベース）と、2017年にGoogleが提案した最新のニューラルネットワーク翻訳モデル（Transformer）という2つの主要なニューラルネットワーク翻訳システムにおける「語尾予測ベース」手法の有効性を検証します。詳細な紹介については、該当する論文を参照してください。 RNN ベースのニューラルネットワークマシン翻訳は次のとおりです。

（「アラインメントと翻訳を共同学習するニューラル機械翻訳」、Bahdanau 他、2015 年）

Transformer の構造は次のとおりです。

（「Attention Is All You Need」、アシシュ・ヴァスワニ他、2017年）

ロシア語の語幹と語尾

ロシア語は形態論が豊かな言語です。数、格、性別はすべて単語の形態論に影響します。名詞「ball」を例に挙げてみましょう。「ball」は中性語なので、性別が変わっても変化しません。ただし、単数形や複数形、格が変わると、次の形になります。

ロシア語の単語は、語幹と接尾辞の 2 つの部分に分けられます。接尾辞の変化は、ロシア語の形態の変化を反映します。接尾辞は、ロシア語の単数形と複数形、格、男性名詞と女性名詞を反映することができます。ルールベースのロシア語語幹解析ツールを使用すると、ロシア語の文の各単語の語幹と語尾を取得できます。

語尾予測ネットワーク

NMT のデコード段階では、各デコードステップでそれぞれ単語の語幹と末尾を予測します。語幹の生成は、NMT の元のネットワーク構造と一致しています。さらに、フィードフォワードニューラルネットワークを使用して、現在のステップで生成された語幹、現在のデコーダーの隠し状態、およびソースのソースコンテキスト情報を使用して、現在のステップの単語末尾を生成します。ネットワーク構造は次のとおりです。

***、生成された語幹と接尾辞を連結して、現在のステップの翻訳語を取得します。

実験

WMT-2017 英語-ロシア語ニュース翻訳タスクのトレーニングコーパス（約 530 万語）の一部に対して、RNN と Transformer の両方で実験を行いました。結果を次の図に示します。

このうち、Subword はサブワードベースの方式をベースラインとし、Fully Character-based は文字ベースの NMT システムをベースラインとしています。「接尾辞予測」は私たちのシステムです。

さらに、この方法の有効性を証明するために、電子商取引分野の大規模なコーパス（5000万件）のデータも使用しました。実験結果を図に示します。

テストセットには、以下に示すように、製品のタイトル (Title)、詳細 (Description)、およびユーザーコメント (Comment) のコンテンツが含まれています。

翻訳結果の例:

最初の例では、番号 1 と 2 のロシア語の単語の形態論から、この単語は再帰動詞であることがわかります。再帰動詞の直接目的語と主語は同じものです。言い換えれば、再帰動詞の行為者と患者は同じものです。原文から、「返品」の主体は商品を購入した人であり、対象は返品される特定の商品であることが分かるので、1と2の訳語は誤りです。翻訳語 3 は正解です。語尾から、目的語を持つことができる不定詞動詞であることがわかります。 2 番目の例では、数字 1 と 2 は複数形を表し、4 は単数形を表します。 3 番目の例では、3 は過去形を表し、1 と 2 は現在形を表します。上記の例では、当社のモデルは、サブワードベースや文字ベースのモデルと比較して、より正確なロシア語の形態論を生成できます。

要約する

形態論的に豊富な言語（英語-ロシア語など）を対象とした NMT システムの翻訳品質を向上させるシンプルで効果的な方法を提案します。デコードフェーズの各ステップでは、最初に語幹が生成され、次に語尾が生成されます。我々は、この方法の有効性を実証するために、2 つの NMT モデル (RNN ベースの NMT と Transformer) でサブワードベースおよび文字ベースの方法とこの方法を比較しました。私たちは大規模（530万）および超大規模（5000万）のコーパスを使用し、このアプローチがニュースと電子商取引の2つの分野で安定した改善をもたらすことができることをさらに実証しました。私たちの研究では、単語の末尾は NMT で具体的にモデル化されています。

チーム: iDst-NLP-翻訳プラットフォーム

著者: Kai Song (Alibaba)、Yue Zhang (シンガポール工科デザイン大学)、Min Zhang (蘇州大学)、Weihua Luo (Alibaba)

会議: AAAI-18

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: LinkedIn: データサイエンスと機械学習は米国で最も急速に成長している職業です。

>>: ディープラーニングの未来: ニューラル進化