「ウイルス」ではなく「情報」を広めよう！プログラマーがAIを使って「手を洗う」を500以上の言語に翻訳

[[321195]]

ビッグデータダイジェスト制作

ダニエル・ホワイトナック

編集者: lin、Cao Peixin

世界にはいくつの言語があるのでしょうか？

7117種。そうです、方言ではなく、使われている言語です。

人間が情報を伝達する媒体は言語であり、異なる言語間のコミュニケーションは翻訳に依存しています。たとえば、伝染病の予防と制御の期間中、世界保健機関は公式サイトで発表し、感染を防ぐために頻繁に手を洗うように全員に呼びかけました。

国際組織であるため、ここで使用されるデフォルトの言語は英語ですが、Webサイトの右上隅に言語スイッチもあり、中国語を含む6つの言語から選択できます。

これら 6 つの言語は世界中の 35 億人以上の人々をカバーしていますが、明らかに十分ではありません。

翻訳ソフトウェアに頼ってみませんか? 世界で最も広く使用されているソフトウェアである Google 翻訳は、現在 100 以上の言語しかサポートしておらず、これは既存の言語のほんの一部にすぎません。

WHOが発表する世界的な流行に関するニュースは、より多くの人々に届くことが期待されますが、多くの地域では現在、頻繁に手を洗うように伝えたいだけでも情報の拡散を妨げる言語の壁に直面しています。

より多くの人々に手洗いの重要性を理解してもらうため、AI専門家のダニエル・ホワイトナック氏は、多言語教師なし方式を使用して500以上の言語で言語間単語ベクトルをトレーニングし、既存の対象言語文書から「洗う」と「手」の部分を抽出し、これらを組み合わせて510の言語で「手を洗う」のフレーズ翻訳を生成した。

ダニエル氏は、Facebookが開発したMUSE（Multilingual Unsupervised and Supervised Embeddings）ライブラリを使用して、544の言語と英語の間のクロスリンガル単語ベクトルをトレーニングしました。これらのベクトルにより、ターゲットフレーズ「wash hands」に類似したフレーズを既存のドキュメントから抽出できるようになります。

ダニエルは言語コミュニティSILインターナショナルの同僚と協力してこの作業を完了しました。その結果は、454の翻訳を含むコロナウイルスガイドであるEthnologue Guideページでご覧いただけます。

リンク: https://www.ethnologue.com/guides/health

Data Bacteria がどうやってそれを実現したかを見てみましょう。

「足を洗う」と「手を洗う」を「手を洗う」に分解する

まず、SIL International は 2,000 以上の言語でセマンティック作業を完了しており、現在は 1,600 以上の言語でプロジェクト文書を管理しています。そこで私は、「手を洗ってください」または同様のフレーズを何百もの言語に何度も翻訳したのではないかと考えましたが、この推測は確認されました。

そのため、900 を超える言語のアーカイブから、主に完全な教材や聖書などの文書をすぐに収集することができました。これらの文書にはそれぞれ英語版があり、そこには必ず「手を洗う」というフレーズや「顔を洗う」などの類似のフレーズが含まれています。さらに、文書は高品質であり、現地の言語コミュニティと協力して翻訳および検証されています。

言語データセットが利用可能になりました!

しかし、克服すべき問題が 2 つあります。まず、このデータにはほとんどの言語で数千の例しかなく、機械翻訳モデルのトレーニングに使用される数百万の例と比較すると少なすぎます。次に、文書にターゲット言語で「手を洗う」という単語が含まれていても、周囲のテキスト内でその単語が正確にどこにあるかはわかりません。

リソースの少ない言語データセットの場合、機械翻訳の最新技術を活用することは確かに可能ですが、各言語ペアの翻訳モデルを迅速に適応させるために自動化されたアプローチを調整するには、ある程度の時間がかかります。さらに、私たちがターゲットとする言語の多くには、BLEU スコアなどの評価指標を比較できる既存のベンチマークがありません。

私は、既存の文書からフレーズ自体またはフレーズの構成要素（「手を洗う」や「あなたの手」など）を見つけることによって、「手を洗う」という用語を構築してみることにしました。

これらを見つけるために、私は Facebook Research の Multilingual Unsupervised and Supervised Embedding (MUSE) ライブラリを使用して、それぞれの言語間単語埋め込みをトレーニングしました。 MUSE は、単一言語の単語埋め込みを入力として受け取り (fasttext を使用して生成しました)、敵対的アプローチを使用して英語からターゲットベクトル空間へのマッピングを学習します。このプロセスの出力は、クロスリンガル単語埋め込みです。

クロスリンガル単語埋め込みが生成されると、ターゲット言語のドキュメント内でフレーズを見つけることができます。「顔を洗う」という表現は、「手」、「あなたのものを洗う」などの分離表現とともに、文書全体にわたって非常に明確に使用されていることがわかります。

各言語について、フレーズが出現すると予想される領域で N-gram を検索します (英語の並列マッチングでの使用法に基づきます)。 N-gram は、クロスリンガル単語埋め込みを使用してベクトル化され、さまざまな距離メトリックを使用して英語フレーズのベクトル化されたバージョンと比較され、ベクトル空間内で英語フレーズに最も近い N-gram がターゲット言語の一致として決定されます。

最後に、英語のフレーズと一致する構成要素フレーズを組み合わせて、ターゲット言語で「手を洗う」フレーズを生成しました。この組み合わせでは、言語間ベクトルを再度活用して、適切な方法で組み合わせられるようにします。

たとえば、ターゲット言語で「足を洗う」というフレーズを一致させた場合、「足」に対応する N-gram を「手」に対応する N-gram に置き換える必要があります。以下は、ベリーズクリオール英語の例です。

もちろん、このマッチングプロセスではいくつかの仮定を行うため、このプロセスでは文法的に正しい予測が生成されない可能性が非常に高くなります。たとえば、ほとんどの言語では、「手」という単語と「足」という単語はどちらも 1 単語 (間にスペースと句読点がある) であると想定しています。この想定は確かに正しくなく、将来的にはこれらの制限の一部を克服してシステムを拡張できますが、現時点ではこのアプローチは、翻訳システムのサポートがなくても比較的信頼性の高い多言語翻訳結果を提供できます。

少ないデータ条件でのフレーズ翻訳方法の検討

これまでに、544 の言語のクロスリンガル単語埋め込みをトレーニングすることができ、上記の方法を使用して、これらの言語が「手を洗う」をどのように表現するかを調べようとしました。

多くの言語ペアで一貫したデータが不足していたため、構築されたフレーズ内のトークンを検証するために、「手を洗う」というコンポーネントも含まれた別のホールドアウトドキュメントを使用しました。

以下は、Ethnologue 言語統計からの翻訳のサンプルです。

作成されたフレーズは、参照翻訳、または「手を洗ってください」の代替表現に似ています。たとえば、ブルガリア語では「умийръцете」と予測されますが、Google 翻訳では「Измийсиръцете」と予測されます。しかし、Google 翻訳を使用して予測を逆翻訳すると、やはり「手を洗ってください」となります。

いくつかの不確実性のため、参考翻訳（ソロモン諸島のピジン [pis] など）や手動で注釈を付けたカテゴリと比較することはできませんが、他の参考文書では、それぞれ洗浄や手について必ず言及されている「手を洗う」（wasim）と「手」（han）が使用されていることは確認できます。私の翻訳の約 15% がこの方法で検証されており、参考辞書を収集しながらさらに検証を進めていきたいと考えています。

なお、イタリア語のようなリソースの多い言語の場合でも、上記の翻訳を得るために各言語で最大約 7000 文を使用し、言語ペア間の文の整合には依存しませんでした。この非常にデータ不足で教師なしのシナリオにもかかわらず、両方のシステムでサポートされている言語については、Google 翻訳と同等の品質のフレーズを取得することができました。

ある意味、これは私が使用した「ハイブリッド」アプローチ（単語埋め込みの教師なしアライメント + ルールベースのマッチング）が、短いフレーズをあまりデジタル化されていない言語に翻訳するのに効果的であることを証明しています。

関連レポート: https://datadan.io/blog/wash-your-hands

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: AIの価値を実現する上での5つの障壁とその克服方法

>>: コロナウイルス流行中のIoTの真実と虚構を区別する