AI を使って「手を洗ってください」を 500 の言語に翻訳する方法

AI を使って「手を洗ってください」を 500 の言語に翻訳する方法

[[322940]]

人間による翻訳と機械による翻訳の両方を使用することで、健康に関する重要なフレーズを世界中の現地の言語に翻訳できます。

現在、世界では 7,117 の言語が使用されていることをご存知ないかもしれません。方言ではなく、使用されている言語です。ただし、世界のデジタル メディアの多くは数十の言語でしか利用できず、Google 翻訳などの翻訳プラットフォームは約 100 の言語しかサポートしていません。この現実は、世界中の何十億もの人々が、タイムリーな情報へのアクセスが不足しているために疎外されていることを意味します。現在のコロナウイルス(COVID-19)のパンデミックは、このことを痛感させ、「手を洗ってください手を洗う「注意」や「距離を保ちなさい」などの一般的な敬称を、瞬時に素早く少数派言語に翻訳します。

これを実現するために、最先端の AI 技術を適用し、「手を洗ってください」に類似したフレーズを 544 の言語で構築してカウントしました (GPU はまだ実行中です)。多言語の教師なし埋め込みと教師あり埋め込み多言語の教師なし埋め込みと教師あり埋め込みこれら 544 の言語と英語の間の言語間単語埋め込みをトレーニングするために、MUSE (MUSE) メソッドが使用されました。これらの埋め込み方法により、既存のドキュメントからターゲットフレーズに類似したフレーズを抽出できます。

私はこの作業で SIL International の同僚と協力し、このフレーズの人間による翻訳をさらに収集しました。これらの人間による翻訳と私の機械翻訳の一部を組み合わせたものが、この Ethno-Guide ページで検索可能になります (機械で生成されたフレーズは小さなロボット アイコンで示されます)。また、翻訳が生成/収集されるにつれて、さらに翻訳が追加されます。

既存のコーパスを活用する

SIL International は 2,000 を超える言語での言語作業を完了しており、現在 1,600 を超える言語プロジェクトを管理しています。そのため、私がこの問題に取り組んだとき、私たちはおそらく「手を洗ってください」や同様のフレーズを何百もの言語に何度も翻訳したことがあるだろうとわかっていました。そして、その推測は的中しました。私はすぐに、アーカイブから 900 を超える言語の文書 (主に完成したシェルブックのテンプレート、教材、聖書) を収集しました。これらの文書にはそれぞれ英語版があり、そこには必然的に「手を洗ってください」や「顔を洗ってください」といったフレーズが含まれています。さらに、文書は高品質であり、現地の言語コミュニティと協力して翻訳およびチェックされています。

これはかなり多言語のデータセットです。しかし、克服すべき問題が 2 つあります。まず、データにはほとんどの言語で数千の例が含まれていますが、これは機械翻訳モデルのトレーニングに使用される数百万の例とはまったく対照的です。第二に、文書にターゲット言語で「手を洗ってください」というフレーズが含まれていたとしても、周囲のテキストの中でこのフレーズが正確にどこにあるかはわかりません。

確かに、リソースの少ない言語では機械翻訳の最新技術を活用することができますが、各言語ペアの翻訳モデルを迅速に適応させるために自動化されたアプローチを調整するには、ある程度の時間がかかります。さらに、私たちが対象とする言語の多くには、評価指標(BLEU スコアなど)を比較できる既存のベースラインがありません。新型コロナウイルス感染症のパンデミックに関する差し迫った懸念を考慮すると、私たちはそれよりも少し早く対応したいと思っています(ただし、将来的にはこの点について再度検討する予定です)。

私は、既存の文書内でフレーズ自体またはフレーズの構成要素(「手を洗ってください」や「手を」など)を検索して、「手を洗ってください」というフレーズを構成することにしました。これらのコンポーネントを見つけるために、私は各 {英語、ターゲット言語} ペアに対して Facebook Research の Multilingual Unsupervised and Supervised Embeddings (MUSE) を使用しました。クロスランゲージ多言語埋め込みトレーニング。ミューズ単一言語単一言語私は単語の埋め込みを入力として受け取り(これらの単語を生成するために fasttext を使用しました)、敵対的アプローチを使用して英語からターゲットの埋め込み空間へのマッピングを学習しました。このプロセスの出力はクロスランゲージ多言語単語の埋め込み。

クロスリンガル埋め込みが生成されると、ターゲット言語のドキュメント内のフレーズコンポーネントの検索を開始できます。文書全体を通じて、「顔を洗ってください」というフレーズや、「手」や「洗ってください」などの個別の単語が明確に使用されていることが判明しました。各言語について、対応する英語バージョンでの使用法に基づいて、フレーズが出現すると予想される場所を n-gram で検索しました。 n-gram は、クロスリンガル埋め込みを使用してベクトル化され、さまざまな距離メトリックを使用して英語のフレーズのベクトル化されたバージョンと比較されました。埋め込み空間内の英語のフレーズに「最も近い」n-gram が、ターゲット言語と一致すると判断されます。

最後に、英語の構成要素フレーズに対応する構成要素フレーズを組み合わせて、ターゲット言語で「手を洗ってください」というフレーズを生成します。この構成では、言語間の埋め込みを活用して、コンポーネントが適切な方法で結合されるようにします。たとえば、ターゲット言語で「足を洗ってください」というフレーズを一致させる場合、「足」に対応する n-gram を「手」に対応する n-gram に置き換える必要があります。以下はベリーズクレオール語ベリーズクリオール語英語での例:

もちろん、このマッチング プロセスではいくつかの仮定が行われ、文法的に正しい予測が生成されない可能性も十分にあります。たとえば、ほとんどの言語では「手」を表す単語と「足」を表す単語は同じであると想定します。キャラクタートークン長い(文字はスペースと句読点で区切られます)。もちろん、常にそうであるとは限りません。これにより、「and wash and hands you」などの誤ったエントリが発生する可能性があります。将来的にはこれらの制限のいくつかを克服し、このシステムを拡張できることを願っていますが、現時点では、グラフィックスでアイデアを強化することを選択しました。

世界保健機関の手洗い指示を PNG 画像テンプレートに採用しました。次に、翻訳および生成されたフレーズを、Bash スクリプトと Go スクリプトの組み合わせを使用して手洗いイメージにレンダリングしました。このようにして、適切な手洗いの考え方がテキストと画像の両方で強調されます(生成された翻訳がぎこちなかった場合に備えて)。

結果

これまでに、544 の言語のクロスリンガル埋め込みをトレーニングすることができました。私は上で説明した方法を使用して、これらすべての言語で「手を洗ってください」というフレーズを作成しようとしました。多くの言語ペアのアライメント データがないため、構築されたフレーズ内のトークンを検証するために、「wash your hands」も含まれている別のホールドアウト ドキュメントを使用しました。これにより、公開された翻訳に一定の信頼が置けるようになります (少なくとも、「洗う」や「手」を示す情報が含まれています)。さらに、このアプローチを、Google 翻訳でサポートされている言語ペアや人間による翻訳が利用可能な言語ペアと比較しました。以下は、言語統計を含む Ethnologue からの翻訳のサンプルです。

言語: イタリア語 [Ita]

  • 場所: イタリア
  • 人口: 6,800万人
  • 私たちのシステム:マニを洗う
  • Google翻訳: マニを洗う

言語: ブルガリア語 [bul]

  • 場所: ブルガリア
  • 人口: 8,000,000
  • 当社のシステム:
  • Google翻訳: ありがとう

言語: オランダ語 [nld]

  • 場所: オランダ
  • 人口: 24,000,000,000
  • 当社のシステム: 何をすればよいですか
  • Google翻訳: 何をしましたか

言語: ピジン語 [pis]

  • 場所: ソロモン諸島
  • 人口: 55万人
  • 私たちのシステム: ワシム・ハン
  • Google翻訳: サポートされていません

言語: ティカル語 [tik]

  • 場所: カメルーン
  • 人口: 110,000人
  • 私たちのシステム:ɓɔsi fyàʼ
  • Google翻訳: サポートされていません

言語: ワッファ語 [waj]

  • 場所: パプアニューギニア
  • 人口: 1,300人
  • 当社のシステム:
  • Google翻訳: サポートされていません

作成されたフレーズは、参考翻訳に似ており、「手を洗ってください」という別の言い方をしているように見えます。たとえば、ブルガリア語では、私は「умий ръцете」と予測しますが、Google 翻訳は「Измий си ръцете」と予測します。 しかし、Google 翻訳を使用して予測を翻訳すると、やはり「手を洗いましょう」となります。参考翻訳(ソロモン諸島のピジン語 [pis] など)や人間の注釈の範囲と比較することができない不確実性がいくつかありますが、それでも、「洗う」(wasim)と「手」(han)が、それぞれ洗浄または手について話しているはずの他の参考文献で使用されていることは確認できます。 この方法で検証できる翻訳は全体の15%程度ですが、今後は参考辞書を集める過程でさらに検証を進めていきたいと考えています。

イタリア語のようなリソースの多い言語の場合でも、上記の翻訳を取得するために各言語で最大約 7,000 文を使用したことに注意してください。また、言語ペア間の文の整合にも依存しません。このようにデータが非常に少なく、監視されていない状況にもかかわらず、両方のシステムでサポートされている言語については、Google 翻訳に似たフレーズを取得することができました。これは、データがほとんどない言語にフレーズを翻訳するための、この「ハイブリッド」アプローチ(教師なし単語埋め込み + ルールベースのマッチング)の潜在的な有用性を示しています。

注: これがコロナウイルスやその他の健康関連情報の普及問題に対する解決策であると言っているのではありません。ここではまだ調査し、正式に評価すべきことがたくさんあり、私たちはそれに取り組んでいます。多くの場合、このアプローチでは、数百の言語で重要な情報資料を作成するのに役立ちません。しかし、私は私たち全員が、現在の危機に関連する問題に対して創造的な解決策を模索すべきだと信じています。おそらくこれは非常に大きなパズルのほんの一ピースに過ぎないのでしょう。

この民族言語ガイドでは、検証済みの翻訳と人間による翻訳の完全なリストを表示できます。さらに、このシステムのより詳細な説明と分析を論文の形で近日中に提供する予定です。私たちは、システムの微調整に役立て、そして最も重要なこととして、世界中の疎外された言語コミュニティに健康情報が確実に届けられるようにするために、翻訳に関する一般からのフィードバックを歓迎します。

手洗いポスターを自分で作ろう

合成画像をレンダリングするために使用するスクリプトと、手洗いポスターを生成するコードをオープンソース化しました。このアプローチは、ほぼすべての言語とスクリプトで機能するはずです。 「手を洗おう」の独自の翻訳をポスターに追加して、メッセージを広めたり、自分の地域の状況に合わせて翻訳したりすることができます。完成したポスターは、ハッシュタグ #WashYourHands を付けて必ずソーシャル メディアで共有してください。

AIスキルを身につける

世界に大きな影響を与える可能性のある、興味深い AI の問題は数多くあります。 AI を使用して上記のような問題を解決したい場合、またはビジネスで他のこと (サプライ チェーンの最適化、推奨、顧客サービスの自動化など) に AI を活用する必要があると思われる場合は、今年 5 月に開催される AI クラスルーム トレーニング イベントをお見逃しなく。 AI Classroom は、ある程度のプログラミング経験と数学の基礎知識を持つ人に適した、3 日間の没入型仮想トレーニング イベントです。このトレーニングでは、Python と TensorFlow、PyTorch などのオープンソース フレームワークを使用した実際の AI 開発のための実践的な基礎が提供されます。コースを修了すると、参加者は自信を持って独自の AI ソリューションの開発と展開を開始できるようになります。

<<:  あなたは私の目です!人工知能が障害者にバリアフリーのインターネットアクセスを提供する

>>:  Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

ブログ    
ブログ    

推薦する

...

...

人工知能はクリーンエネルギーへの移行で数兆ドルの節約に貢献できる可能性がある

U+のレポートによると、風力発電所などの他のクリーンエネルギー源と組み合わせて人工知能を使用すると...

人々が家に座っていて、車が道路を走っています。自動運転は信頼できるのでしょうか?

これまで、無人運転車は基本的にテレビや映画でしか耳にしませんでした。現在、無人運転車の技術は長い間実...

TIC 2018: クラウド サービスが人工知能の急速な発展を支援

[51CTO.comよりオリジナル記事] 中国の大手中立クラウドサービスプロバイダーUCloudが主...

...

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓:それは狂ったように推論できる

アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...

LSTM、GRU、ニューラルチューリングマシン: ディープラーニングで最も人気のあるリカレントニューラルネットワークの詳細な説明

リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...

ニューラルスタイル転送アルゴリズムで絵を描くことを学習する人間は、芸術分野で人工知能に負けるのでしょうか?

人工知能はますます多用途になり、すでに私たちの仕事のすべてを人工知能が引き継ぐことができるようです。...

「中国版ダヴィンチ」ロボットが人気!ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあ...

人工知能が中国の医療サービスに力を与える

「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...

ロボット、勤務中!これらの人々は職を失うのでしょうか?

近年、先端技術の発展により、科学技術は日々変化しており、職業や仕事内容も変化しています。最近、人力資...