Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は Google もこれに加わった。 Googleは、T5に基づくmT5多言語モデルが正式にオープンソース化されたと発表した。最大のモデルには130億のパラメータがあり、FacebookのM2Mと比較すると、パラメータは少なく、サポートする言語は多い。

[[348972]]

数日前、Facebook は 100 言語間で翻訳できるモデル M2M-100 をリリースしました。翻訳は Google の得意分野なので、これは Google を不安にさせました。

ちょうど今、Google は一連の自然な英語処理タスクでさまざまな SOTA を打ち負かした mT5 というモデルもリリースしました。

あなたが投稿すれば、私も投稿します。あなたは 100 種類をサポートし、私は 101 種類をサポートします。 (これ以上は意味がないですが、勢いとしては負けられないですね)

mT5はGoogleのT5モデルの多言語版です。トレーニングデータセットは101の言語をカバーし、3億から130億のパラメータが含まれています。パラメータの数で言えば、確かに非常に大規模なモデルです。

多言語モデルはAIへの架け橋だが、「有害な」出力を避けるのは難しい

現在、世界には体系的な言語が約7,000存在しています。コンピュータービジョンや音声認識などの分野では人工知能が人間を超えていますが、それは少数の言語に限られています。

汎用 AI 機能を小さな言語に移行しようとするのは、ほとんどゼロから始めるようなもので、労力に見合うものではありません。

そのため、言語間は AI 機能の移転にとって重要な架け橋となっています。

多言語人工知能モデル設計の目標は、世界のほとんどの言語を理解できるモデルを構築することです。

多言語 AI モデルは、類似の言語間で情報を共有し、データとリソースへの依存を減らし、少数ショットまたはゼロショットの学習を可能にします。モデルのサイズが大きくなるにつれて、より大きなデータセットが必要になることがよくあります。

C4 は、公開 Web サイトから取得した約 750 GB の英語テキストのコレクションです。mC4 は C4 のバリエーションです。C4 データセットは主に英語のタスク用に設計されています。mC4 は過去 71 か月間の Web ページ データを収集し、107 の言語をカバーしています。これは、C4 が使用するソース データよりもはるかに多くのデータです。

mC4 のさまざまな言語の Web ページ数

言語モデルがデータセット内に存在するバイアスを増幅する可能性があるという証拠があります。

一部の研究者は、現在の機械学習技術では「有害な」出力を避けることはほとんど不可能だと主張しているが、Google の研究者は、データ内の極端な言語を含むページをフィルタリングしたり、cld3 を使用してページの言語を検出したり、信頼度が 70% 未満のページを直接削除したりするなど、mT5 の偏りを減らすよう努めてきた。

mT5: 25万語の語彙を使用する多言語データサンプリング戦略が鍵

mT5 のモデル アーキテクチャとトレーニング プロセスは、T5 のものと非常によく似ています。mT5 は、GeGLU 非線形性 (Shazeer、2020) の使用、大規模モデルで dff ではなく dmodel をスケーリングすることで T5 を改善すること、情報損失なしでラベルなしデータのみで事前トレーニングすることなど、T5 のいくつかの手法に基づいています。

多言語モデルのトレーニングで最も重要なポイントは、各言語からデータをどのようにサンプリングするかです。

ただし、この選択はゼロサムゲームです。リソースの少ない言語が頻繁にサンプリングされると、モデルが過剰適合する可能性があります。一方、リソースの多い言語が十分にトレーニングされていない場合は、モデルの一般化が制限されます。

そこで研究チームは、Devlin、Arivazhaganらが使用した方法を採用し、確率p(L)∝|L|^αに応じてリソースが少ない言語をサンプリングしました。ここで、p(L) は事前トレーニング中に特定の言語からサンプリングされる確率、|L| は言語のサンプル数、α はハイパーパラメータです。Google は実験を通じて、α が 0.3 の場合に最も効果的であることを発見しました。

より多くの言語に対応するために、mT5 では語彙が 250,000 語に増加しました。 T5 と同様に、モデルのトレーニングには SentencePiece と wordPiece が使用されます。

文章

サンプリング後に一部の文字がカバーされない場合はどうなりますか?

中国語などの大きな文字セットを持つ言語に対応するために、チームは 0.99999 文字の範囲を使用しましたが、SentencePiece の「バイト バックオフ」機能も有効にして、任意の文字列を一意にエンコードできるようにしました。

結果をより直感的にするために、研究者らは、主に数十の言語をサポートするモデルを中心に、既存の大規模な多言語事前トレーニング済み言語モデルと簡単に比較しました。

mT5はさまざまなSOTAに特化していますが、ベンチマークは必ずしもその強さを表すものではありません

2020年10月時点で、実験で最大のmT5モデルは130億のパラメータを持ち、XTREME多言語ベンチマークの5つのタスク、14の言語をカバーするXNLI派生タスク、それぞれ10、7、11の言語を含むXQuAD、MLQA、TyDi QA/読解ベンチマーク、および7つの言語でのPAWS-X言い換え認識を含む、テストされたすべてのベンチマークを上回りました。

実験結果によると、mT5 モデルは、読解力や機械による質問応答などのさまざまなベンチマーク テストにおいて、以前の事前トレーニング済み言語モデルよりも優れていることがわかりました。

ベンチマークが実稼働環境でのモデルのパフォーマンスを適切に反映できるかどうかは別の問題です。

事前トレーニング済みの言語モデルをテストする最も簡単な方法は、オープンドメインの質問応答を使用して、トレーニング済みのモデルがこれまでに見たことのない新しい質問に答えられるかどうかを確認することです。現在、GPT-3 のような強力なモデルでも、無関係な回答が返されることがよくあります。

しかし、Google の研究者は、mT5 は複雑なモデリング技術を必要としない強力なモデルへの一歩であると主張しています。

全体として、mT5 は、言語間表現学習の重要性を示し、フィルタリング、並列データ、またはその他のチューニング手法を通じて言語間能力転送を実現することが可能であることを示しています。

T5 から派生したこのモデルは、多言語環境に完全に適しています。

<<:  分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

>>:  企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「アンティーク」GPUでもDeepSeekと同じGRPOを実行できます。ビデオメモリは1/10しか必要とせず、コンテキストは10倍に増加します

オープンソースの微調整ツール Unsloth が新しいテクノロジーを携えて戻ってきました。前回のアッ...

人工知能の知られざる12の秘密

[[375984]] [51CTO.com クイック翻訳] 人工知能技術がさまざまな業界でますます使...

米国は自動運転に関する最も厳しい新規制を発行:L2〜L5を完全にカバー、今月30件のテスラ事故が調査された

[[408307]] IT Homeは6月30日、米国東部時間6月29日に米道路交通安全局(NHTS...

アリババの無人車が路上試験を開始、BATの3大巨頭が同じ舞台に集結

テンセントと百度の自動運転車はアリババを上回っており、自動運転分野でのBATの戦いがまもなく始まるか...

OpenAIはAPIのアップグレードと価格引き下げでメジャーアップデートを実施

6月14日、OpenAIは生成型人工知能の分野での競争上の優位性を維持するため、テキスト生成モデルを...

...

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIは単なるコードかもしれないが、それは私たちのコードだ

AI に対する期待は高すぎるのでしょうか? また、企業とその経営陣は AI が提供する成果にどの程度...

大規模な機械学習: データサイエンスを本番システムアーキテクチャに導入するための典型的なパターン

ここ数年、データサイエンスの概念は多くの業界で受け入れられてきました。データ サイエンス (科学的研...

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

今年2月、MetaはLLaMA大規模言語モデルシリーズをリリースし、オープンソースチャットボットの開...

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより...

無意味または有害なボットトラフィックは年間最大2億5000万ドルのコストがかかる

Cyber​​news によると、ますます多くの企業が、検出がますます困難になっている悪意のあるボッ...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

Google が 3,300 万ドルを投じて 5 年間の脳プロジェクトを開始!マウスの脳の2~3%をマッピング、エベレスト山とほぼ同じデータ量

人間の脳は、数十億個の細胞のネットワークで構成された、存在する最も複雑なコンピューターです。これまで...