26億のパラメータ、智源と清華が中国の大規模事前トレーニングモデルをオープンソース化

最近、北京人工知能研究院と清華大学の研究チームは共同で、中国語を中核とした大規模な事前学習済み言語モデルCPM-LMをリリースしました。パラメータ規模は26億に達し、事前学習済みの中国語データ規模は100GBです。

[[352853]]

2018年にGoogleがBERTをリリースして以来、事前トレーニング済みモデルは自然言語処理（NLP）の分野で徐々に主流になってきました。今年5月、OpenAIは史上最大のAIモデルであるGPT-3を発表し、大きな議論を巻き起こした。しかし、NLP 分野の現在の事前トレーニングモデルは主に英語を対象としており、GPT-3 などの英語のデータをトレーニングデータとして使用しています。

GPT-3 のトレーニングに使用されるデータセット。

最近、北京人工知能研究院と清華大学の研究チームが協力して、「清源CPM（Chinese Pretrained Models）」と呼ばれる大規模な事前学習済みモデルのオープンソースプロジェクトを立ち上げ、中国語を中核とした大規模な事前学習済みモデルの構築を目指している。オープンソースコンテンツの第 1 フェーズには、事前トレーニング済みの中国語モデルと事前トレーニング済みの知識表現モデルが含まれており、中国語の自然言語理解、生成タスク、および知識コンピューティングアプリケーションで幅広く使用できます。すべてのモデルは、学術界と産業界に無料でダウンロードして研究に使用できます。

清遠CPMホームページ: https://cpm.baai.ac.cn/

清遠CPM Githubホスティングコードホームページ: https://github.com/TsinghuaAI/

モデルの特徴

Qingyuan CPM のホームページによると、このプログラムによってリリースされた事前トレーニング済みモデルには次のような特徴があります。

大規模モデル：今回リリースされたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データ規模は100GB 、64台のV100 GPUを使用し、学習時間は約3週間です。CPM-KGのパラメータ規模は217億、事前学習済みの構造化知識グラフはWikiDataの全データで、約1,300の関係、8,500万のエンティティ、4億8,000万のファクトトリプルを含みます。8台のV100 GPUを使用し、学習時間は約2週間です。

豊富で多様なコーパス：百科事典、小説、対話、Q&A、ニュースなど、豊富で多様な中国語コーパスが大量に収集されています。

強力な学習能力: さまざまな自然言語処理タスクに対してゼロショット学習または少数ショット学習を実行し、優れた結果を達成できます。

自然で流暢な文章: 与えられたコンテキストに基づいて、モデルは高い一貫性と読みやすさでテキストを書き続けることができ、既存の中国語生成モデルの優れた効果を実現します。

モデルトレーニングに関しては、CPM モデルの事前トレーニングプロセスは複数の GPU に分散され、トレーニングにはレイヤー内並列アプローチが使用され、現在利用可能な成熟したテクノロジに基づいて、同期が削減され、通信速度が向上します。

ハードウェア設備に関しては、CPM モデルのトレーニングに合計 64 枚の V100 グラフィックカードが使用されました。事前トレーニング済みの CPM モデルは、会話、エッセイ生成、穴埋め問題、言語理解など、多くの下流の中国語タスクを容易にするために使用できます。

中国語の自然言語処理研究の発展を促進するため、プロジェクトではCPM-LM（2.6B）モデルのテキスト生成コードも提供しており、テキスト生成のローカルテストに使用でき、これに基づいてゼロショット学習/少数ショット学習などのシナリオのさらなる研究を行うことができます。詳細については、プロジェクトのGitHubホームページをご覧ください。

モデルのパフォーマンス

Qingyuan CPM は、ニュース、百科事典、会話、Web ページ、ストーリーなど、さまざまな種類の中国語コーパスデータを事前トレーニングに使用します。複数の公開されている中国のデータセットでの実験では、Qingyuan CPM はサンプルがほとんどないかまったくなくても良好な結果を達成できることが示されています。

中国語の熟語穴埋め問題 ChID

ChID は、2019 年に清華大学の対話型インタラクティブ人工知能研究所 (CoAI) が収集した中国語の熟語の空欄補充データセットです。その目的は、空欄を埋めるために 10 個の候補から、指定された段落の意味に最も適した熟語を選択することです。

教師あり設定とは、ChID トレーニングセットでトレーニングしてからテストセットでテストすることを指します。教師なし設定とは、追加のトレーニングを行わずに事前トレーニング済みモデルを使用して直接テストすることを指します。具体的なアプローチとしては、候補項目を段落に一つずつ埋め、埋めた段落の困惑度を計算し、困惑度が最も小さい候補項目を予測結果として選択するというものです。予測精度は表に示されています。教師なし設定では、CPM (大) が教師あり CPM (小) よりも優れた結果を達成していることがわかります。これは、Qingyuan CPM の強力な中国語モデリング機能を反映しています。

対話はSTCを生成する

STC は、2015 年に Huawei Noah's Ark Lab によって提案された短いテキスト会話データセットです。前のテキストで複数回の会話が行われた場合、次の応答を予測する必要があります。

そのうち、CDial-GPTは、清華大学の会話型インタラクティブ人工知能（CoAI）研究所が2020年に提案した中国語の対話事前トレーニングモデルです。多様性を測定するために使用される Dist-n インジケーターの 2 つの数値は、すべての非繰り返し N-Gram の数とすべての N-Gram の割合です。教師なし設定では、Qingyuan CPM の方が一般化が優れていることがわかります。教師あり設定では、特に多様性指標の点で、Qingyuan CPM は CDial-GPT よりも優れた結果を達成できます。

テキスト分類

Qingyuan CPM は、テキスト分類タスクのベンチマークとして、見出しの見出し分類 (TNEWS、4 つのカテゴリとしてサンプリング)、IFLYTEK アプリケーション紹介分類 (IFLYTEK、4 つのカテゴリとしてサンプリング)、および中国語自然言語推論 (OCNLI、3 つのカテゴリ) のタスクを使用します。具体的な方法は、まず分類サンプルを入力し、次に「記事のカテゴリは/紹介のカテゴリは/2つの文の関係は」と入力して、モデルに直接ラベルを生成させます。4つのラベルの中で最も確率の高いラベルが予測結果として使用されます。教師なし設定では、テキスト分類タスクにおけるさまざまなスケールの Qingyuan CPM の精度が次の表に示されています。

Qingyuan CPM は、教師なし設定でランダム予測よりもはるかに優れた精度を達成できます (TNEWS/IFLYTEK/OCNLI のランダム予測精度はそれぞれ 0.25/0.25/0.33 です)。

自動質問と回答

CPM は、自動質問応答タスクのベンチマークとして DuReader と CMRC2018 を使用し、モデルが質問の回答として指定された段落からフラグメントを抽出することを要求します。DuReader は、Baidu Search と Baidu Knows の 2 つのデータ部分で構成されています。教師なし設定では、さまざまなサイズの CPM モデルのパフォーマンスが次の表に示されています。

単一サンプルとは、テスト中にデータセットから正しい「(段落、質問、回答)」の 3 つをランダムに抽出し、評価に使用するサンプルの前に挿入して、CPM モデルが回答を生成するためのプロンプトとして使用することを指します。ゼロサンプルとは、CPM モデルを直接使用して、特定の段落と質問に対する回答を予測することを指します。ワンショット設定では、CPM は特定のサンプルから回答を生成するパターンを学習できるため、効果は常にゼロショット設定よりも優れています。モデルの入力長には制限があるため、将来的には複数のサンプル入力を含むシナリオが検討される予定です。

モデル効果表示

次の例から、CPM 事前トレーニング中国語モデルの効果を確認できます。たとえば、1 つの常識的な質問の学習に基づいて、ルールに従って質問をし、正しく答えます。

前回の記事の実際の天気予報をもとに、引き続き天気予報をお伝えします（正確性は保証されません）：

数学的推論を実行する:

「紅楼夢」の断片を書き続けた。

清源CPMは今後、より大規模な中国語事前学習済み言語モデル、中国語を中核とした多言語事前学習済みモデル、大規模な知識を統合した事前学習済み言語モデルなどをオープンソース化してリリースする予定だとされている。

<<: ボストン・ダイナミクスはまたもオーナーが変わる。ロボット界のトップスターを商業化するのはなぜ難しいのか？

>>: 沈興陽博士：30年間の科学研究で私が遭遇した落とし穴