「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年、OpenAIが発表した自然言語モデルGPT-3が大きなセンセーションを巻き起こしました。

これはこれまでで最大の NLP モデルであり、1,750 億のパラメータが含まれています。トレーニングだけでも数万の GPU が必要で、460 万ドルの費用がかかりました。

しかし、GPT-3は英語のコーパスに基づいてトレーニングされており、オープンソースではありません。業界では、中国語の超大規模なNLPモデルの登場が待ち望まれていました。

さあ、ついに来ました！

最近、北京人工知能研究院と清華大学の研究チームが共同で、大規模な事前学習済みモデルのオープンソースプログラムであるQingyuan CPM (Chinese Pretrained Models)を立ち上げました。

CPM は 11 月中旬に、26 億パラメータ規模の中国語言語モデル (CPM-LM) と 217 億パラメータ規模の構造化知識表現モデル (CPM-KM) の第 1 フェーズをダウンロード用に公開し、対応するデモも公開します。

プロジェクトのソースコードとモデルは、GitHub と公式 Web サイトからダウンロードできるようになりました。

CPM 中国語言語モデルは GPT-3 モデルに似ており、数回、1 回、または 0 回の学習でさまざまな自然言語処理タスクを完了でき、ある程度の常識と認知一般化機能を備えています。

当局は、清遠CPM計画のすべてのモデルは学界と産業界に無料でダウンロードして研究に利用できるように公開されていると述べた。

モデルの特徴

既存の中国の事前トレーニングモデルと比較して、今回リリースされた清遠CPM大規模事前トレーニングモデルには以下の特徴があります。

1.豊富で多様なコーパス：百科事典、小説、対話、質疑応答、ニュースなど、豊富で多様な中国語コーパスが大量に収集されています。

2.大規模モデル：今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、学習時間は64個のV100 GPUを使用して約3週間です。

3.強力な学習能力: さまざまな自然言語処理タスクにおいて、ゼロショット学習または少数ショット学習でより良い結果を達成できます。

4.自然で流暢な文章: 与えられたコンテキストに基づいて、モデルは高い一貫性と読みやすさでテキストを書き続けることができ、既存の中国語生成モデルの優れた効果を実現します。

デモ

Qingyuan CPM 事前トレーニングモデルの効果をより直感的に示すために、公式ではいくつかのテキスト生成デモを提供しています。

CPM 事前トレーニング済みモデルは、GPT-3 が処理できる常識的な質問と回答も処理できます。

実際の天気予報の内容に基づいて天気予報のテキストテンプレートを生成できます。

Qingyuan CPM には、テキストを生成するだけでなく、特定の数学的推論機能も備わっており、以前のルールに基づいて計算結果を生成します。

『紅楼夢』からの抜粋を書き続けることもできます。

さらに、智源と清華のチームは、いくつかのベンチマークテストで清華CPMの実際のパフォーマンスも検証しました。

1. 空欄に中国語の慣用句を入れてください

ChID は、2019 年に清華大学の対話型インタラクティブ人工知能研究所 (CoAI) が収集した中国語の熟語の空欄補充データセットです。その目的は、空欄を埋めるために 10 個の候補から、指定された段落の意味に最も適した熟語を選択することです。

予測精度は表に示されています。CPM(large) は、教師なし設定でも教師あり CPM(small) よりも優れた結果を達成していることがわかります。これは、Qingyuan CPM の強力な中国語モデリング機能を反映しています。

2. ダイアログ生成

STC は、2015 年に Huawei Noah's Ark Laboratory によって提案された短いテキスト会話データセットです。前のテキストで複数回の会話が行われた場合、次の応答を予測する必要があります。

教師なし設定では、Qingyuan CPM の方が一般化が優れています。教師あり設定では、特に多様性指標の点で、Qingyuan CPM は CDial-GPT よりも優れた結果を達成できます。以下は生成された会話のサンプルです。

3. テキスト分類

Qingyuan CPM は、テキスト分類タスクのベンチマークとして、見出しの見出し分類 (TNEWS、4 つのカテゴリとしてサンプリング)、Iflytek アプリケーション紹介分類 (Iflytek、4 つのカテゴリとしてサンプリング)、および中国語自然言語推論 (OCNLI、3 つのカテゴリ) タスクを使用します。

Qingyuan CPM は、教師なし設定でランダム予測よりもはるかに優れた精度を達成できることがわかります (TNEWS/IFLYTEK/OCNLI ランダム予測精度はそれぞれ 0.25/0.25/0.33)。

4. 自動質疑応答

CPM は、自動質問応答タスクのベンチマークとして DuReader と CMRC2018 を使用し、モデルがタイトルの質問に対する回答として指定された段落からフラグメントを抽出することを要求します。 DuReader は、Baidu Search と Baidu Knows という 2 つのデータ部分で構成されています。

ワンショット設定では、CPM は特定のサンプルから回答を生成するパターンを学習できるため、効果は常にゼロショット設定よりも優れています。モデルの入力長には制限があるため、将来的には複数のサンプル入力を含むシナリオが検討される予定です。

5. エンティティ生成

CPM は、エンティティ生成タスクのベンチマークとして、XLORE のいくつかの共通関係トリプルを採用しています。少数ショット設定（予測するサンプルの前にヒントとして少数の実際のサンプルを配置する）では、さまざまなサイズの CPM モデルの BLEU-1 値が次の表に示されています。

パラメータの数が多いほど、モデルがエンティティを予測する精度が高くなることがわかります。同時に、モデルは 2 つのサンプルが与えられた場合に良好な結果を達成することができ、ほとんどの場合、N = 2 と N = 4 の効果は同様です。

3週間のV100トレーニングブロック64個

Zhiyuan と清華大学がリリースした大規模な事前トレーニング済みモデルは、単一の GPU で実行するのが困難なため、並列トレーニングを行うには複数の GPU 間でモデルパラメータを分散する必要があります。

CPM は、NVIDIA の超並列コンピューティングトレーニングプロジェクト Megatron-LM に基づいています。

CPM モデルの事前トレーニングプロセスは、複数の GPU に分散され、トレーニングにはレイヤー内並列アプローチが使用され、既存の成熟したテクノロジに基づいて、同期が削減され、通信速度が向上します。

今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、64個のNVIDIA V100 GPUが使用され、学習時間は約3週間です。

CPM-KG のパラメータ規模は 217 億で、事前学習済みの構造化知識グラフは WikiData の全データであり、約 1,300 の関係、8,500 万のエンティティ、4 億 8,000 万のファクトトリプルが含まれています。8 基の NVIDIA V100 GPU を使用し、学習時間は約 2 週間です。

今後の計画

今年末の 2 つのオープンソースプロジェクトは、清遠 NLP 研究計画の第一歩にすぎません。清遠 CPM の来年の研究およびオープンソース計画は次のとおりであると理解されています。

フェーズ 1 (2020 年 10 月～ 12 月) : 約 30 億のパラメータと 100 GB の中国語データを含むトレーニングデータを備えた、大規模な中国語事前トレーニング済み言語モデル。
フェーズ2（2021年1月～6月） ：中国語をコアとし、複数の言語を学習した、約200億のパラメータを含む大規模な事前学習済み言語モデル。学習データには、中国語をコアとした500GBの多言語データが含まれます。
フェーズ 3 (2021 年 7 月～ 9 月) : 約 1,000 億のパラメータを持つ、知識誘導型の大規模な事前トレーニング済み言語モデル。トレーニングデータには、中国語を中核とする 1 TB の多言語データと、数十億のエンティティを含むエンティティ関係グラフが含まれます。

清遠CPMプログラムは、コンピューティングパワー、データ、人材を積極的に割り当て、独自の研究の実施に重点を置き、超大規模事前トレーニングモデル技術においてできるだけ早くトップクラスの国際機関と同等のレベルを達成し、中国語自然言語の深い理解と生成能力を強化します。

同時に、AI研究所は業界と積極的に協力し、インテリジェントな顧客サービス、パーソナライズされた推奨、テキスト生成、自動プログラミングなどの分野で新しいAIアプリケーションとビジネスモデルを模索していきます。

清遠CPMプログラムについて

Qingyuan CPM プログラムは、中国語を中核とする大規模な事前トレーニング済みモデルです。

オープンソースコンテンツの最初のバッチには、中国語の自然言語理解、生成タスク、知識コンピューティングアプリケーションで幅広く使用できる、事前トレーニング済みの中国語言語モデルと事前トレーニング済みの知識表現モデルが含まれています。

清遠CPMプログラムは、北京智遠人工知能研究所と清華大学の研究チームが共同で実施しています。「自然言語処理」は、科学アカデミーが支援する主要な研究方向の 1 つです。

知源は、この方向で国内の権威ある学者を多数集めており、彼らはNLPの分野で豊富な研究成果を蓄積してきました。

例えば、清華大学のSun Maosong氏とLiu Zhiyuan氏のチーム、 Li Juanzi氏とTang Jie氏のチームは、知識誘導型事前トレーニングモデルERNIEとKEPLERを提案しました。Circular IntelligenceのYang Zhilin氏のチームは、BERTよりも大幅に性能が優れているXLNetモデルを提案しました。清華大学のZhu Xiaoyan氏とHuang Minlie氏のチームは、感情分析の事前トレーニングモデルであるSentiLARE、常識知識を統合した事前トレーニング言語生成モデルであるStoryGPT、中国語の対話生成用のCDial-GPTモデルなどを提案しました。

研究チームは、知源研究所の大規模コンピューティングパワープラットフォームの支援を受けて、言語間学習、テキスト生成、知識融合、モデル並列処理、圧縮などの最先端のテーマを含む、中国語を中核とした超大規模事前トレーニングモデルの研究を実施し、関連モデルを速やかにオープンソース化し、知源コミュニティを通じて共有します。

<<: スマートパッケージング：製造業の最新トレンド

>>: 気候変動との戦い: AIはエネルギーソリューションをリードできる