「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年、OpenAIが発表した自然言語モデルGPT-3が大きなセンセーションを巻き起こしました。

これはこれまでで最大の NLP モデルであり、1,750 億のパラメータが含まれています。トレーニングだけでも数万の GPU が必要で、460 万ドルの費用がかかりました。

しかし、GPT-3は英語のコーパスに基づいてトレーニングされており、オープンソースではありません。業界では、中国語の超大規模なNLPモデルの登場が待ち望まれていました。

さあ、ついに来ました!

最近、北京人工知能研究院と清華大学の研究チームが共同で、大規模な事前学習済みモデルのオープンソースプログラムであるQingyuan CPM (Chinese Pretrained Models)を立ち上げました。

CPM は 11 月中旬に、26 億パラメータ規模の中国語言語モデル (CPM-LM) と 217 億パラメータ規模の構造化知識表現モデル (CPM-KM) の第 1 フェーズをダウンロード用に公開し、対応するデモも公開します。

プロジェクトのソースコードとモデルは、GitHub と公式 Web サイトからダウンロードできるようになりました。

CPM 中国語言語モデルは GPT-3 モデルに似ており、数回、1 回、または 0 回の学習でさまざまな自然言語処理タスクを完了でき、ある程度の常識と認知一般化機能を備えています。

当局は、清遠CPM計画のすべてのモデルは学界と産業界に無料でダウンロードして研究に利用できるように公開されていると述べた。

モデルの特徴

既存の中国の事前トレーニングモデルと比較して、今回リリースされた清遠CPM大規模事前トレーニングモデルには以下の特徴があります。

1.豊富で多様なコーパス:百科事典、小説、対話、質疑応答、ニュースなど、豊富で多様な中国語コーパスが大量に収集されています。

2.大規模モデル:今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、学習時間は64個のV100 GPUを使用して約3週間です。

3.強力な学習能力: さまざまな自然言語処理タスクにおいて、ゼロショット学習または少数ショット学習でより良い結果を達成できます。

4.自然で流暢な文章: 与えられたコンテキストに基づいて、モデルは高い一貫性と読みやすさでテキストを書き続けることができ、既存の中国語生成モデルの優れた効果を実現します。

デモ

Qingyuan CPM 事前トレーニング モデルの効果をより直感的に示すために、公式ではいくつかのテキスト生成デモを提供しています。

CPM 事前トレーニング済みモデルは、GPT-3 が処理できる常識的な質問と回答も処理できます。

実際の天気予報の内容に基づいて天気予報のテキスト テンプレートを生成できます。

Qingyuan CPM には、テキストを生成するだけでなく、特定の数学的推論機能も備わっており、以前のルールに基づいて計算結果を生成します。

『紅楼夢』からの抜粋を書き続けることもできます。

さらに、智源と清華のチームは、いくつかのベンチマークテストで清華CPMの実際のパフォーマンスも検証しました。

1. 空欄に中国語の慣用句を入れてください

ChID は、2019 年に清華大学の対話型インタラクティブ人工知能研究所 (CoAI) が収集した中国語の熟語の空欄補充データセットです。その目的は、空欄を埋めるために 10 個の候補から、指定された段落の意味に最も適した熟語を選択することです。

予測精度は表に示されています。CPM(large) は、教師なし設定でも教師あり CPM(small) よりも優れた結果を達成していることがわかります。これは、Qingyuan CPM の強力な中国語モデリング機能を反映しています。

2. ダイアログ生成

STC は、2015 年に Huawei Noah's Ark Laboratory によって提案された短いテキスト会話データセットです。前のテキストで複数回の会話が行われた場合、次の応答を予測する必要があります。

教師なし設定では、Qingyuan CPM の方が一般化が優れています。教師あり設定では、特に多様性指標の点で、Qingyuan CPM は CDial-GPT よりも優れた結果を達成できます。以下は生成された会話のサンプルです。

3. テキスト分類

Qingyuan CPM は、テキスト分類タスクのベンチマークとして、見出しの見出し分類 (TNEWS、4 つのカテゴリとしてサンプリング)、Iflytek アプリケーション紹介分類 (Iflytek、4 つのカテゴリとしてサンプリング)、および中国語自然言語推論 (OCNLI、3 つのカテゴリ) タスクを使用します。

Qingyuan CPM は、教師なし設定でランダム予測よりもはるかに優れた精度を達成できることがわかります (TNEWS/IFLYTEK/OCNLI ランダム予測精度はそれぞれ 0.25/0.25/0.33)。

4. 自動質疑応答

CPM は、自動質問応答タスクのベンチマークとして DuReader と CMRC2018 を使用し、モデルがタイトルの質問に対する回答として指定された段落からフラグメントを抽出することを要求します。 DuReader は、Baidu Search と Baidu Knows という 2 つのデータ部分で構成されています。

ワンショット設定では、CPM は特定のサンプルから回答を生成するパターンを学習できるため、効果は常にゼロショット設定よりも優れています。モデルの入力長には制限があるため、将来的には複数のサンプル入力を含むシナリオが検討される予定です。

5. エンティティ生成

CPM は、エンティティ生成タスクのベンチマークとして、XLORE のいくつかの共通関係トリプルを採用しています。少数ショット設定(予測するサンプルの前にヒントとして少数の実際のサンプルを配置する)では、さまざまなサイズの CPM モデルの BLEU-1 値が次の表に示されています。

パラメータの数が多いほど、モデルがエンティティを予測する精度が高くなることがわかります。同時に、モデルは 2 つのサンプルが与えられた場合に良好な結果を達成することができ、ほとんどの場合、N = 2 と N = 4 の効果は同様です。

3週間のV100トレーニングブロック64個

Zhiyuan と清華大学がリリースした大規模な事前トレーニング済みモデルは、単一の GPU で実行するのが困難なため、並列トレーニングを行うには複数の GPU 間でモデル パラメータを分散する必要があります。

CPM は、NVIDIA の超並列コンピューティング トレーニング プロジェクト Megatron-LM に基づいています。

CPM モデルの事前トレーニング プロセスは、複数の GPU に分散され、トレーニングにはレイヤー内並列アプローチが使用され、既存の成熟したテクノロジに基づいて、同期が削減され、通信速度が向上します。

今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、64個のNVIDIA V100 GPUが使用され、学習時間は約3週間です。

CPM-KG のパラメータ規模は 217 億で、事前学習済みの構造化知識グラフは WikiData の全データであり、約 1,300 の関係、8,500 万のエンティティ、4 億 8,000 万のファクト トリプルが含まれています。8 基の NVIDIA V100 GPU を使用し、学習時間は約 2 週間です。

今後の計画

今年末の 2 つのオープンソース プロジェクトは、清遠 NLP 研究計画の第一歩にすぎません。清遠 CPM の来年の研究およびオープンソース計画は次のとおりであると理解されています。

  • フェーズ 1 (2020 年 10 月~ 12 月) : 約 30 億のパラメータと 100 GB の中国語データを含むトレーニング データを備えた、大規模な中国語事前トレーニング済み言語モデル。
  • フェーズ2(2021年1月~6月) :中国語をコアとし、複数の言語を学習した、約200億のパラメータを含む大規模な事前学習済み言語モデル。学習データには、中国語をコアとした500GBの多言語データが含まれます。
  • フェーズ 3 (2021 年 7 月~ 9 月) : 約 1,000 億のパラメータを持つ、知識誘導型の大規模な事前トレーニング済み言語モデル。トレーニング データには、中国語を中核とする 1 TB の多言語データと、数十億のエンティティを含むエンティティ関係グラフが含まれます。

清遠CPMプログラムは、コンピューティングパワー、データ、人材を積極的に割り当て、独自の研究の実施に重点を置き、超大規模事前トレーニングモデル技術においてできるだけ早くトップクラスの国際機関と同等のレベルを達成し、中国語自然言語の深い理解と生成能力を強化します。

同時に、AI研究所は業界と積極的に協力し、インテリジェントな顧客サービス、パーソナライズされた推奨、テキスト生成、自動プログラミングなどの分野で新しいAIアプリケーションとビジネスモデルを模索していきます。

清遠CPMプログラムについて

Qingyuan CPM プログラムは、中国語を中核とする大規模な事前トレーニング済みモデルです。

オープンソース コンテンツの最初のバッチには、中国語の自然言語理解、生成タスク、知識コンピューティング アプリケーションで幅広く使用できる、事前トレーニング済みの中国語言語モデルと事前トレーニング済みの知識表現モデルが含まれています。

清遠CPMプログラムは、北京智遠人工知能研究所と清華大学の研究チームが共同で実施しています。 「自然言語処理」は、科学アカデミーが支援する主要な研究方向の 1 つです。

知源は、この方向で国内の権威ある学者を多数集めており、彼らはNLPの分野で豊富な研究成果を蓄積してきました。

例えば、清華大学のSun Maosong氏Liu Zhiyuan氏のチーム、 Li Juanzi氏Tang Jie氏のチームは、知識誘導型事前トレーニングモデルERNIEとKEPLERを提案しました。Circular IntelligenceのYang Zhilin氏のチームは、BERTよりも大幅に性能が優れているXLNetモデルを提案しました。清華大学のZhu Xiaoyan氏Huang Minlie氏のチームは、感情分析の事前トレーニングモデルであるSentiLARE、常識知識を統合した事前トレーニング言語生成モデルであるStoryGPT、中国語の対話生成用のCDial-GPTモデルなどを提案しました。

研究チームは、知源研究所の大規模コンピューティングパワープラットフォームの支援を受けて、言語間学習、テキスト生成、知識融合、モデル並列処理、圧縮などの最先端のテーマを含む、中国語を中核とした超大規模事前トレーニングモデルの研究を実施し、関連モデルを速やかにオープンソース化し、知源コミュニティを通じて共有します。

<<:  スマートパッケージング:製造業の最新トレンド

>>:  気候変動との戦い: AIはエネルギーソリューションをリードできる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

なぜ一部の数学研究者はディープラーニングを嫌ったり軽蔑したりするのでしょうか?

[[190844]] DL の難しさは、問題をどのような視点から見るかによって決まります。数学を勉...

AI | 人工知能、プログラマーの終焉?

AIといえば、一般の人はまだそれが何なのか知らない人が多いかもしれません。 Baidu 百科事典で...

2023 年のテクノロジー業界の最高、最悪、そして最も醜い出来事

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...

AIが宇宙飛行士の健康を宇宙で監視する方法

[[286902]] ▲ 火星探査機ロゼッタが光学スペクトル赤外線リモートイメージングシステム(OS...

AIGC: 将来は誰が支払うのでしょうか?

情報獲得に対する私たちの執着は、初期の人類が生き残り、繁殖するための適応特性を発達させたことにまで遡...

NLP ビッグモデルを時系列に適用するにはどうすればよいでしょうか? 5つの方法をまとめました!

最近、カリフォルニア大学は時系列の大規模言語モデルに関する研究のレビューを発表しました。この記事では...

企業がAIアプリケーションの成功を測定する方法

AI を従来のソフトウェアと区別する基本的な特徴は、非決定性です。同じ入力であっても、計算のラウンド...

2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

この記事では、最近 FloydHub ブログで Cathal Horan が紹介した自然言語処理のト...

汎用人工知能について

汎用人工知能と人工知能の未来を探ります。汎用人工知能 (AGI) は、人工知能 (AI) 研究の分野...

...

ディープニューラルネットワークの数学的基礎は難しすぎますか?

ディープフィードフォワードネットワーク統計学から始めると、自然に関数 f を定義し、データサンプルは...

AIを新たな段階へ導くYLearn因果学習オープンソースプロジェクトがリリース

2022年7月12日、九張雲済DataCanvas社は、もう一つの画期的なオープンソース技術成果であ...

ソフトウェア開発における人工知能: 自動化と最適化

最先端技術である人工知能(AI)は、さまざまな分野で大きな可能性を見せています。ソフトウェア開発の分...