6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

[[406821]]

自然言語処理 (NLP) は、AI の最高傑作として知られています。従来の NLP モデルは複雑で、作成に時間と労力がかかり、目的が単一で再利用が困難であり、まるで手工芸工房のようなものです。近年登場した事前トレーニング済みの言語モデルは状況を変えつつあり、言語 AI をスケーラブルな複製の産業時代へと導くことが期待されています。そのため、「事前トレーニング + 微調整」が NLP タスクの新しいパラダイムになりました。

アリババDAMOアカデミーは、最も早く事前学習済み言語モデルの研究に投資したチームの1つとして、3年かけてディープ言語モデルシステムAliceMindを開発しました。汎用言語モデルStructBERTをベースに、多言語、生成、マルチモーダル、構造化、知識駆動などの方向に拡張し、包括的な機能を備えています。その中で、これらのモデルは、GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCOなど、自然言語処理の分野で権威ある6つのリストでトップを獲得し、業界をリードしています。関連する研究論文はトップAI / NLPカンファレンスで採択され、6月には2021年世界人工知能会議の最高賞であるSAIL賞のTOP30リストに選ばれました。

先週、AliceMindは権威あるマルチモーダルリストVQA Challenge 2021 Visual Question Answering Challengeで再びトップになり、MicrosoftやFacebookなど数十のトップ国際チームを破り、2位を1ポイント上回り、記録を昨年の1位の76.36%から79.78%に大幅に向上させ、人間のレベル（80.78%）に近づきました。

つい最近、Alibaba DAMO Academy は AliceMind の公式オープンソースリリースを発表しました。 DAMOアカデミーの関係者は、オープンソースを通じて産業研究や革新的な応用の敷居を下げ、言語AIを大規模産業の時代に推進できることを期待していると述べた。

DAMO Academyの深層言語モデルシステムAliceMindには、汎用言語モデルStructBERT、多言語VECO、生成PALM、マルチモーダルStructVBERT、構造化StructuralLM、知識駆動型LatticeBERT、機械読解UED、超大規模モデルPLUGなどが含まれており、そのほとんどが今回オープンソース化されたと報じられている。さらに、AliceMind は、「事前トレーニング + 微調整」言語モデルを中心としたエコロジカルテクノロジーをオープンソース化し続けていきます。

AliceMind オープンソースアドレス:
https://github.com/alibaba/AliceMind

AliceMind体験入場口：
https://nlp.aliyun.com/portal#/alice

AliceMindのイノベーション

1. 汎用言語モデルStructBERT

Googleが2018年末に発表したBERTモデルは、業界で広く使用されている自然言語事前トレーニングモデルです。DAMO AcademyチームはBERTをベースに最適化されたモデルStructBERTを提案し、機械が人間の文法をよりよく習得し、自然言語を理解できるようにしました。2020年には、自然言語処理分野のトップコンテストであるGLUEベンチマークで何度も優勝しました。

StructBERT は、文レベルと単語レベルで 2 つの新しい目的関数を導入します。これは、マシンに「文法認識装置」を構築するようなものです。これにより、マシンは、語順が乱れた単語や文、または文法的に正しくない表現に直面しても、正確に理解して正しい表現や応答を返すことができるため、単語、文、言語全体に対するマシンの理解が大幅に向上します。関連論文がICLR2020に採択されました。

2. 多言語言語モデルVECO

クロスランゲージ事前トレーニングの本来の目的は、複数の言語の統一された意味表現を確立することです。AliceMindシステムのクロスランゲージ事前トレーニングモデルVECOが提案されると、国際的に権威のあるマルチランゲージリストXTREMEで1位にランクされ、FacebookやMicrosoftなどの業界を代表するモデルをはるかに上回りました。 VECO は現在、100 の言語での理解と生成のタスクをサポートしています。

VECO の優れたパフォーマンスは、主に 2 つのイノベーションによるものです。1 つ目は、言語間の情報をより「明示的に」モデル化できること (図 1)、2 つ目は、VECO が事前トレーニングプロセス中に言語理解 (NLU) と生成 (NLG) のタスクを完全に学習し、両者が互いに学習して改善できるようにすることです (図 2)。そのため、VECOモデルは多言語理解（NLU）と言語生成（NLG）の両方のタスクで最高の結果を達成した多言語分野初のモデルとなり、関連論文はトップカンファレンスACL 2021に採択されました。

図1

図2

3. 生成言語モデルPALM

PALM は、入力テキストを再構築するのではなく、後続のテキストの予測を事前トレーニングの目標とする、以前の生成モデルとは異なる事前トレーニング方法を使用します。 PALM は、オートエンコーダを使用して入力テキストをエンコードし、自己回帰アプローチを使用して 1 つのモデルで後続のテキストを生成します。後続のテキストを予測するこの事前トレーニングにより、モデルは入力テキストを理解する能力を向上させることができ、さまざまな下流の言語生成 (NLG) タスクでより良い結果を達成できます。

PALM は、MARCO NLG 自然言語生成公開評価で 1 位にランクされ、要約生成標準データセット CNN/DailyMail および Gigaword で既存のすべての事前トレーニング済み生成言語モデルを上回りました。 PALM は、質問応答生成、テキスト再話、返信生成、テキスト要約、データからテキストへの変換などの生成アプリケーションに使用できます。関連論文がトップカンファレンスACL2020に採択されました。

4. マルチモーダル言語モデルStructVBERT

StructVBERT は、一般的な StructBERT モデルをベースに、テキストと画像のモダリティを導入し、統一されたマルチモーダル意味空間で共同モデリングを実行し、同時に、マルチタスク事前トレーニング用の単一ストリームアーキテクチャに基づいて画像テキスト記述データと画像質問応答データを導入し、マルチスケール画像機能の段階的な事前トレーニングを実行します。さらに、このモデルはアテンションマスクマトリックス制御を使用してデュアルストリームアーキテクチャを実装し、クロスモーダルデュアルストリームモデリング機能を向上させます。シングルストリームとデュアルストリーム構造の利点を組み合わせることで、テキストと画像の両方のモダリティを理解するモデルの能力がさらに向上します。関連記事がトップカンファレンスACL2021に採択されました。

5. 構造言語モデル StructuralLM

StructuralLM は、言語モデル StructBERT を構造化言語モデルに拡張したものです。画像文書データの 2D 位置情報を最大限に活用し、ボックス位置予測の事前トレーニングタスクを導入することで、モデルが画像の異なる位置にある単語間の関係を認識できるように支援します。これは、実際のシーンで画像文書を理解するために非常に重要です。構造 LM モデルは DocVQA リストで 1 位にランクされ、フォーム理解 FUNSD データセットとドキュメント画像分類 RVL-CDIP データセット上の既存のすべての事前トレーニング済みモデルを上回ります。関連記事がトップカンファレンスACL2021に採択されました。

6. 機械読解モデル UED

有名な SQuAD リスト以来、Alibaba は単一段落抽出 -> 複数文書抽出/検索 -> 複数文書生成 -> オープン読解という方向で機械読解を開発し、一連のランキングで優勝してきました。

2018年には、単一段落機械読解コンテストSQuADで初めて人間の精度を上回りました。
2018年、私たちは権威ある複数文書機械読解コンテストであるTriviaQAとDuReaderで新記録を樹立し、1位を獲得しました。
2019年には、国際的な情報検索評価の最高峰であるTREC 2019 Deep Learning Trackにおいて、段落検索と文書検索の両タスクで1位を獲得しました。
2019年には、機械読解力のトップコンテストMS MARCOにおいて段落ソート、複数文書回答抽出、複数文書回答生成の3つのタスクで1位を獲得し、複数文書回答抽出タスクで初めて人間のレベルを超えました。

関連論文がAAAI2021に採択されました。

7. 超大規模中国語理解・生成統合モデルPLUG

PLUG は、言語理解と生成機能を組み合わせた、中国語コミュニティにおけるオープン API を備えた最大のプレーンテキスト事前トレーニング済み言語モデルです。 PLUG は、ターゲットタスクをターゲットにした最適化を行うことができます。下流のトレーニングデータを使用してモデルを微調整することで、この特定のタスクに最適な生成品質を実現し、これまでの他の大規模生成モデルの少数ショット推論の不十分な生成効果を補い、実際の生成タスクへの適用に適しています。同時に、PLUGは双方向エンコーダー-デコーダーモデリングアプローチを採用しているため、従来のゼロショット生成のパフォーマンスの面では、生成の多様性、フィールドの広さ、長いテキストを生成するパフォーマンスなど、以前のモデルに比べて明らかな利点があります。

8. 知識駆動型言語モデル LatticeBERT

LatticeBERT は、トレーニング中に辞書の知識やその他の知識を事前トレーニング済みモデルに効果的に統合し、文字と単語の構造を同時にモデル化して、この混合粒度入力を線形に表現できるようにします。最初のステップは、多粒度の単語情報を含む中国語のテキストを格子を使用して表現し、その格子を BERT の入力として線形化することです。 2020 年 9 月、LatticeBERT は、中国の意味理解評価ベンチマーク CLUE リストの基本モデルの中で 1 位にランクされました。

チャートの優位性の背後には、AliceMind の継続的な革新と進化があります。 DAMO アカデミーチームは、BERT をベースに最適化されたモデル StructBERT を提案し、2020 年にトップ NLP コンペティション GLUE Benchmark で何度も優勝しました。このモデルは、文と単語レベルで2つの新しい目的関数を導入しており、AIに「文法認識装置」を装備するようなものです。文法上の誤りに直面しても、AIは正確に理解して正しい応答を返すことができるため、機械の言語に対する全体的な理解が大幅に向上します。関連記事はNAACL2021に採択されました。

VQA Challenge 2021 で優勝したマルチモーダルモデル StrucVBERT は、一般モデル StructBERT と構造化モデル StructuralLM を組み合わせ、テキストと画像のモダリティを導入し、より効率的な視覚的特徴と革新的な注意メカニズムを使用して、統一されたマルチモーダルセマンティック空間での共同モデリングを実現します。

AliceMindの活用

AliceMindは、読む、書く、翻訳する、質疑応答する、検索する、要約を生成する、会話するなどの多様な機能を備えており、現在ではアリババの言語技術基盤となっており、1日平均の通話回数は50億回以上、アクティブなシナリオは200以上あります。越境電子商取引、顧客サービス、広告など、数十のコアビジネスアプリケーションに実装されています。 AliceMind は社内プラットフォーム上でリリースされており、すぐに使用できます。現在、トレーニング、微調整、蒸留、テスト、デプロイメントの 5 つの主要機能をサポートしています。簡単な操作で、言語モデルのトレーニングからデプロイメントまでのリンク全体を完了できます。

AliceMindは、Alibaba以外にも、医療、エネルギー、金融など多くの業界で広く利用されています。その中で、浙江電力網公司はAliceMindを基盤として、従業員向けのインテリジェントな運用・保守プラットフォームを構築し、変圧器の保守、電源の緊急修理などの業務に適用し、中国国家電網公司で統一的に推進し始めました。

アリババDAMOアカデミーのディープ言語モデルチームの責任者である黄松芳氏は、次のように述べています。「事前トレーニング済みの言語モデルは、NLP分野の基礎と原材料となっています。AliceMindのオープンソースは、NLP分野の研究とアプリケーションの革新の敷居を下げ、業界が手工芸の時代から大規模な産業の時代に移行するのを支援します。」

<<: 最近では機械翻訳で文章から絵を想像できる

>>: DAMOアカデミーと国家気象センターは共同でAIアルゴリズムを開発し、広東省の多くの場所での激しい対流気象の予測を支援することに成功した。