NLP を上手に使いこなすには、適切な「武器」が必要です。GLUE で 1 位にランクされている武器をご存知ですか?

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

今日の自然言語処理の分野で最も流行している「魔法の武器」といえば、それは事前トレーニング済みの言語モデルでしょう。

BERT は 2018 年に登場し、NLP の新しい世界への扉を開きました。

さらに、この事前トレーニング+微調整の道では、あらゆる分野の達人が活躍しており、それぞれが独自のスタイルを持っています。

ご覧のとおり、XLNet は BERT をリストのトップから引きずり下ろし、RoBERTa は BERT のパフォーマンスをさらに「押し上げて」リストのトップに戻りました。

ステージに登場したのは西洋の出場者だけではなく、ウェンシン・アーニーなどの東洋の出場者も素晴らしいパフォーマンスを披露した。

では、過去 2 年間でどのモデルが優れたパフォーマンスを発揮したのでしょうか?

今日は、私をフォローして状況を把握してみてはいかがでしょうか〜

GLUEの武器リストを見てみましょう

事前トレーニング済みの言語モデルを武器に例えると、世界にはそれらを 1、2、3、4、5 にランク付けできる「白小生武器リスト」が存在します。

GLUE は、自然言語処理の分野における権威あるランキングの 1 つです。

このリストは、ニューヨーク大学、ワシントン大学、DeepMind などの機関によって共同で立ち上げられ、NLP 研究の進歩を評価するための業界標準として常にみなされてきました。

そのため、GLUE リストのトップの座をめぐる競争は非常に熾烈です。優勝できる「魔法の武器」には、当然ながらそれなりのメリットがある。

ダークアイアンヘビーソード BERT

BERT を例に挙げてみましょう。BERT はリリースされるとすぐに、事前トレーニング + 微調整の 2 段階モードで GLUE ベンチマークを 7.7% 直接引き上げ、多くの NLP 開発者を驚かせました。

具体的には、BERT は Transformer をベースにした深層双方向言語表現モデルです。事前トレーニング済みのモデルは、出力レイヤーを追加するだけで微調整でき、より幅広い新しいタスクに適応できます。

この概念の単純さは、刃のない重い剣、そして努力を要しない素晴らしい創意工夫として説明できます。

XLネット

BERT は優れていますが、欠点もあります。たとえば、事前トレーニング中の MASK マークは微調整中には表示されず、2 つのエンティティ間の関係が無視され、事前トレーニングと微調整の間に差異が生じます。

自己回帰モデルではこの問題を回避できます。そこで、「両頭の剣」XLNet が登場しました。これは双方向の特徴表現を備えた自己回帰モデルです。

さらに、一般化された自己回帰言語モデルとして、XLNet は不完全なデータに依存しません。

ロベルタ

しかし、XLNet がリストを独占してからわずか 1 か月後、BERT の強力な後継者が登場しました。

FacebookはBERTを改良し、そのパフォーマンスをさらに引き出し、RoBERTaという名前でトップに返り咲かせた。まさに「イーティアンが出たら、誰が彼に対抗できるのか？」という姿勢だ。

簡単に言うと、RoBERTa は主に次の変更を加えました: トレーニング時間の延長、バッチの大型化、データの増加...

データだけ見ると、オリジナルの BERT は 13 GB のデータセットを使用していましたが、RoBERTa は 6,300 万件の英語ニュース記事を含む160 GB のデータセットを使用していました。

トレーニング時間に関して言えば、RoBERTa は 1024 台の NVIDIA V100 を使用してトレーニングするのに約 1 日かかります。

この時点で、我が国の「兵器」がリストに載り、これらの有名な西洋の兵器と並んで輝いたことがあるだろうかと疑問に思う人もいるかもしれない。

答えはイエスです。

ドラゴンソードウェンシンアーニー

百度ユーザーの文心（ウェンシン）ことエルニ（ERNIE）が最近再びリストのトップに立った。

「竜殺しの剣」は非常に鋭く、壊れない剣です。 Wenxin ERNIE の鋭さは、継続的な学習と進化のために大規模な知識を統合する能力にあり、何年も磨いた後でも刃の鋭さは変わりません。

「国産品の誇り」アーニーがグルーを上回ったのは今回が初めてではない。

2019年12月、文心ERNIEはGLUEで初めて90点台を突破し、人間を3パーセント上回り、リストの新記録を樹立しました。

それ以来、2020年に文心ERNIEは言語生成、クロスモーダル理解、多言語理解などで飛躍的な進歩を遂げ、ERNIE-GEN、ERNIE-VIL、ERNIE-Mなどのモデルを次々と提案し、10以上のSOTAを達成し、各方面の権威ある評価リストでトップに立った。例えば、世界最大の意味評価コンテストであるSemEval 2020では、Wenxin ERNIEが一度に5つの世界選手権で優勝しました。 ERNIE 2.0 論文は、Paper Digest チームによって、人工知能に関する最高峰の国際学術会議である AAAI 2020 で最も影響力のある学術論文として評価されました。ウェンシン・アーニーは、中国人工知能学会2020年度優秀科学技術業績賞、2020年世界人工知能大会最高栄誉賞であるSAIL（スーパーAIリーダー）賞なども受賞した。

それでは、これほど多くの素晴らしい結果を達成した Wenxin ERNIE 独自の鍛造秘密のレシピとは何でしょうか?

なぜ Wenxin ERNIE が NLP 武器リストのトップになったのでしょうか?

Wenxin ERNIEは、事前トレーニングと微調整のアーキテクチャに基づいて、ビッグデータの事前トレーニングと複数のソースからの豊富な知識を革新的に組み合わせています。継続的な学習テクノロジーにより、大量のテキストデータから語彙、構造、意味などの新しい知識を継続的に吸収し、人間が学び続けるのと同じように、モデル効果の継続的な進化を実現します。

ERNIE の第 2 世代は現在 GLUE リストのトップにあります。その事前トレーニングプロセスは 2 つのステップに分かれています。

異なる次元の知識を学習するための教師なし事前トレーニングタスクを構築する
マルチタスク学習によるさまざまなタスクの継続的なトレーニング

このプロセスでは、さまざまなタスクが ERNIE に順序よく追加されます。継続的なマルチタスク学習により、モデルは新しいタスクを学習するときに以前に学習した知識を忘れることはありません。

さまざまな特定のアプリケーションタスクに対して、Wenxin ERNIE 2.0 は特定のタスクデータを使用して微調整を行います。

二代目が熾烈な競争の中で優勝を勝ち取ることができた核心的な秘密は、階層的学習でした。

これは、それぞれ「内部の強さ」と「外部の強さ」に対応する 2 つの学習レベルを含む新しい学習パラダイムです。

内部スキル（内部レベルの学習）は、主に語彙、構造、意味の 3 つの側面に関する知識を中心に構築された事前トレーニングタスクです。

これは、Wenxin ERNIE が初めて GLUE のトップに到達したときに採用したコア技術でもあります。

ここで簡単な例を挙げてみましょう。

語彙レベルでは、知識マスキングタスクを例に挙げます。

Wenxin ERNIE 1.0 モデルは、大量のデータ内の単語やエンティティなどの事前の意味知識をマスクすることで、完全な概念の意味表現を学習します。生の言語信号を学習する BERT と比較して、ERNIE は事前の意味知識単位を直接モデル化し、モデルの意味表現能力を強化します。 Wenxin ERNIE 2.0では、事前トレーニングタスクとして使用されます。

構造レベルでは、文の並べ替えタスクがその 1 つです。

文の順序は、論理的な順序と時間的な順序を反映します。 Wenxin ERNIE 2.0 は、文章を並べ替える事前トレーニングタスクを構築します。トレーニングプロセス中に、段落内の N 個の文章がランダムにシャッフルされ、モデルは N! カテゴリ内の正しい順序を予測するように求められます。この技術により、モデルは記事構造に含まれる豊富な知識を学習できるようになります。

意味レベルでは、論理関係予測タスクを例に挙げます。

意味情報をより細かくモデル化するために、短い文間の接続詞によって表現される論理関係が鍵となります。そのため、Wenxin ERNIE 2.0 は短い文の間の接続詞を使用して教師なし関係分類タスクを構築し、文間のきめ細かい論理的意味知識を学習します。

次の図に示すように:

内部スキルに加えて、外部スキルについてもお話ししましょう。外部作業（外部学習）は、モデル構造とスケールの洗練された段階的な学習です。

最初の段階では循環共有パラメータ Transformer 構造を採用し、2 番目の段階では構造をレイヤーごとに拡張し、最終的に非共有構造に完全に拡張します。

この方法でトレーニングを行うことで得られる利点には、次のようなものがあります。

まず、スムーズモデルパラメータ拡張トレーニング法は、大規模なPost-LN（残差後のレイヤー正規化）における不安定な収束の問題を解決します。

第二に、モデルパラメータを継続的に拡張することで、モデルのニューロンパラメータの規模が徐々に大きくなります。Wenxin ERNIEは、ますます大きくなる知識入力をスムーズに吸収できるため、モデルの学習能力の上限が向上します。

同時に、拡張プロセス中に、Wenxin ERNIE Neuron は Baidu PaddlePaddle が開発したハイブリッドシャーディング分散トレーニングアルゴリズムを導入しました。

このアルゴリズムは、ネットワークパラメータと勾配データをユニット通信ユニットに均等に分散することで、ネットワークオーバーヘッドのボトルネックを巧みに回避し、同期通信のハードウェアの利点を最大限に活用できます。

これにより、数百億のパラメータを持つモデルをトレーニングすることも可能になり、トレーニング時間が大幅に短縮されます。

この魔法の武器も使えます

ここまで話してきたので、皆さんは待ちきれなくなって、重要な質問をしたくてたまらないのではないでしょうか。

効果を直接体験できますか？

それ！はい！いつ！はい！

良いニュースは、Baidu が Wenxin ERNIE 意味理解プラットフォームをリリースしたことです。

このプラットフォームは、Wenxin ERNIE 事前トレーニング済みモデルセット、包括的な NLP アルゴリズムセット、エンドツーエンドの開発キット、プラットフォームサービスを統合し、ワンストップの NLP 開発とサービスを提供して、開発者が NLP モデルをよりシンプルかつ効率的にカスタマイズできるようにします。

最近、このプラットフォームは Wenxin ERNIE NLP 開発キットのプロフェッショナルバージョンとフラッグシップバージョンをリリースしました。

プロフェッショナル版では、待望の Wenxin ERNIE2.0 事前トレーニング済みモデルがプリインストールされており、専門的な学術および産業開発のニーズに応えるセマンティック理解機能を提供します。

フラッグシップバージョンは、産業グレードのアプリケーションシナリオを対象としており、最も包括的な事前トレーニング済みモデルライブラリとアルゴリズムセットを提供し、金融やメディアなどのシナリオベースのアプリケーションをサポートします。

実験結果によると、Wenxin ERNIE 2.0 は、機械読解、固有表現認識、自然言語推論、意味的類似性、感情分析、質疑応答など 9 つのタスクで BERT を大幅に上回りました。

同時に、開発キットのプロフェッショナルバージョンには、テキスト分類、短いテキストのマッチング、シーケンスのラベル付け、読解などの一般的なテキスト処理タスクをサポートするさまざまな古典的な NLP アルゴリズムネットワークも搭載されています。

基本的に、データの前処理からモデルのトレーニング、そしてモデルの予測まですべてをワンストップで体験できます。

試してみたい方は、記事の最後にあるWenxin ERNIEの公式サイトをクリックしてダウンロードを申請してください。

ちなみに、文心ERNIEはGLUEで2度トップになり、各種チャートでトップになった初の国内事前トレーニング「武器」です。

しかし、GLUE リストを見ると、ERNIE を筆頭に、中国製の魔法兵器が次々と登場し、独自の章を書いていることがわかります。

中国の NLP パワーが静かに発展し、成長し、世界の舞台の中心へと移ったのも、この開放と共有の雰囲気の中でのことでした。

さあ、体験してみませんか？

文鑫アーニー公式サイト：