2019 年の NLP における最先端のブレークスルーを振り返る

2019 年の NLP における最先端のブレークスルーを振り返る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2019 年に自然言語処理 (NLP) でどのようなブレークスルーがありましたか?

NLP に関して言えば、 BERT はよく知られた名前です。

感情分析、質問応答、文章類似性など、複数の NLP タスクで優れた結果を達成しています。

さらに、Kaggle のようなコンテストでも、メディアの報道でも、いつでも見ることができます。

この本は2018年後半に出版され、それから1年でNLPとNLU(自然言語理解)の分野は大きく成長しました。

そこで、この記事では、BERT のリリースをタイム ノードとして、その前後における NLP 分野の重要なプロジェクトとモデルを整理します。

BERT 以前の主要な NLP プロジェクトのタイムライン

BERT モデルが提案される前は、NLP 分野の主なプロジェクトは、次の図に示すように時間順に分類されていました。

Word2Vecモデルは 2013 年 1 月にリリースされ、現在でも非常に人気があります。

あらゆる NLP タスクにおいて、研究者が最初に試す可能性が高いモデルです。

https://arxiv.org/abs/1301.3781

FastTextGloVe は、それぞれ 2016 年 7 月と 2014 年 1 月に提案されました。

FastText は、ユーザーがテキスト表現とテキスト分類子を学習できるようにする、オープンソースで無料の軽量ライブラリです。

https://fasttext.cc/

GloVe は、単語のベクトル表現を取得するための教師なし学習アルゴリズムです。

https://nlp.stanford.edu/projects/glove/

Transformerは 2017 年 6 月に提案され、エンコーダーとデコーダーの構造に基づいたモデルです。

機械翻訳タスクでは RNN や CNN よりも優れており、エンコーダー/デコーダーとアテンションメカニズムのみを使用して優れた結果を達成できます。最大の利点は、効率的に並列化できることです。

https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

ELMo は2018 年 2 月に提案されました。事前トレーニング済みの双方向言語モデルを使用し、特定の入力に基づいて言語モデルからコンテキスト依存の現在の単語表現を取得し、それを特定の NLP 教師ありモデルに機能として追加します。

https://allennlp.org/elmo

また、NLPタスク用の転移学習モデルであるUlmfitというモデルもあります。ラベル付きデータの数千倍の量でトレーニングした場合と同レベルのテキスト分類精度を達成するために、ごく少量のラベル付きデータを使用するだけで済みます。

https://arxiv.org/abs/1801.06146

ELMo と Ulmfit は BERT より前に登場し、Transformer ベースの構造を採用していなかったことは注目に値します。

バート

BERTモデルは 2018 年 10 月に提案されました。

完全な名前は、双方向エンコーダー表現 from Transformers で、双方向 Transformer のエンコーダーです (デコーダーは予測する情報を取得できないため)。

△論文アドレス:https://arxiv.org/abs/1810.04805

このモデルの主な革新は事前トレーニング方法にあり、マスクされた LM と次の文の予測を使用して、それぞれ単語レベルと文レベルの表現をキャプチャします。

Google は検索結果を改善するために BERT を使い始めました。

より詳細な BERT モデルのチュートリアルは次のとおりです。
http://jalammar.github.io/illustrated-bert/

事前トレーニング済みの重みは、公式の Github リポジトリからダウンロードできます。
https://github.com/google-research/bert

Bert は Tensorflow ハブ モジュールとしても使用できます。
https://tfhub.dev/google/collections/bert/1

記事の最後には、非常に便利なさまざまなライブラリが提供されます。

BERT 後の主要な NLP プロジェクトのタイムライン

Google が BERT を提案した後、NLP の分野では他の優れた作業プロジェクトが登場しました。

トランスフォーマーXL

Transormer-XL は Transformer のアップグレード版であり、Transformer よりも 1,800 倍以上高速です。

ここでの XL は extra long、つまり超長いという意味で、Transformer-XL が言語モデリングにおける長距離依存性の問題で非常に優れたパフォーマンスを発揮することを示しています。同時に、遠距離依存の問題のために生まれたことも意味します。

長距離依存性の問題は、現在のテキスト処理モデルが直面している難しい問題であり、RNN が失敗する問題でもあります。

対照的に、Transformer-XL は RNN よりも 80% 長い依存関係を学習します。バニラのトランスフォーマーよりも 450% 高速です。

短いシーケンスでも長いシーケンスでも非常に優れたパフォーマンスを発揮します。

https://arxiv.org/abs/1901.02860

GPT-2

GPT-2は、BERTに次いでメディアの注目を集めたNLPモデルと言えます。

これは OpenAI がリリースした驚異的な言語 AI です。モデル全体に​​は 15 億のパラメータが含まれています。

特定の分野におけるさまざまな言語モデリングタスクを、ターゲットを絞ったトレーニングなしで実行できるほか、読解、質疑応答、記事の要約生成、翻訳などの機能も備えています。

さらに、OpenAI は当初、このプロジェクトが強力すぎることを懸念し、オープンソース化しないことを選択しました。しかし10ヵ月後、公表することが決定されました。

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

アーニー

ERNIE は、語彙、構文、知識情報を同時に活用できる Baidu 独自のディープラーニング フレームワーク PaddlePaddle 上に構築されています。

実験結果では、さまざまな知識駆動型タスクで大幅な改善が見られ、他の一般的なタスクでは既存の BERT モデルに匹敵することが示されています。

現在、ERNIE 2.0 バージョンは GLUE ランキングで 1 位にランクされています。
https://github.com/PaddlePaddle/ERNIE

XLNET

XLNet は BERT のようなモデルであり、一般的な自己回帰事前トレーニング方法です。

従来の AR モデルのように固定された前方または後方因数分解順序を使用する代わりに、すべての可能な因数分解順序の期待される対数尤度を最大化します。

第二に、一般化された AR 言語モデルとして、XLNet は不完全なデータに依存しません。

さらに、XLNet では事前トレーニング アーキテクチャ設計も改善されています。

https://arxiv.org/abs/1906.08237

ロベルタ

RoBERTaはFacebookによって提案されました。

Google の BERT はモデル レベルでは変更されず、事前トレーニング方法のみが変更されます。

BERT と比較すると、モデル サイズ、計算能力、データの点で次の改善があります。

より大きなモデル パラメータ サイズ: モデルは 1024 個の V100 GPU を使用して 1 日間トレーニングされました。

より大きなバッチ サイズ: RoBERTa はトレーニング中により大きなバッチ サイズを使用し、256 から 8000 の範囲のバッチ サイズを試しました。

追加のトレーニングデータ:CC-NEWSなどを含む160GBのプレーンテキスト。

https://arxiv.org/abs/1907.11692

セールスフォースコントロール

CTRL の正式名称は Conditional Transformer Language で、16 億個のパラメータが含まれています。

強力で制御可能な人工テキスト生成機能を備えており、トレーニング データのどのサブセットが生成されたテキスト シーケンスに最も大きな影響を与えるかを予測できます。

これにより、モデルのトレーニング データの最も影響力のあるソースを特定することで、生成された大量のテキストを分析するための潜在的なアプローチが提供されます。

CTRL は、特定のタスクを微調整したり、モデルが学習した表現を転送したりすることで、他の NLP アプリケーションを改善することもできます。

https://blog.einstein.ai/introducing-a-conditional-transformer-language-model-for-controllable-generation/

アルバート

ALBERT は、Google がリリースした軽量の BERT モデルです。

BERT モデルよりも 18 倍小さいパラメータを持ち、BERT モデルよりも優れたパフォーマンスを発揮し、SQuAD および RACE テストで新しい SOTA を作成します。

少し前に、Google もこれをアップグレードし、ALBERT 2 と中国語版をリリースしました。

このバージョンでは、「ドロップアウトなし」、「追加のトレーニング データ」、「長いトレーニング時間」の戦略がすべてのモデルに適用されます。

パフォーマンス比較では、ALBERT-base、ALBERT-large、ALBERT-xlarge の場合、バージョン v2 はバージョン v1 よりもはるかに優れています。

上記の 3 つの戦略を採用することの重要性を説明します。

https://arxiv.org/abs/1909.11942

パフォーマンスベンチマーク

これらの言語モデルを評価する方法の 1 つがGlue Benchmarkです。

分類、質問応答などのモデルを評価するためのさまざまな NLP タスクが含まれています。

Glue ベンチマークが初めてリリースされたとき、BERT モデルはパフォーマンスで 1 位にランクされました。

しかし、2020年1月2日現在、わずか1年でBERTは19位にランクされています。

さらに難しい言語タスクを含む SuperGlue ベンチマークも登場しました。

質問応答システムの評価には、SQuAD がよく使用されます。

ここでは、BERT およびトランスフォーマーベースのモデルの方がパフォーマンスが優れています。

その他のBERT関連プロジェクト

ディスティルバート

DistilBERT は、HuggingFace がリリースした小さな NLP トランスフォーマー モデルです。BERT と似たアーキテクチャを持ちますが、使用するパラメーターは 6,600 万個のみで、GLUE ベンチマークでは BERT の 95% のパフォーマンスを達成します。

https://arxiv.org/abs/1910.01108

メガトロン-LM

Megatron-LM は、NVIDIA がリリースした NLP モデルです。

Nvidia は、独自のハードウェアと並列コンピューティング ソフトウェアを組み合わせて、当時 3 つの記録を樹立しました。

トレーニング速度はわずか53分です。
推論速度はわずか2.2msです。
83億個のパラメータが含まれています。

https://github.com/NVIDIA/Megatron-LM

バイオバート

BioBERT は、生物医学テキスト マイニング用の事前トレーニング済みの生物医学言語表現モデルです。

生物医学コーパスで事前トレーニングすると、さまざまな生物医学テキストマイニングタスクにおいて、BERT や以前の最先端モデルを大幅に上回るパフォーマンスを発揮します。

https://github.com/dmis-lab/biobert

カマンベール

CamemBERT は、RoBERTa 構造に基づいたフランス語言語モデルです。

https://camembert-model.fr/

NLP ライブラリ

知っておく必要があると思われる NLP ライブラリをいくつか紹介します。

スペーシー

Spacy は、タグ付け、品詞などのさまざまな自然言語処理タスクを処理できる、人気のある高速 NLP ライブラリです。 NER のような事前トレーニング済みモデルも提供します。

https://spacy.io/

ハギングフェイストランスフォーマー

これは、当初「Pytorch-pretrained-BERT」として知られていた、BERT の Pytorch 実装を提供する最初のライブラリの 1 つでした。

その後、GPT-2、XLNET などのモデルが追加されました。

1 年も経たないうちに、最も人気のある NLP ライブラリの 1 つになり、BERT やその他のモデルの使用が容易になりました。

https://github.com/huggingface/transformers

アレンNLP

AllenNLP は、PyTorch をベースにした、Allen Institute of AI の NLP ライブラリです。

https://allennlp.org/

フレア

Flair は、NER や POS などのモデルを備えた NLP ライブラリでもあり、BERT、ELMO、XLNET などの埋め込みもサポートしています。

https://github.com/flairNLP/flair

グルーオンNLP

Apache MXNet 上の NLP ツールキットである GluonNLP は、事前トレーニング済みの BERT 埋め込みを組み込んだ最初のライブラリの 1 つです。

https://gluon-nlp.mxnet.io/

では、NLP は 2020 年にどのようなブレークスルーを達成するのでしょうか?

ポータル

https://towardsdatascience.com/2019-year-of-bert-and-transformer-f200b53d05b9

<<:  Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

>>:  ディープフェイクを即座に排除しましょう!マイクロソフト北京大学、AIによる顔変更ツールと偽顔検出ツールを提案

ブログ    

推薦する

...

...

二度とアルゴリズムの罠に陥らないでください!背後にいる人物を見つけ出す

誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...

...

大企業に必須の、偉大な神からのオープンソースアルゴリズムツールブック

近年、大企業への入社要件はますます高くなり、アルゴリズムに対する要求も徐々に高まっています。アルゴリ...

大きな AI 問題の解決: AI 操作のエネルギー消費を削減するにはどうすればよいでしょうか?

現在、AI分野で画期的な進歩を遂げているディープラーニングモデルの規模が大きくなるほど、エネルギー消...

機械学習初心者必読 | scikit-learn を使ったモデル構築のためのユニバーサル テンプレート

独自の機械学習モデルを構築するには、次の 2 つの手順だけが必要です。解決する必要がある問題の種類と...

マスク氏はテスラ向けにChatGPTをカスタマイズする予定

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog) Chat...

ニューヨークタイムズの李開復のコラム:米国における中国のAIに関するいくつかの大きな誤解

米国のテクノロジー界では、中国における AI の現状について次のような誤解がよく見られます。彼らはし...

...

ついに誰かがTelnetとSNMPを明確に説明してくれるようになった

[[431488]]テルネットTelnet プログラムの目的は、ネットワーク経由でリモート ログイン...

企業は AI、IoT、AR、VR、ブロックチェーン、ビッグデータをどのように活用して顧客を維持できるでしょうか?

企業は、顧客維持率と顧客体験を向上させ、競合他社に負けないようにするために、人工知能 (AI)、モノ...

機械学習とディープラーニングの違いは何ですか? なぜ機械学習を選択する人が増えるのでしょうか?

機械学習とディープラーニングの違いは何でしょうか?この記事から答えを見つけてみましょう。ターゲットこ...

...

ブロックチェーンと機械学習はどのようにして最も強力な人工知能を生み出すのでしょうか?

ブロックチェーン市場のデータに基づいて機械学習モデルをトレーニングすることで、世界で最も影響力のある...