2019 年の NLP における最先端のブレークスルーを振り返る

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

2019 年に自然言語処理 (NLP) でどのようなブレークスルーがありましたか?

NLP に関して言えば、 BERT はよく知られた名前です。

感情分析、質問応答、文章類似性など、複数の NLP タスクで優れた結果を達成しています。

さらに、Kaggle のようなコンテストでも、メディアの報道でも、いつでも見ることができます。

この本は2018年後半に出版され、それから1年でNLPとNLU（自然言語理解）の分野は大きく成長しました。

そこで、この記事では、BERT のリリースをタイムノードとして、その前後における NLP 分野の重要なプロジェクトとモデルを整理します。

BERT 以前の主要な NLP プロジェクトのタイムライン

BERT モデルが提案される前は、NLP 分野の主なプロジェクトは、次の図に示すように時間順に分類されていました。

Word2Vecモデルは 2013 年 1 月にリリースされ、現在でも非常に人気があります。

あらゆる NLP タスクにおいて、研究者が最初に試す可能性が高いモデルです。

https://arxiv.org/abs/1301.3781

FastTextとGloVe は、それぞれ 2016 年 7 月と 2014 年 1 月に提案されました。

FastText は、ユーザーがテキスト表現とテキスト分類子を学習できるようにする、オープンソースで無料の軽量ライブラリです。

https://fasttext.cc/

GloVe は、単語のベクトル表現を取得するための教師なし学習アルゴリズムです。

https://nlp.stanford.edu/projects/glove/

Transformerは 2017 年 6 月に提案され、エンコーダーとデコーダーの構造に基づいたモデルです。

機械翻訳タスクでは RNN や CNN よりも優れており、エンコーダー/デコーダーとアテンションメカニズムのみを使用して優れた結果を達成できます。最大の利点は、効率的に並列化できることです。

https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

ELMo は2018 年 2 月に提案されました。事前トレーニング済みの双方向言語モデルを使用し、特定の入力に基づいて言語モデルからコンテキスト依存の現在の単語表現を取得し、それを特定の NLP 教師ありモデルに機能として追加します。

https://allennlp.org/elmo

また、NLPタスク用の転移学習モデルであるUlmfitというモデルもあります。ラベル付きデータの数千倍の量でトレーニングした場合と同レベルのテキスト分類精度を達成するために、ごく少量のラベル付きデータを使用するだけで済みます。

https://arxiv.org/abs/1801.06146

ELMo と Ulmfit は BERT より前に登場し、Transformer ベースの構造を採用していなかったことは注目に値します。

バート

BERTモデルは 2018 年 10 月に提案されました。

完全な名前は、双方向エンコーダー表現 from Transformers で、双方向 Transformer のエンコーダーです (デコーダーは予測する情報を取得できないため)。

△論文アドレス：https://arxiv.org/abs/1810.04805

このモデルの主な革新は事前トレーニング方法にあり、マスクされた LM と次の文の予測を使用して、それぞれ単語レベルと文レベルの表現をキャプチャします。

Google は検索結果を改善するために BERT を使い始めました。

より詳細な BERT モデルのチュートリアルは次のとおりです。
http://jalammar.github.io/illustrated-bert/

事前トレーニング済みの重みは、公式の Github リポジトリからダウンロードできます。
https://github.com/google-research/bert

Bert は Tensorflow ハブモジュールとしても使用できます。
https://tfhub.dev/google/collections/bert/1

記事の最後には、非常に便利なさまざまなライブラリが提供されます。

BERT 後の主要な NLP プロジェクトのタイムライン

Google が BERT を提案した後、NLP の分野では他の優れた作業プロジェクトが登場しました。

トランスフォーマーXL

Transormer-XL は Transformer のアップグレード版であり、Transformer よりも 1,800 倍以上高速です。

ここでの XL は extra long、つまり超長いという意味で、Transformer-XL が言語モデリングにおける長距離依存性の問題で非常に優れたパフォーマンスを発揮することを示しています。同時に、遠距離依存の問題のために生まれたことも意味します。

長距離依存性の問題は、現在のテキスト処理モデルが直面している難しい問題であり、RNN が失敗する問題でもあります。

対照的に、Transformer-XL は RNN よりも 80% 長い依存関係を学習します。バニラのトランスフォーマーよりも 450% 高速です。

短いシーケンスでも長いシーケンスでも非常に優れたパフォーマンスを発揮します。

https://arxiv.org/abs/1901.02860

GPT-2

GPT-2は、BERTに次いでメディアの注目を集めたNLPモデルと言えます。

これは OpenAI がリリースした驚異的な言語 AI です。モデル全体には 15 億のパラメータが含まれています。

特定の分野におけるさまざまな言語モデリングタスクを、ターゲットを絞ったトレーニングなしで実行できるほか、読解、質疑応答、記事の要約生成、翻訳などの機能も備えています。

さらに、OpenAI は当初、このプロジェクトが強力すぎることを懸念し、オープンソース化しないことを選択しました。しかし10ヵ月後、公表することが決定されました。

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

アーニー

ERNIE は、語彙、構文、知識情報を同時に活用できる Baidu 独自のディープラーニングフレームワーク PaddlePaddle 上に構築されています。

実験結果では、さまざまな知識駆動型タスクで大幅な改善が見られ、他の一般的なタスクでは既存の BERT モデルに匹敵することが示されています。

現在、ERNIE 2.0 バージョンは GLUE ランキングで 1 位にランクされています。
https://github.com/PaddlePaddle/ERNIE

XLNET

XLNet は BERT のようなモデルであり、一般的な自己回帰事前トレーニング方法です。

従来の AR モデルのように固定された前方または後方因数分解順序を使用する代わりに、すべての可能な因数分解順序の期待される対数尤度を最大化します。

第二に、一般化された AR 言語モデルとして、XLNet は不完全なデータに依存しません。

さらに、XLNet では事前トレーニングアーキテクチャ設計も改善されています。

https://arxiv.org/abs/1906.08237

ロベルタ

RoBERTaはFacebookによって提案されました。

Google の BERT はモデルレベルでは変更されず、事前トレーニング方法のみが変更されます。

BERT と比較すると、モデルサイズ、計算能力、データの点で次の改善があります。

より大きなモデルパラメータサイズ: モデルは 1024 個の V100 GPU を使用して 1 日間トレーニングされました。

より大きなバッチサイズ: RoBERTa はトレーニング中により大きなバッチサイズを使用し、256 から 8000 の範囲のバッチサイズを試しました。

追加のトレーニングデータ：CC-NEWSなどを含む160GBのプレーンテキスト。

https://arxiv.org/abs/1907.11692

セールスフォースコントロール

CTRL の正式名称は Conditional Transformer Language で、16 億個のパラメータが含まれています。

強力で制御可能な人工テキスト生成機能を備えており、トレーニングデータのどのサブセットが生成されたテキストシーケンスに最も大きな影響を与えるかを予測できます。

これにより、モデルのトレーニングデータの最も影響力のあるソースを特定することで、生成された大量のテキストを分析するための潜在的なアプローチが提供されます。

CTRL は、特定のタスクを微調整したり、モデルが学習した表現を転送したりすることで、他の NLP アプリケーションを改善することもできます。

https://blog.einstein.ai/introducing-a-conditional-transformer-language-model-for-controllable-generation/

アルバート

ALBERT は、Google がリリースした軽量の BERT モデルです。

BERT モデルよりも 18 倍小さいパラメータを持ち、BERT モデルよりも優れたパフォーマンスを発揮し、SQuAD および RACE テストで新しい SOTA を作成します。

少し前に、Google もこれをアップグレードし、ALBERT 2 と中国語版をリリースしました。

このバージョンでは、「ドロップアウトなし」、「追加のトレーニングデータ」、「長いトレーニング時間」の戦略がすべてのモデルに適用されます。

パフォーマンス比較では、ALBERT-base、ALBERT-large、ALBERT-xlarge の場合、バージョン v2 はバージョン v1 よりもはるかに優れています。

上記の 3 つの戦略を採用することの重要性を説明します。

https://arxiv.org/abs/1909.11942

パフォーマンスベンチマーク

これらの言語モデルを評価する方法の 1 つがGlue Benchmarkです。

分類、質問応答などのモデルを評価するためのさまざまな NLP タスクが含まれています。

Glue ベンチマークが初めてリリースされたとき、BERT モデルはパフォーマンスで 1 位にランクされました。

しかし、2020年1月2日現在、わずか1年でBERTは19位にランクされています。

さらに難しい言語タスクを含む SuperGlue ベンチマークも登場しました。

質問応答システムの評価には、SQuAD がよく使用されます。

ここでは、BERT およびトランスフォーマーベースのモデルの方がパフォーマンスが優れています。

その他のBERT関連プロジェクト

ディスティルバート

DistilBERT は、HuggingFace がリリースした小さな NLP トランスフォーマーモデルです。BERT と似たアーキテクチャを持ちますが、使用するパラメーターは 6,600 万個のみで、GLUE ベンチマークでは BERT の 95% のパフォーマンスを達成します。

https://arxiv.org/abs/1910.01108

メガトロン-LM

Megatron-LM は、NVIDIA がリリースした NLP モデルです。

Nvidia は、独自のハードウェアと並列コンピューティングソフトウェアを組み合わせて、当時 3 つの記録を樹立しました。

トレーニング速度はわずか53分です。
推論速度はわずか2.2msです。
83億個のパラメータが含まれています。

https://github.com/NVIDIA/Megatron-LM

バイオバート

BioBERT は、生物医学テキストマイニング用の事前トレーニング済みの生物医学言語表現モデルです。

生物医学コーパスで事前トレーニングすると、さまざまな生物医学テキストマイニングタスクにおいて、BERT や以前の最先端モデルを大幅に上回るパフォーマンスを発揮します。

https://github.com/dmis-lab/biobert

カマンベール

CamemBERT は、RoBERTa 構造に基づいたフランス語言語モデルです。

https://camembert-model.fr/

NLP ライブラリ

知っておく必要があると思われる NLP ライブラリをいくつか紹介します。

スペーシー

Spacy は、タグ付け、品詞などのさまざまな自然言語処理タスクを処理できる、人気のある高速 NLP ライブラリです。 NER のような事前トレーニング済みモデルも提供します。

https://spacy.io/

ハギングフェイストランスフォーマー

これは、当初「Pytorch-pretrained-BERT」として知られていた、BERT の Pytorch 実装を提供する最初のライブラリの 1 つでした。

その後、GPT-2、XLNET などのモデルが追加されました。

1 年も経たないうちに、最も人気のある NLP ライブラリの 1 つになり、BERT やその他のモデルの使用が容易になりました。

https://github.com/huggingface/transformers

アレンNLP

AllenNLP は、PyTorch をベースにした、Allen Institute of AI の NLP ライブラリです。

https://allennlp.org/

フレア

Flair は、NER や POS などのモデルを備えた NLP ライブラリでもあり、BERT、ELMO、XLNET などの埋め込みもサポートしています。

https://github.com/flairNLP/flair

グルーオンNLP

Apache MXNet 上の NLP ツールキットである GluonNLP は、事前トレーニング済みの BERT 埋め込みを組み込んだ最初のライブラリの 1 つです。

https://gluon-nlp.mxnet.io/

では、NLP は 2020 年にどのようなブレークスルーを達成するのでしょうか?

ポータル

https://towardsdatascience.com/2019-year-of-bert-and-transformer-f200b53d05b9

<<: Facebook がアルゴリズムコードライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

>>: ディープフェイクを即座に排除しましょう！マイクロソフト北京大学、AIによる顔変更ツールと偽顔検出ツールを提案

ブログ

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

ブログ

AI を医療業界のあらゆる側面に深く統合するにはどうすればよいでしょうか?

ブログ

2019 年の NLP における最先端のブレークスルーを振り返る

BERT 以前の主要な NLP プロジェクトのタイムライン

バート

△論文アドレス：https://arxiv.org/abs/1810.04805

BERT 後の主要な NLP プロジェクトのタイムライン

パフォーマンスベンチマーク

その他のBERT関連プロジェクト

NLP ライブラリ

ポータル

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

AI を医療業界のあらゆる側面に深く統合するにはどうすればよいでしょうか?

2025年以降の人工知能の未来（パート2）

1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合：話すことも聞くこともできる大規模モデル

指先で操作できる人工知能（基礎編）

推薦する

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

顔認識技術の原理と応用展望の分析

ロンドンの顔認識で誤った人物が逮捕される：合理的な使用が鍵

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

TikTokの買収者は、コアアルゴリズムの削除を含む4つの買収オプションについて議論している

Nvidia テルアビブ AI サミットが中止に！黄氏の社内メールが明らかに：Nvidiaの従業員も誘拐された

情報漏洩を防ぐためにローカルで構築できるオープンソースモデルPrivateGPTが利用可能になりました

モバイルビデオがグローバル化する中、テンセントクラウドは小英科技のグローバル市場拡大を支援

Pythonを使用して機械学習モデルを作成する方法

Googleは、ニュースコンテンツを作成するために生成AIツールを使用するためにいくつかの出版社と提携していると報じられている。

「AI+教育」の試行錯誤に誰がお金を払うのか？

OpenAIは、開発者がAIモデルを使用してソフトウェアをより速く、より安価に開発できるようにするためのメジャーアップデートを開始すると報じられている。

推奨アルゴリズム集（補足） - 最近傍選択とアルゴリズム拡張