2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

2019 年のディープラーニング自然言語処理のトップ 10 開発トレンド

この記事では、最近 FloydHub ブログで Cathal Horan が紹介した自然言語処理のトップ 10 トレンドを紹介します。

[はじめに]自然言語処理はディープラーニングの波を受けて大きな進歩を遂げています。Cathal Horan氏はFloydHubブログで自然言語処理の10大発展トレンドを紹介しました。NLPの発展を理解するのにとても良い記事です。

[[279368]]

2018 年は、ディープラーニングに基づく自然言語処理 (NLP) 研究が急速に発展した年でした。これ以前に最も注目されたのは、2013 年に初めて公開された Word2Vec でした。

この期間中、言語モデリングの分野では、ディープラーニング モデルが達成できるものに関して、着実な革新とブレークスルーの勢いがありました。

しかし、2018 年は、NLP に対するディープラーニングのアプローチにおいて真に画期的な新開発が行われ、この勢いがついに実を結ぶ年になるかもしれません。

昨年の最後の数か月間は、BERT モデルの登場により、特に活発な研究の波がありました。 2019年には、リリースするには「危険すぎる」と判断されたOpenAI GTP-2モデルという新たな挑戦者が登場しました。こうした活動すべてを考えると、実際のビジネスの観点からこれが何を意味するのかを把握するのは難しいかもしれません。

これは私にとって何を意味するのでしょうか?

この研究は日常のアプリケーションに適用できるでしょうか? それとも、基盤となるテクノロジーがまだ急速に進化しているため、次の研究論文では時代遅れとみなされる可能性のある方法を開発する時間をかける価値はないのでしょうか? 最新の方法をビジネスに適用したい場合は、NLP 研究のトレンドを理解することが重要です。そのために、最新の研究に基づいて、来年見られる可能性のある NLP の 10 のトレンドを紹介します。

NLPアーキテクチャのトレンド

私たちが目にする最初のトレンドは、近年の NLP 研究の中核となっているディープラーニング ニューラル ネットワーク アーキテクチャに基づいています。これらのアーキテクチャをビジネスユースケースに適用するために、詳細に理解する必要はありません。ただし、どのアーキテクチャが最良の結果をもたらすかについて、まだ重要な疑問が残っているかどうかを知る必要があります。

最適なアーキテクチャについて合意が得られない場合、どのようなアプローチを取るべきか(取る場合)を知ることは困難です。これらのアーキテクチャをビジネスで使用する方法を見つけるには、時間とリソースを投資する必要があります。したがって、2019 年のこの分野のトレンドを知っておく必要があります。

目次

1. 以前の単語埋め込み法は依然として重要である

2. リカレントニューラルネットワーク(RNN)はもはや標準的なNLPアーキテクチャではない

3. TransformerがNLPディープラーニングの主流アーキテクチャになる

4. 事前学習済みモデルはより一般的な言語スキルを開発する

5. 転移学習がより大きな役割を果たす

6. モデルの微調整が容易になる

7. BERTはNLPの応用展望を変える

8. この段階ではチャットボットがNLPイノベーションから最も恩恵を受ける

9. ゼロショット学習がより効果的になる

10. AIの危険性に関する議論がNLPの研究と応用に影響を及ぼし始める可能性がある

1. 以前の単語埋め込み方法は依然として重要である

Word2Vec と GLoVE は 2013 年頃に登場しました。新たな研究が次々と発表されているため、これらの方法はもはや意味をなさないと思うかもしれませんが、それは間違いです。線形回帰法は 19 世紀後半にフランシス・ゴルトン卿によって開発されましたが、今日でも多くの統計手法の中核部分として重要な役割を果たしています。

同様に、Word2Vec のようなメソッドは現在、spaCy などの Python NLP ライブラリの標準的な部分となっており、 「実用的な NLP の基礎」と評されています。一般的なテキストをすばやく分類したい場合は、単語の埋め込みが役立ちます。

Word2Vec などの手法の限界も、NLP 研究の将来の動向を理解する上で重要です。それらは将来のすべての研究のベンチマークとなりました。では、彼らは何を十分行っていないのでしょうか?

  • 各単語は 1 つの単語にのみ埋め込むことができます。つまり、各単語には 1 つのベクトルのみを格納できます。したがって、「銀行」は「私は銀行にお金を預けました」と「川岸には美しいベンチがあります」という意味しか持ちません。
  • 大規模なデータセットでトレーニングするのは困難です。
  • 調整することはできません。あなたの分野に適した人材に育てるには、ゼロからトレーニングする必要があります。
  • これらは真のディープニューラルネットワークではありません。これらは、1 つの隠れ層を持つニューラル ネットワークでトレーニングされました。

2. リカレントニューラルネットワーク(RNN)はもはや標準的なNLPアーキテクチャではない

RNN は長い間、NLP のニューラル ネットワークの基本的なアーキテクチャでした。これらのアーキテクチャは、Word2Vec などの以前のイノベーションによって設定されたベンチマークから進化した、真のディープラーニング ニューラル ネットワークです。昨年最も議論された方法の 1 つは ELMo (Embeddings from Language Models) であり、RNN を使用して、従来のアプローチの欠点のほとんどに対処した最先端の埋め込み表現を提供しました。下の図からわかるように、フィードフォワード ネットワークとは異なり、RNN では隠し層が自分自身にループバックすることができ、このようにして可変長のシーケンスを入力として受け入れることができます。そのため、テキスト入力の処理に最適です。

RNN は、時間と順序が非常に重要なデータを処理する方法を提供するため重要です。たとえば、テキスト関連のデータの場合、単語の順序が重要です。語順や単語を変えると、文の意味が変わったり、意味不明になったりすることがあります。フィードフォワード ネットワークでは、隠し層は現在の入力にのみアクセスできます。すでに処理した他の入力に関する「メモリ」はありません。対照的に、RNN は入力を「ループ」して、以前に何が起こったかを確認することができます。

実際の例として、銀行の例文の 1 つ、「私は銀行にお金を預けました」に戻りましょう。フィードフォワードネットワークでは、「bank」という単語に到達するまでに、前の単語の「記憶」は失われます。これにより、文の文脈を把握し、次の正しい単語を予測することが難しくなります。対照的に、RNN では、文中の前の単語を参照して、次の単語が「bank」である確率を生成できます。

RNN と Long Short-Term Memory (LSTM) は RNN の改良型であり、その詳細についてはこの記事の範囲外です。しかし、このテーマについて本当に深く知りたいのであれば、Christopher Olahs によるこのテーマに関する優れた記事を読むのが最適な出発点です。

ELMo は多層 RNN でトレーニングされ、コンテキストから単語の埋め込みを学習します。これにより、使用されるコンテキストに応じて、各単語に対して複数のベクトルを保存できるようになります。非常に大規模なデータセットでトレーニングされた事前トレーニング済みモデルが付属しており、以前の静的な単語埋め込み方法のように単にルックアップ テーブルを提供するのではなく、コンテキスト ベースの単語埋め込みを動的に作成できます。

この図は、2 層の ELMO アーキテクチャの例です。レイヤーの数が増えるほど、入力から学習できるコンテキストが増えます。下位層は基本的な構文と文法規則を認識し、上位層はより高度な文脈的意味を抽出します。 ELMO の精度を高めるもう 1 つの側面は、双方向言語モデリングを採用していることです。したがって、入力を最初から最後まで単純に読み取るのではなく、最後から最初まで読み取ります。これにより、文中の単語の完全な文脈を捉えることができます。これがないと、特定の単語の文脈はすべて、読む方向に応じて、その単語の前または後に来るものと想定しなければなりません。

また、ドメイン固有のデータに適応できるように微調整することもできます。このため、これは NLP の ImageNet の瞬間であると主張する人もいます。つまり、下流の NLP タスクに使用できるモデルを一般的にトレーニングするためのコア ビルディング ブロックの実現に近づいているということです。

したがって、RNN 構造は依然として非常に最先端であり、さらなる研究の価値があります。 2018 年まで、これは NLP の主要なアーキテクチャであり続けました。一部の批評家は、RNN から完全に離れる時期が来ていると主張しており、いずれにしても 2019 年に RNN が新たな研究の基礎となる可能性は低いでしょう。代わりに、2019 年のディープラーニング NLP の主なアーキテクチャ トレンドはトランスフォーマーになります。

3. TransformerがNLPディープラーニングの主流アーキテクチャになる

ELMo は、テキストの一部のコンテキストしか記憶できないなど、以前の単語埋め込みアーキテクチャの多くの欠点を克服できますが、入力を単語ごとに、または ELMo の場合は文字ごとに順番に処理する必要があります。

前述したように、これはテキストのストリームを入力レイヤーに入力する必要があることを意味します。次に、各隠し層が順番に処理されます。したがって、アーキテクチャは、コンテキストを理解するためにテキストを処理するときに、テキストのすべての状態を保存する必要があります。これにより、長いテキストシーケンス(文や段落など)の学習が難しくなり、トレーニングの速度も低下します。

最終的に、これによりトレーニングできるデータセットのサイズが制限され、そのデータセットでトレーニングされたモデルの機能に影響を及ぼすことが知られています。人工知能では、「生命は10億の例から始まる」。言語モデルについても同様です。トレーニング セットが大きいほど、モデル出力の精度が高まります。したがって、入力段階でボトルネックが発生すると、生成できる精度の点で非常にコストがかかる可能性があります。

2017 年後半に初めて公開された Transformer アーキテクチャは、並列入力を可能にする方法を作成することでこの問題に対処しました。各単語には個別の埋め込みと処理が可能であるため、トレーニング時間が大幅に短縮され、より大きなデータセットでのトレーニングが容易になります。

一例として、2019 年の初期の NLP センセーションの 1 つである OpenAI の GTP-s モデルを見てみましょう。 GTP-2 モデルのリリースは大きな注目を集めました。作成者は、大規模な「偽の」コンテンツが生成される可能性があることを考えると、完全な事前トレーニング済みモデルをリリースすることは危険であると主張したからです。リリース方法のメリットに関係なく、モデル自体は Transformer アーキテクチャでトレーニングされます。 AI の第一人者である Quoc Le 氏が指摘したように、GTP-2 バージョンは、大規模にトレーニングされた場合の通常の Transformer アーキテクチャの威力を実証しています...

Transformer アーキテクチャ自体は、2019 年に Transformer-XL がリリースされたことで一歩前進しました。これは元のトランスフォーマーに基づいて構築されており、より長い入力シーケンスを一度に処理できるようになります。これは、入力シーケンスを任意の固定長に分割する必要はなく、文や段落などの自然言語の境界に従うことができることを意味します。これにより、複数の文、段落、および場合によってはより長いテキスト (記事など) の詳細なコンテキストを理解するのに役立ちます。

このように、Transformer アーキテクチャは、新しいモデルの開発のまったく新しい段階を開きます。より多くのデータや異なるタイプのデータを使用してトレーニングを試すことができます。あるいは、コンバーター上で新しい革新的なモデルを作成することもできます。そのため、2019 年には NLP に対する多くの新しいアプローチが見られるでしょう。

トランスフォーマー アーキテクチャのリリースにより、NLP におけるディープラーニング手法の新しいベースラインが作成されました。人々はこの新しいアーキテクチャが提供する可能性を理解し、それを NLP 問題に対する新しい、より高度なアプローチに組み込む方法をすぐに見つけようとしました。こうした傾向は 2019 年も続くと予想されます。

4. 事前学習済みモデルはより一般的な言語スキルを開発する

まず、Transformer のような新しいアーキテクチャにより、これまでは学習するには大きすぎて計算コストが高すぎると考えられていたデータセットでモデルをトレーニングすることが容易になります。これらのデータセットはほとんどの人が利用できるわけではなく、新しいアーキテクチャによって独自のモデルの再トレーニングが容易になったとしても、すべての人にとって実現可能というわけではありません。つまり、事前にトレーニングされたモデルをすぐに利用できるようにしたり、必要に応じて構築して微調整したりする必要があるということです。

次に、再利用可能な機械学習モデルのオンライン リポジトリである TensorFlow Hub を立ち上げました。これにより、高度な NLP モデルを簡単に試すことができ、非常に大規模なデータセットで事前トレーニングされたモデルをダウンロードすることもできます。これは、ELMo と Universal Sentence Encoder (USE) の公開と一致しています。トランスフォーマー アーキテクチャのエンコーダー部分を使用して文の密なベクトル表現を作成する新しいモデルが使用されます。

5. 転移学習がより大きな役割を果たす

転移学習により、独自のデータでモデルを微調整できる

より多くの事前トレーニング済みモデルが利用可能になると、ダウンロードしたモデルを開始点として使用できるため、独自の NLP タスクの実装が容易になります。つまり、これらのモデルの上に独自のサービスを構築し、少量のドメイン固有のデータを使用して迅速にトレーニングすることができます。これらのダウンストリーム メソッドを独自の運用環境に実装する方法の優れた例として、BERT をサービスとして提供することが挙げられます。

6. モデルの微調整が容易になる

対照的に、元のモデルである BERT と ELMo の出力は、密なベクトル表現、つまり埋め込みです。埋め込みは、トレーニングに使用された大規模で一般的なデータセットから一般的な言語情報を取得します。モデルを微調整して、独自の閉じたドメインに対してより敏感な埋め込みを生成することもできます。この形式の微調整の出力は別の埋め込みになります。したがって、微調整の目的は、感情や分類の確率を出力することではなく、ドメイン固有の情報を含む埋め込みを出力することです。

7. BERTはNLPの応用展望を変える

BERT の事前トレーニング済み汎用モデルは、これまでのどのモデルよりも強力です。双方向アプローチを使用することで、NLP モデルのトレーニングに新しい手法を組み込むことができました。これは、人間が文章から意味を学ぶ方法に似ています。人間は文脈を一方向から理解するだけではありません。私たちは、言葉の文脈を理解するために、読むときにも先を予測します。

8. この段階ではチャットボットがNLPイノベーションから最も恩恵を受ける

GPT-2 や BERT などの方法では、これは当てはまりません。今では、一般的に訓練されたモデルは人間に近いレベルで応答できることがわかります。特定のクローズドドメインのチャットボットは、微調整が必​​要なため、より困難です。 2019 年には、より少量のドメイン固有のデータに合わせてモデル (BERT など) をより簡単に微調整できるツールの作成へと移行するでしょう。来年の主な問題は、応答を生成する方が簡単かどうか、または新しい NLP モデルを使用して、受信した顧客の質問を以前に保存または管理された応答テンプレートと照合する方が簡単かどうかです。このマッチングは、質問と回答の類似点を見つけることによって行われます。チューニングが適切であればあるほど、モデルは新しい顧客の問い合わせに対する正しい回答をより正確に特定できるようになります。

9. ゼロショット学習がより効果的になる

ゼロショット学習は、非常に大きなデータセットまたは非常に異なるデータセットで一般的なモデルをトレーニングするプロセスです。その後、このモデルを任意のタスクに適用できます。翻訳の例では、モデルをトレーニングし、それを他の言語の汎用翻訳として使用します。 2018年末に発表された論文では、まさにそれが実現され、93の異なる言語で文章表現を学習することができました。

10. AIの危険性に関する議論がNLPの研究と応用に影響を及ぼし始める可能性がある

ディープラーニング NLP の分野は、現時点では人工知能の最もエキサイティングな領域の 1 つであると思われます。やるべきことがたくさんあると、最新のトレンドや動向についていくのが難しくなることがあります。これは素晴らしいことであり、今後も継続してさらに急速に成長していくと思われます。唯一の注意点は、経済成長のペースが非常に速いため、潜在的な影響を考慮するにはより多くの時間が必要になる可能性があるということです。

詳細については、ACL 会長兼 Microsoft Research Asia 副社長の Zhou Ming 博士による ACL2019 の基調講演「ACL と NLP の明るい未来を共に受け入れる」をご覧ください。この講演では、NLP 分野の技術動向と今後の重要な開発方向について語られています。

NLP技術開発の概要

NLP の研究とテクノロジーは近年劇的に進化しました。 2012 年以降、最も目覚ましい進歩を遂げたのは、ディープ ニューラル ネットワークに基づく NLP (DNN-NLP) です。現在、DNN-NLP は、単語埋め込み、文埋め込み、エンコーダー/デコーダー、アテンション メカニズム、トランスフォーマー、さまざまな事前トレーニング モデルなど、関連するテクノロジの完全なセットを形成しています。 DNN-NLP は、機械翻訳、機械読解、チャットボット、対話システムなど、多くの NLP タスクで大きな進歩を遂げました。

NLPの未来

基本的なタスクについては、さまざまなモデルのトレーニングおよびテスト データ セットを構築する必要性が重要な問題であると Zhou Ming 博士は考えています。適切に設計されたデータセットでは、誰もが新しい方法を提案でき、さまざまなモデルが互いに競争することができます。

これらの課題で進歩を遂げれば、言語理解、推論、質問応答能力、分析能力、問題解決能力、文章作成能力、会話能力など、認知知能がさらに強化されます。そして、知覚知能の進歩により、音、画像、テキストを認識・生成する能力、テキストと画像をクロスモーダル化する能力が備わり、テキストから画像を生成したり、画像から説明文を生成したりすることが可能になります。検索エンジン、インテリジェントカスタマーサービス、AI教育、AIファイナンスなど、さまざまなアプリケーションの実装を促進できます。

<<:  人工知能がヘルスケア業界にもたらす変化

>>:  4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

推薦する

人事戦略と人材開発の形成における AI の役割

AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...

人工知能が下水道を清掃、清掃員はようやく休憩できる

2016年以来、人工知能は研究室から出て正式に人々の生活に入りました。これは人工知能技術の発展におけ...

強化学習の概念から応用まで包括的に理解する

週末ですが、まだ充電中です。今日は強化学習について見ていきます。ただし、ゲームで使うつもりはありませ...

Jenkins 独自のユーザー データベース暗号化アルゴリズムの簡単な分析

Jenkins のアクセス制御は、セキュリティ ドメイン (認証) と承認戦略に分かれています。その...

人材不足は数百万人に達し、人工知能+教育が一般的なトレンドとなっている

近年、人工知能の急速な発展は各国から大きな注目を集めており、教育界からも大きな注目を集めています。ま...

AIをやりたいなら高校でデータサイエンスを勉強するな:ウルトラマンとマスクがついに合意

AIの発展には基礎教育を強化しなければ手遅れになります。大規模モデル技術が急速に発展し、企業間の競争...

...

双子: 効率的な視覚的注意モデルの設計を再考する

著者 | 湘湘天志 張波 他Twins は Meituan とアデレード大学が提案した視覚的注意モデ...

ディープラーニングにおけるバッチ正規化の落とし穴

[[191744]]バッチ正規化は、ディープラーニングにおいて最近登場した効果的な手法です。その有効...

15年以内に恐竜を繁殖させる、マスクは恐竜を​​月に送りたいのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習の研究を再現するのは非常に難しい

[[223551]]はじめに:再現性と一貫性は計算科学研究の基本要件であり、機械学習も例外ではありま...

人工知能は議論の的になっています。それは人類にとって利益となるのでしょうか、それとも脅威となるのでしょうか?

人工知能はここ2年で急速に発展し、狂気のレベルにまで達しました。例えば、ロボットは人間社会の「市民」...

AI モデルに新たな革命が起こるのでしょうか?脳の記憶は回転するのでしょうか?過去と未来は実際には「直交」した空間である

人間も他の動物も、目覚めるたびに過去の記憶を整理し、新しい記憶を迎える準備をします。私たちは、以前の...

...

...