アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から実践的なトレーニングまで、彼らはNLPに新たな活力を注入しました。

少し前に、セバスチャン・ルーダー氏は最も影響力のある 10 のアイデアを紹介し、それぞれについて具体的な論文と中核となるアイデアを提供しました。 Ruder 氏が言うように、彼のリストは必然的に主観的であり、主に転移学習と一般化に関連するアイデアをカバーしています。これらのアイデアのいくつかは昨年大きな注目を集め、これらの革新的な視点を中心に多くの研究と実践が行われてきました。一部のアイデアは現在流行っていませんが、将来人気が出る可能性があります。したがって、Ruder の紹介に基づいて、Synced は今年の最先端のトレンドに焦点を当て、本当に役立つ新しい NLP ツールをいくつか推奨します。

この記事では、ニューラル機械翻訳事前トレーニング済みモデルと比較すると、これら 2 つのコンセプトは本当に興味深いものです。そして実用的な装備としては、数百の中国語の事前トレーニング済み単語埋め込みベクトル、BERT 事前トレーニング済みモデル、モデリングフレームワーク PyText などのツールがあり、斬新な NLP アプリケーションを作りたくなるでしょう。

1. ニューラル機械翻訳

2018年、ニューラル機械翻訳大きな変更があるようです。これまでRNNとアテンション機構で構築されていたSeq2SeqモデルがTramsformerに置き換えられたようです。誰もが、より大きなトランスフォーマーと、より効率的なトランスフォーマーコンポーネントを使用しています。たとえば、Alibaba は最近の新しい研究に基づいて、標準の Transformer モデルにいくつかの修正を加えます。これらの修正は、まず、Transformer のマルチヘッドアテンションを複数のセルフアテンションブランチに置き換えることで反映されています。次に、相対位置をエンコードする表現を採用してセルフアテンションメカニズムを拡張し、モデルがシーケンス要素間の相対距離をより適切に理解できるようにしました。

Youdao TranslationもTransformerを使用しており、単一言語データの使用、モデル構造の調整、トレーニング方法の改善など、いくつかの修正も行う予定です。例えば、単一言語データの使用においては、逆翻訳や二重学習などの戦略を試み、モデル構造において相対的な位置表現を採用しました。したがって、一般的に、Transformer はデコード速度と位置エンコーディングにいくつかの欠点がありますが、現時点ではまだ最適です。ニューラル機械翻訳基本的なアーキテクチャ。

Ruder 氏の序論では、2 つの教師なし機械翻訳モデルに重点が置かれており、どちらも ICLR 2018 論文として採択されました。教師なし翻訳は教師あり翻訳よりもはるかに劣る可能性が高いものの、教師なし機械翻訳モデルが機能するのであれば、そのアイデア自体は素晴らしいものです。 EMNLP 2018 では、論文でさらに一歩進んで、教師なし翻訳に多くの改良が加えられ、大幅な改善が達成されました。ルーダーのメモには次の論文が記されている。

論文: フレーズベースおよびニューラル教師なし機械翻訳
論文リンク: https://arxiv.org/abs/1804.07755

この論文では、教師なし MT の 3 つの重要なポイント、つまり適切なパラメータ初期化、言語モデリング、逆翻訳による逆タスクのモデリングについてわかりやすく説明しています。これら 3 つの方法は、他の教師なしシナリオでも使用されます。たとえば、逆タスクをモデル化すると、モデルはサイクルの一貫性を達成する必要があります。この一貫性は、多くのタスクに適用されています。おそらく、読者にとって最も馴染みのあるのは CycleGAN でしょう。この論文では、利用可能なコーパスが少ない2つの言語、すなわち英語-ウルドゥー語と英語-ルーマニア語についても、広範な実験と評価を行っています。

教師なし MT の 3 つの主な原則: A) 2 つの単一言語データセット、B) パラメータの初期化、C) 言語モデリング、および D) バック翻訳。

この論文は、EMNLP 2018 で最長論文賞を受賞しました。上記の 3 つの主要原則に従いながら、構造と損失関数を簡素化しています。結果として得られるモデルは以前の方法よりも優れており、トレーニングと調整が容易になります。

2. 事前学習済みモデル

2018 年には、教師なしテキストから学習した「言語知識」を活用し、それをさまざまな NLP タスクに転送できる、事前トレーニング済みの言語モデルの使用が NLP 分野で最も重要なトレンドになる可能性があります。 ELMo、ULMFiT、OpenAI Transformer、BERTなど、事前トレーニング済みのモデルは多数ありますが、その中でもBERTは最も代表的で、当時11のNLPタスクで最高のパフォーマンスを達成しました。しかし、マイクロソフトの新しいモデルでは 9 つのタスクが達成されました。

Machine HeartはBERTの核となるプロセスを解釈しました。まずデータセットから2つの文を抽出し、2つ目の文が最初の文の次の文である確率が50%であるかどうかを調べ、文同士の関係性を学習します。次に、両方の文からいくつかの単語をランダムに削除し、モデルにこれらの単語を予測させて、文内の関係性を学習します。 ***次に、処理された文章を大規模なTransformerモデルに渡し、2つの損失関数を通じて上記2つの目的を同時に学習してトレーニングを完了します。

上に示したように、さまざまな事前トレーニング済みモデルのアーキテクチャ。BERT は、OpenAI GPT と ELMo の利点を組み合わせた新しいモデルと見なすことができます。 ELMo は、独立してトレーニングされた 2 つの LSTM を使用して双方向情報を取得しますが、OpenAI GPT は、新しい Transformer と従来の言語モデルを使用して一方向情報のみを取得します。 BERT の主な目標は、Transformer ディープモデルと双方向情報を同時に活用するために、OpenAI GPT に基づく事前トレーニングタスクにいくつかの改善を加えることです。

この「双方向性」の原因は、BERT が従来の言語モデルと異なることです。BERT は、以前のすべての単語に基づいて最も可能性の高い現在の単語を予測するのではなく、一部の単語をランダムにマスクし、マスクされていないすべての単語を予測に使用します。

また、Microsoft が最近、GLUE の 11 のベンチマーク NLP タスクのうち 9 つで BERT を上回り、スコアでも BERT を上回る新しい包括的なモデルをリリースしたことも注目に値します。精度に加えて、Microsoft の新しいモデルには 1 億 1,000 万個のパラメーターしかありません。これは、BERT-Large モデルの 3 億 3,500 万個のパラメーターよりもはるかに少なく、BERT-Base と同じパラメーター数です。

「Microsoft D36***I & MSR AI」モデルの説明ページでは、新しいモデルはマルチタスク共同学習を使用しています。したがって、すべてのタスクは同じ構造を共有し、マルチタスクトレーニングアプローチを通じて共同で学習されます。現時点では、この新しいモデルに関する情報はほとんどありません。マルチタスクの事前トレーニング後に、BERT などのより幅広い NLP タスクに使用できる場合、このような効率的なモデルには間違いなく大きな利点があります。

Sebastian Ruder 氏は、今年 (NAACL 2018) の論文でもある ELMo の革新的なアイデアを高く評価しています。

論文: 深層文脈化された単語表現 (NAACL-HLT 2018)
論文リンク: https://arxiv.org/abs/1802.05365

この論文では、高く評価されているELMoが提案されました。印象的な実験結果に加えて、論文の中で最も魅力的な部分は、さまざまな要因の影響を排除し、表現によって捕捉された情報を分析する分析部分です。下の左の図では、意味的曖昧性解消 (WSD) が非常に良好に機能しており、言語モデルによって提供される意味的曖昧性解消と品詞タグ付け (POS) のパフォーマンスが現在の最先端レベルに近いことを示しています。

ベースラインモデルと比較した、第 1 層および第 2 層の双方向言語モデルの意味的曖昧性解消 (左) と品詞タグ付け (右) の結果。

3. 常識推論データセット

常識をモデルに組み込むことは、NLP における最も重要な研究方向の 1 つです。しかし、優れたデータセットを作成するのは簡単ではなく、人気のあるデータセットであっても大きなバイアスの問題があります。今年は、ワシントン大学のEvent2MindやSWAGなど、機械に常識を教えようとするデータセットが数多く登場しました。しかし、SWAG はすぐに BERT に敗北しました。代表的な研究結果は次のとおりです。

論文: 認識から認知へ: 視覚的常識推論
論文アドレス: https://arxiv.org/abs/1811.10830

これは、各回答の根拠 (説明) を含む最初の視覚的な QA データセットです。さらに、質問に答えるには複雑な推論が必要です。作成者は、起こりうるバイアスを考慮するために多大な労力を費やし、各回答が正解である事前確率が 25% になるようにしました (各回答はデータセット全体で 4 回出現し、そのうち 3 回は不正解、1 回は正解)。これには、相関関係と類似性を計算できるモデルを使用して制約付き最適化問題を解決する必要がありました。

画像、場所のリスト、質問が与えられた場合、モデルは質問に答え、その答えが正しい理由についてもっともらしい推論を提供する必要があります (Zellers et al., 2018)

4. メタ学習

メタ学習は、学習方法を学習するという問題に対処する機械学習における興味深い研究トレンドです。メタ学習は、少数ショット学習、強化学習、ロボット工学など多くの分野で応用されていますが、その中で最も有名なのはモデルに依存しないメタ学習 (MAML) ですが、NLP での成功した応用は非常にまれです。メタ学習は、トレーニングサンプルが限られている場合に非常に役立ちます。代表的な研究結果は次のとおりです。

論文 1: 低リソースニューラル機械翻訳のためのメタ学習
論文リンク: http://aclweb.org/anthology/D18-1398

著者らは、各言語ペアを独立したメタタスクとして扱い、翻訳のための適切な初期化を学習するために MAML を使用します。リソースが少ない言語は、おそらく NLP の分野におけるメタ学習にとって最も価値のあるシナリオです。多言語転移学習（多言語 BERT など）、教師なし学習、メタ学習を組み合わせることは、有望な研究方向です。

転移学習、多原因転移学習、メタ学習の違い。実線: 初期化された学習。破線: パスの微調整。

論文2: 動的言語モデルのメタ学習
論文アドレス: https://arxiv.org/abs/1803.10631

著者らは、ニューラルネットワークモデルの最適化に使用されるメタ学習器が、リカレントニューラルネットワークと同様に動作すると提案しています。メタ学習器は、モデルのトレーニング中に一連のパラメーターと勾配を入力シーケンスとして抽出し、この入力シーケンスに基づいて出力シーケンス (更新されたモデルパラメーターシーケンス) を計算します。論文では、この類似点について詳細に説明し、ニューラルネットワーク言語モデルでメタ学習者を使用して中期記憶を実装する方法について調査しています。メタ学習者は、LSTM などの標準的な RNN の重みに中期記憶をエンコードするように学習されます (LSTM の隠し状態での短期記憶の従来のエンコードに加えて)。

彼らのメタ学習言語モデルは、下から上に、標準 LSTM、中期記憶を保存するために LSTM 重みを更新するためのメタ学習器、および長期静的記憶の 3 つのメモリ層で構成されています。彼らは、Wikipedia の記事の冒頭が記事の終わりを予測するのに非常に役立つのと同じように、メタ学習された言語モデルをトレーニングして最近の入力の記憶をエンコードできることを発見しました。

5. 堅牢な教師なし手法

今年、私たちは、言語の類似性が低い場合、クロスリンガル埋め込み方法が失敗することを確認しました。これは転移学習でよく見られる現象で、ソース言語とターゲット言語の設定（ドメイン適応のドメイン、継続学習のタスク、マルチタスク学習など）の違いにより、モデルが劣化したり、失敗したりします。したがって、これらの変更に対してモデルをより堅牢にすることが非常に重要です。代表的な研究結果は次のとおりです。

論文: 単語埋め込みの完全な教師なしクロスリンガルマッピングのための堅牢な自己学習法
論文リンク: http://www.aclweb.org/anthology/P18-1073

この論文では、メタ学習を初期化として使用せずに、その理解に基づいてより優れた初期化を構築します。特に、2 つの言語で類似した単語分布を持つ単語をペアにしました。これは、ドメイン知識と分析からの洞察を活用してモデルをより堅牢にする優れた例です。

3 つの単語の類似度分布: 同義語の翻訳 (「two」と「due」) は、無関係な単語 (「two」と「cane」) よりも類似した単語分布になっています。（Artexte 他 2018 http://www.aclweb.org/anthology/P18-1073）

6. 表現を理解する

今年は、表現をよりよく理解するための多くの作業が行われました。特に、論文「補助予測タスクを使用した文埋め込みのきめ細かい分析」では、「診断分類器」（学習した表現が特定の特性を予測できるかどうかを測定するタスク）が提案され、これは後に「単一ベクトルに詰め込めるもの：言語特性の文埋め込みの調査」などの他の研究でも一般的になりました。代表的な研究結果は次のとおりです。

論文: 文脈的単語埋め込みの分析: アーキテクチャと表現
論文リンク: http://aclweb.org/anthology/D18-1179

この論文は、事前学習済みの言語モデル表現をより深く理解することに大きく貢献します。彼らは、慎重に設計された教師なしタスクと教師ありタスクで学習された単語とスパンの表現を広範囲に研究します。結果は、事前トレーニングされた表現が、下位層で低レベルの形態論的および統語的タスクに関連するタスクを学習し、上位層でより広範囲の意味を学習することを示しています。私にとって、この研究は、ImageNet で事前トレーニングされたコンピュータービジョンモデルが画像間の類似した特性をキャプチャできるのと同じように、事前トレーニングされた言語モデルが実際にテキストの類似した特性をキャプチャできることを示しています。

BiLSTM と Transformer の事前トレーニング済み表現の各レイヤーのパフォーマンス。左から右へ: POS タグ付け、構成構文解析、教師なし共参照構文解析 (Peters ら、2018 http://aclweb.org/anthology/D18-1179 )。

7. 補助的なタスク

多くの状況において、慎重に選択された補助タスクを伴うマルチタスク学習法の使用が増えています。最も重要なケースの 1 つは BERT です。次の文の予測を使用して優れたパフォーマンスを実現します (最近では Skip-thoughts や Quick-thoughts などで使用されています)。代表的な研究結果は次のとおりです。

論文 1: 意味構造のための統語的足場
論文リンク: http://aclweb.org/anthology/D18-1412

この論文では、各スパンに対応する構文コンポーネントの種類を予測することにより、スパン表現を事前トレーニングするための補助タスクを提案します。概念的には単純ですが、この補助タスクは、意味的役割のラベル付けや共参照の解決などのスパンレベルの予測タスクで大幅な改善を達成できます。この論文では、ターゲットタスクによって望ましいレベルで学習された特殊な表現が非常に有用であることを示しています。

論文 2: pair2vec: 文間推論のための構成的単語ペア埋め込み
論文リンク: https://arxiv.org/abs/1810.08854

同様のアイデアに基づいて、この論文では、単語ペアとコンテキストのポイントごとの相互情報量を最大化することで、単語ペアの表現を事前トレーニングします。これにより、言語モデリングなどのより一般的な表現と比較して、モデルは単語ペアのより意味のある表現を学習するようになります。これらの事前トレーニング済みの表現は、文間推論を必要とする SQuAD や MultiNLI などのタスクに効果的です。特定の下流タスクの適用可能性を捉え、より一般的なタスク (言語モデリングなど) を補完する、事前トレーニング済みのモデルがさらに増えると予想されます。

OntoNotes の構文、*** コーパス、および共参照注釈。 ***コーパス SRL パラメータと共参照は、構文コンポーネントの上に注釈が付けられます。ほぼすべてのパラメータは統語的要素に関連しています（Swayamdipta et al., 2018 http://aclweb.org/anthology/D18-1412 ）

8. 転移学習と組み合わせた半教師あり学習

転移学習の最近の進歩により、ターゲットタスク固有のデータをより明示的に使用する方法を忘れてはなりません。実際、事前トレーニング済みの表現は、さまざまな形式の半教師あり学習を補完します。半教師あり学習の特定のカテゴリである自己ラベリング法が研究者によって研究されてきました。代表的な研究には以下のものがあります。

論文: クロスビュートレーニングによる半教師ありシーケンスモデリング
論文リンク: http://aclweb.org/anthology/D18-1217

この論文では、概念的には非常に単純なアイデア、つまり、入力のさまざまなビューの予測がマスターモデルの予測と一致するようにすることで、さまざまなタスクにわたって利益が得られることを示しています。この考え方は単語ドロップアウトに似ていますが、ラベルのないデータを活用してモデルの堅牢性を高めることができます。平均教師などの他の自己アンサンブルモデルと比較して、特定の NLP タスク向けに特別に設計されています。

補助予測モジュールが見た入力: 補助 1: 彼らは __________________ に旅行しました。補助 2: 彼らはワシントン_______ に旅行しました。補助 3: 飛行機でワシントンに _____________ 行きました。補助 4: 飛行機で ________________________ 行きました。

9. 大きなテキストでの質問応答と推論

一連の新しい質問応答 (QA) データセットの助けにより、質問応答システムは大きく進歩しました。会話形式の質問応答と多段階の推論に加えて、質問応答システムの最も難しい側面の 1 つは、豊富な情報を含む物語とテキストを合成することです。代表的な研究には以下のものがあります。

論文: NarrativeQA 読解チャレンジ
論文リンク: http://aclweb.org/anthology/Q18-1023

この論文の著者は、映画の脚本と本全体の質問応答に基づいた挑戦的な QA データセットを提案しています。現在のアプローチではまだこのタスクを達成できませんが、モデルはコンテキストとして（本全体ではなく）要約を使用し、（生成するのではなく）回答を選択し、IR モデルの出力を使用することを選択できます。これらのバリエーションにより、タスクの実現可能性が向上し、モデルを徐々に完全なコンテキストに拡張できるようになります。

QA データセットの比較。

10. 誘導バイアス

畳み込み、正則化、ドロップアウト、CNN のその他のメカニズムなどの帰納的バイアスは、正則化項としてニューラルネットワークモデルのコア部分であり、モデルのサンプリングをより効率的にします。しかし、一般的に適用可能な帰納的バイアスを考え出し、それをモデルに組み込むことは非常に困難です。代表的な研究結果は次のとおりです。

論文 1: 人間の注意によるシーケンス分類 (CoNLL 2018)
論文リンク: http://aclweb.org/anthology/K18-1030

この論文では、人間の視線追跡コーパスからの人間の注意を使用して、RNN における注意を正規化することを提案しています。現在、Transformer などの既存のモデルの多くは注意を使用しており、それらをより効率的にトレーニングするための適切な方法を見つけることが重要です。人間の言語学習が計算モデルの改善に役立つことも素晴らしいことです。

論文 2: 意味役割ラベル付けのための言語情報に基づく自己注意 (EMNLP 2018)
論文リンク: http://aclweb.org/anthology/D18-1548

この論文には、構文タスクと意味タスクの両方で Transformer をトレーニングすること、トレーニング中およびドメイン外評価中に高品質の解析機能を追加することなど、多くの興味深い側面があります。この論文では、各トークンの構文上の親に焦点を合わせるように注意ヘッドをトレーニングすることで、Transformer のマルチヘッド注意を正規化し、構文に対する感度を高めています。将来的には、入力の特定の側面に焦点を当てた補助的な単語予測子として、Transformer アテンションヘッドの例がさらに増える可能性があります。

過去 10 年間の PropBank のセマンティックロールのラベル付け。言語情報に基づく自己注意 (LISA) 法とドメイン外データにおける他の方法の比較。

マスクの言語モデルを使用する場合でも、バック翻訳による教師なし機械翻訳を使用する場合でも、これらの 10 のアイデアは非常に素晴らしいです。しかし、実際のアプリケーションでは、既存のツールを使用して効率的なアプリケーションを直接構築することを好みます。この方法でのみ、これらのアイデアを本当に興味深いものに変換できます。

11. 数百の事前学習済み中国語単語ベクトル

自然言語処理を行う場合、単語の埋め込みは基本的に避けられないステップであり、さらなる計算を行う前にさまざまなタスクを単語レベルにまで削減する必要があります。したがって、国内の自然言語処理の研究者にとって、中国語の単語ベクトルコーパスは非常に必要なリソースです。この目的のために、北京師範大学などの研究者らは「中国語単語ベクトルコーパス」を公開した。これには、さまざまな分野のコーパス（百度百科事典、Wikipedia、人民日報1947-2017、知乎、微博、文学、金融、古代中国語など）を使用してトレーニングされた数十の単語ベクトルが含まれており、あらゆる分野を網羅し、さまざまなトレーニング設定が含まれている。

中国語単語ベクタープロジェクトアドレス: https://github.com/Embedding/Chinese-Word-Vectors

このプロジェクトでは、さまざまな表現 (スパースと密)、コンテキスト機能 (単語、n グラム、文字など)、コーパスを使用してトレーニングされた中国語の単語ベクトル (埋め込み) を提供します。さまざまなプロパティを持つ事前トレーニング済みのベクトルを簡単に取得し、さまざまなダウンストリームタスクに使用できます。

12. BERTオープンソース実装

BERT の効果は前述の通りすごいのですが、事前学習に必要な計算パワーもすごいので、普通の開発者が再現することは基本的に考えなくていいです。 BERT の作者も Reddit で、事前トレーニングの計算量が非常に大きいと発言しています。Jacob 氏は次のように語っています。「OpenAI の Transformer には 12 層と 768 個の隠れユニットがあります。8 個の P100 を使用して 8 億語のデータセットで 40 エポックのトレーニングを行い、これには 1 か月かかります。BERT-Large モデルには 24 層と 2014 個の隠れユニットがあります。33 億語のデータセットで 40 エポックのトレーニングを行う必要があるため、8 個の P100 では 1 年かかる可能性があります。16 個の Cloud TPU はすでに非常に強力です。」

しかし、Google チームは BERT の事前トレーニング済みモデルをオープンソース化しており、さまざまな NLP タスクに使用できます。これにより、計算能力が大幅に節約され、既存のモデルのパフォーマンスも向上します。NLP タスクを実行する前に、事前トレーニング済みの BERT で試してみることができますか?

BERT 実装アドレス: https://github.com/google-research/bert

実際、多くの開発者がすでに、文ベクトルの抽出、文の類似性の判断、感情分析など、BERT 事前トレーニング済みモデルを独自のプロジェクトに適用しています。

13. FacebookがNLPモデリングフレームワークPyTextをオープンソース化。論文から製品展開までわずか数日で完了

Facebook は、自然言語処理システムの作成と展開を容易にするために、実験と大規模な展開の境界を曖昧にするモデリングフレームワーク PyText をオープンソース化しました。 PyTex は、Facebook で使用されている主要な自然言語処理 (NLP) モデリングフレームワークであり、Facebook とそのアプリケーションファミリのユーザー向けに 1 日あたり 10 億を超える AI タスクを実行しています。このフレームワークは PyTorch をベースとしており、1) ワークフローを簡素化して実験を高速化します。2) 大規模な展開を容易にするために、テキスト処理と語彙管理用の多数の構築済みモデルアーキテクチャとツールを提供します。3) NLP コミュニティの研究者やエンジニアによって構築されたモデルやツールを含む PyTorch エコシステムを活用する機能を提供します。 Facebook はこのフレームワークを使用して、数日間で NLP モデルのアイデアから完全な実装までを実現し、マルチタスク学習に依存する複雑なモデルも展開することができました。

Yann LeCun 氏は、「PyText は、PyTorch で NLP モデルを開発し、ONNX を通じてデプロイするために使用できる、産業グレードのオープンソース NLP ツールキットです。事前トレーニング済みのモデルには、テキスト分類、シーケンスのラベル付けなどが含まれます」と紹介しました。

プロジェクトアドレス: https://github.com/facebookresearch/pytext

参考リンク: http://ruder.io/10-exciting-ideas-of-2018-in-nlp/

<<: AI 偽指紋が登場しても指紋ロック解除は安全ですか?

>>: 人工知能の最前線：ブレークスルーの機会と希望