NLPer が仕事に戻りました! 2019年の機械学習とNLPの年次レビューを見てみましょう

NLPer が仕事に戻りました! 2019年の機械学習とNLPの年次レビューを見てみましょう

2019年は機械学習と自然言語処理の分野で急速な発展があった年でした。 DeepMind の科学者 Sebastian Ruder 氏は、過去 1 年間に私たちが成し遂げた重要な進歩を 10 の側面からまとめました。これは将来の研究の方向性にとって重要な指針となります。

[[313804]]

この記事では、2019 年の機械学習と自然言語処理の分野における興味深く影響力のある 10 の研究方向を紹介します。

この記事では、それぞれの方向について、まず今年この方向で達成した主な進捗状況を要約し、なぜこの方向が重要だと思うのかを簡単に説明し、最後に今後の作業の展望を簡単に述べます。

10 の方向は次のとおりです。

  • 普遍的な教師なし事前トレーニング
  • 宝くじ仮説
  • ニューラル・タンジェント・カーネル
  • 教師なし多言語学習
  • より堅牢なベンチマーク
  • 科学のための機械学習と自然言語処理
  • NLG のデコードエラーを修正する
  • 事前学習済みモデルの拡張
  • 効率的で長距離の変圧器
  • より信頼性の高い分析方法

一般的な教師なし事前トレーニング

BERT (Devlin et al., 2019) とその派生型の登場により、今年、自然言語処理 (NLP) の分野では教師なし事前トレーニングが普及しました。多くの BERT バリアントは、主にテキストとそれに関連する画像やビデオを含むマルチモーダル シナリオに適用されています (下の図を参照)。教師なし学習は、かつては教師あり学習が主流だった分野にも浸透し始めています。バイオインフォマティクスの分野では、Transformer言語モデルの事前トレーニングがタンパク質配列予測にも応用され始めています(Rives et al.、2019)。

コンピュータービジョンの分野では、CPC (Hénaff et al., 2019)、MoCo (He et al., 2019)、PIRL (Misra & van der Maaten, 2019) などのモデルや、ImageNet データのサンプリング効率と画像生成効果を改善するために提案された強力なジェネレーターモデル BigBiGAN (Donahue & Simonyan, 2019) など、すべて自己教師あり学習手法を利用しています。音声分野では、多層畳み込みニューラルネットワーク (Schneider 他、2019 年) と双方向 CPC (Kawakami 他、2019 年) により、より少ないトレーニングデータで最先端のモデルよりも優れた表現を学習します。

なぜそれが重要なのでしょうか?

教師なし事前トレーニングにより、モデルのトレーニング時に必要なラベル付きデータの量が大幅に削減されます。これにより、これまでデータのニーズが満たされていなかった領域を再活性化できる可能性が生まれます。

次に何が起こるでしょうか?

研究者たちは教師なしの事前トレーニングの研究を始めており、いくつかの独立した分野で大きな成功を収めています。しかし、将来的に複数のモダリティを緊密に統合する方向に発展できれば、それはやはり興味深いことでしょう。

最近提案された BERT のマルチモーダル版である VideoBERT (Sun et al.、2019)。レシピに基づいてビデオ「トークン」を生成することができ (画像の上部)、特定のビデオ「トークン」の後のさまざまな時間スケールでの「トークン」を予測することもできます (画像下部)。

宝くじ仮説

下の図に示すように、Frankle と Carbin (2019) は「勝ちチケット」、つまり、高密度でランダムに初期化されたフィードフォワード ネットワーク内にある適切に初期化されたサブネットワークを定義し、このサブネットワークを個別にトレーニングすると、完全なネットワークをトレーニングした場合と同様の精度が達成されるはずです。

当初の剪定プロセスは小さな視覚タスクにしか機能しませんでしたが、その後の研究 (Frankle ら、2019 年) では、初期化段階ではなくトレーニングの早い段階で剪定を適用し、より深いモデルの小さなサブネットワークを見つけることが可能になりました。 Yu et al. (2019) も、NLP と RL の LSTM モデルと Transformer モデルで「勝ちチケット」を発見しました。このような勝ちチケットを見つけるのは依然として困難ですが、データセットやオプティマイザー間で転送可能であるようです (Morcos et al.、2019)。

なぜそれが重要なのでしょうか?

ニューラル ネットワークが高度になるにつれて、そのサイズも大きくなり、ニューラル ネットワークをトレーニングして予測に使用するために、より多くの計算能力が必要になります。同様のパフォーマンスを実現するより小さなサブネットワークを一貫して見つけることができれば、トレーニングと推論の計算要件を大幅に削減できます。これにより、モデルの反復が加速され、端末デバイス コンピューティングとエッジ コンピューティングの新たな可能性が開かれます。

次に何が起こるでしょうか?

現在、リソースが少ないシナリオでは、「当たりチケット」を見つけて実際の利益を生み出すには、依然として膨大な計算オーバーヘッドが必要です。より堅牢なワンショット プルーニング方式は、プルーニング プロセス中のノイズの影響を受けにくいため、この問題をある程度軽減できます。 「当たりくじ」の特徴を研究することは、初期化とニューラル ネットワークのトレーニングのプロセスをよりよく理解するのにも役立ちます。

さまざまな剪定率での精度をテストします。実線は当選チケットを表し、破線はランダムにサンプリングされたサブネットワークを表します (Frankle & Carbin、2019)。

ニューラル タンジェント カーネル

ニューラル ネットワークが非常に広い場合 (より正確には、無限に広い場合) は、狭い場合よりも研究が実際に容易になることを想像するのは、ほとんどの人にとって難しいでしょう。研究結果によると、無限幅の限界では、ニューラル ネットワークはカーネル (ニューラル接線カーネル) を持つ線形モデルとして近似できることが示されています (NTK、Jacot 他、2018)。実際には、これらのモデルは、深さが制限されたモデル (Novak et al., 2019; Allen-Zhu et al., 2019; Bietti & Mairal, 2019) よりもパフォーマンスが低く、その結果の標準的な方法への適用が制限されます。

しかし、最近の研究 (Li et al., 2019; Arora et al., 2019) では、ニューラル タンジェント カーネルと標準的な方法の間のパフォーマンスのギャップが大幅に縮小されました (NeurIPS 2019 の他の関連論文については、Chip Huyen のブログ投稿を参照してください)。

なぜそれが重要なのでしょうか?

NTK は、ニューラル ネットワークの理論的な動作を分析するために利用できる最も強力なツールであると考えられます。これには限界があり(つまり、実用的なニューラル ネットワークは、対応する NTK バージョンのモデルよりもパフォーマンスが優れています)、この分野のこれまでの研究結果はまだ実用的なメリットにつながっていませんが、ディープラーニングのブラック ボックスを開くのに役立つ可能性があります。

次に何をすればいいでしょうか?

現時点では、NTK と標準的な方法の間のギャップは主に幅の違いから生じているようです。今後の研究では、このギャップを説明することが試みられるかもしれません。これは、無限の幅の制限という考え方を実践するのにも役立ちます。最終的に、NTK はニューラル ネットワークのトレーニング プロセスと一般化動作を理解するのに役立つ可能性があります。

出力スケーリング係数αが異なる値を取る場合のNTKによる線形モデルの学習プロセス。図中の楕円はNTKの可視化結果です。

教師なし多言語学習

長年にわたり、クロスリンガル表現は主に単一レベルの研究に焦点を当ててきました。詳細については、一般レビュー記事「クロスリンガル単語埋め込みモデルの調査」を参照してください。教師なし事前トレーニングの開発により、2019 年には多言語 BERT、XLM (Conneau & Lample、2019)、XLM-R (Conneau et al.、2019) が登場しました。これらのモデルは、明示的に言語間シグナルを使用していませんが、共有語彙や共同トレーニングがなくても、言語間で驚くほどよく一般化します (Artetxe et al.、2019; Karthikeyan et al.、2019; Wu et al.、2019)。

「教師なしクロスリンガル表現学習」では、多言語モデルの概要を説明します。このディープモデルは、教師なし機械翻訳の分野にも多くの改善をもたらしました (Song et al.、2019; Conneau & Lample、2019)。この分野も、統計的手法とニューラル ネットワーク手法のより合理的な融合により、2018 年に重要な進歩を遂げました。もう 1 つのエキサイティングな開発は、既存の英語の事前トレーニング済み表現に基づいて、深層多言語モデルを構築できることです (下の図を参照)。

なぜそれが重要なのでしょうか?

既存のクロスリンガル表現技術により、より少ないコーパスを使用して英語以外の言語モデルをトレーニングできます。さらに、英語で十分な注釈付きデータがある場合、これらの方法によりゼロショット転送が可能になります。最終的には、異なる言語間の関係を理解するのにも役立つかもしれません。

次に何が起こるでしょうか?

これらの方法が、言語間の監督信号なしでこれほど優れたパフォーマンスを達成できる理由は現在のところ不明です。これらの方法がどのように機能するかをさらに理解することで、より強力なアルゴリズムを設計できるようになり、さまざまな言語構造間の関係も明らかになる可能性があります。さらに、ゼロショット転送に焦点を当てるだけでなく、ラベル付きデータがほとんどないターゲット言語からの学習も検討する必要があります。

Artetxeら(2019)が提案した単一言語転送法の4つのステップ。

より堅牢なベンチマーク

SOTA には何かが腐っている - Nie ら (2019) による、シェイクスピアの有名な引用「デンマークという国には何かが腐っている」の言い換え。

最近、HellaSWAG (Zellers et al.、2019) などの新しい NLP データセットが作成され、現在の最先端モデルをテストするようになりました。データセット内の例は手動で選別されており、残りのデータが現在の最高パフォーマンスのモデルで正常に処理できないものであることが保証されています (関連する例については下の図を参照)。この人間が関与する敵対的データ構築作業は、何度も繰り返すことができます。たとえば、最近のベンチマークである Adversarial NLI (Nie ら、2019 年) では、現在の自然言語推論モデルではデータセットの作成がより困難になっています。

なぜそれが重要なのでしょうか?

多くの研究者は、現在の NLP モデルは学習すべきことを学習しておらず、非常に単純なヒューリスティック手法を使用してデータ内のごく浅い手がかりを発見しているだけであることを発見しました。詳細については、「NLP の Clever Hans の瞬間が到来」を参照してください。データセットがより堅牢になるにつれて、新しく提案されたモデルがデータ内の真に深い関係性を学習できるようになることを期待しています。

次に何が起こるでしょうか?

モデルが強力になるにつれて、ほとんどのデータセットは継続的に改善する必要があり、そうしないとすぐに古くなります。このプロセスを促進するには、専用のインフラストラクチャとツールが必要です。さらに、データセットの初期バージョンが可能な限り堅牢になるように、データのさまざまなバリエーション(不完全な入力の使用など)を使用する単純な方法やモデルを含む適切な比較ベースラインを実行する必要があります。

上の図は、HellaSWAG の文章完成の複数選択問題を示しています。現在最もパフォーマンスの高いモデルでは、この質問に答えるのが困難です。最も難しい例は、適切なレベルの複雑さを備え、回答に 3 つの背景文と 2 つの生成された文が含まれている必要があります (Zellers ら、2019)。

科学における機械学習と自然言語処理

機械学習を基礎科学的問題に適用する上で、いくつかの重要な進歩がありました。この記事の著者の主な焦点領域は、タンパク質フォールディング予測と多電子シュレーディンガー方程式におけるディープニューラルネットワークの応用です (Pfau et al.、2019)。 NLP の観点から見ると、標準モデルであってもドメイン指示を組み込むことで大幅な改善を達成できるというのは朗報です。材料科学の分野では、研究者らは単語埋め込みを使用して潜在知識を分析し、特定の材料が特定の特性を持つかどうかを予測する研究を完了しました (Tshitoyan et al.、2019) (下の図を参照)。生物学分野では、遺伝子やタンパク質などのデータはすべてシーケンシャルであるため、NLP手法(LSTM、Transformerなど)は当然そのような問題の解決に適しています。これらの手法は、タンパク質分類タスクに適用されています(Strodthoff et al.、2019; Rives et al.、2019)。

なぜそれが重要なのでしょうか?

科学は、機械学習が最も大きな影響を与えた応用分野の 1 つであると言えるでしょう。このソリューションは他の多くの分野に大きな影響を与え、実際の問題の解決に役立つ可能性があります。

次に何をすればいいでしょうか?

物理学の問題におけるエネルギーのモデリング (Greydanus 他、2019) から微分方程式の解法 (Lample & Charton、2020) まで、機械学習技術は常に新しい科学的問題に適用されています。 2020 年に最も影響力のある作品が何であるかを見るのは興味深いでしょう。

単語埋め込みは、さまざまな時代の文献の要約に基づいてトレーニングすることで取得され、これらの材料が将来何に使用されるか(強誘電体、太陽光発電、トポロジカル絶縁体)を予測します。

この画像は、研究対象になる可能性が最も高いと予測される 50 種類の物質とすべての候補物質の比較を示しています (Tshitoyan 他、2019)。

自然言語生成 (NLG) におけるデコード エラーの解決

自然言語生成 (NLG) の分野のモデルはますます強力になってきていますが、依然として繰り返しの単語や意味のない単語が生成されることがよくあります (下の図を参照)。これは主に最大尤度トレーニングによって発生します。ありがたいことに、これは改善されつつあり、その進歩はモデリングの取り組みと直交しています。これらの改善のほとんどは、新しいサンプリング方法 (核サンプリングなど、Holtzman ら、2019 年) または新しい損失関数 (Welleck ら、2019 年) の形で実現されています。

もう 1 つの驚くべき発見は、優れた検索結果がモデルが優れた生成結果を達成するのに役立たないということです。現在のモデルは、不正確な検索とビーム検索のエラーにある程度依存しています。対照的に、機械翻訳の文脈では、正確な検索では意味のない翻訳が返されることがよくあります (Stahlberg & Byrne、2019)。この発見は、検索とモデリングの進歩が連携して進む必要があることを示唆しています。

なぜそれが重要なのでしょうか?

NLG は NLP における最も基本的なタスクの 1 つです。 NLP と機械学習の研究では、ほとんどの論文がモデルの改善に焦点を当てており、他の部分の開発は無視されることが多いです。 NLG 研究者は、モデルにはまだ欠陥があり、検索やトレーニングのプロセスを修正することで出力を改善できる可能性があることを自覚することが重要です。

次に何をすればいいでしょうか?

NLG モデルはより強力になり、転移学習の助けも受けていますが、モデルの予測結果には依然としてかなりの程度の人的要因が含まれています。こうした人的要因の原因を見つけ出し、理解することは、非常に重要な研究方向です。

GPT-2 がビーム サーチとナイーブ (貪欲) サンプリング手法を使用して生成した結果。青い部分は繰り返され、赤い部分は意味がありません。

事前トレーニング済みモデルを強化する

2019 年には、事前トレーニング モデルへのアプローチに新しい機能を導入できることを嬉しく思います。いくつかの方法では、知識ベースを使用して事前トレーニング済みモデルを強化し、エンティティ認識 (Liu et al.、2019) と事実想起 (Logan et al.、2019) におけるモデルのパフォーマンスを向上させます。事前に定義された実行可能プログラムにアクセスして、単純なアルゴリズム推論を実行する方法もいくつかあります (Andor et al.、2019)。ほとんどのモデルは弱い帰納的バイアスを持ち、ほとんどの知識はデータから学習されるため、事前トレーニング済みモデルを強化するもう 1 つのオプションは、下の図に示すように、トレーニング データ自体を強化することです (例: 常識の捕捉、Bosselut ら、2019)。

なぜそれが重要なのでしょうか?

モデルはますます強力になっていますが、テキストだけではモデルが学習できない知識が数多くあります。特に、より複雑なタスクを扱う場合、利用可能なデータが限られているため、事実や常識を使用して明示的に推論することができない可能性があり、そのため、より強力な帰納的バイアスが必要になる場合があります。

次に何をすればいいでしょうか?

これらのモデルをより困難な問題に適用するにつれて、モデルを合成的に変更することがますます必要になります。将来的には、強力な事前トレーニング済みモデルと学習可能な構成手順を組み合わせる可能性があります (Pierrot et al.、2019)。

マルチヘッドアテンションを備えた標準トランスフォーマー。ヘッドエンティティとリレーションが与えられると、トレーニングされたモデルは知識ベーストリプル内のテールエンティティを予測できます (Bosselut et al.、2019)。

効率的でメモリが豊富なトランスフォーマー

Transformer アーキテクチャは今年いくつかの改善が見られました (Vaswani 他、2017)。これらの新しいアーキテクチャ (Transformer-XL、Dai et al.、2019、Compressive Transformer、Rae et al.、2020 など) により、長距離の依存関係をキャプチャすることが可能になります。

さまざまな(通常はスパースな)アテンションメカニズム(適応的スパースアテンション、Correia ら、2019 年、適応的アテンションスパン、Sukhbaatar ら、2019 年、プロダクトキーアテンション、Lample ら、2019 年、局所性に敏感なハッシュ、Kitaev ら、2020 年など)を使用して、Transformer をより効率的にすることを目指す方法もいくつかあります。

Transformerベースの事前トレーニングの分野では、パラメータ共有を使用するALBERT(Lan et al.、2020)や、より効率的な事前トレーニングタスクを使用するELECTRA(Clark et al.、2020)など、より効率的なバリアントも数多く登場しています。もちろん、ユニグラムドキュメントモデル VAMPIRE (Gururangan et al., 2019) や QRNN ベースの MultiFiT (Eisenschlos et al., 2019) など、Transformer を使用せず、より効率的な事前トレーニング済みモデルもいくつかあります。もう一つの注目すべき傾向は、大規模な BERT を蒸留してより小さなモデルを取得することです (Tang et al.、2019; Tsai et al.、2019; Sanh et al.、2019)。

なぜそれが重要なのでしょうか?

Transformer アーキテクチャは、登場以来影響力を持っています。これは最先端の NLP モデルであり、他の多くの分野にも成功裏に適用されています (セクション 1 と 6 を参照)。したがって、Transformer アーキテクチャに対するあらゆる改善は、大きな波及効果をもたらす可能性があります。

次に何をすればいいでしょうか?

これらの改善が実際に導入されるまでにはしばらく時間がかかりますが、事前トレーニング済みモデルの人気と使いやすさを考えると、このより効率的な代替手段はすぐに採用される可能性があります。一般的に、スパース性が主要なトレンドの 1 つである、効率性を重視したモデル アーキテクチャに研究者が引き続き注力できることを期待しています。

Compressive Transformer (Rae et al., 2020) は、過去の活性化関数の細粒度メモリを、より粗粒度の圧縮メモリに圧縮できます。

より信頼性の高い分析方法

2019 年の主な傾向は、分析モデルに関する論文数の増加でした。実際、私のお気に入りの論文のいくつかは、このタイプの分析論文です。以前のハイライトとしては、2019 年の Belinkov & Glass による分析手法のレビューがあります。また、私の記憶の限りでは、今年は初めて BERT モデルの分析に専念した研究が登場した年でした (この種の論文は BERTology と呼ばれます)。この文脈では、プローブは一般的なツールとなり、その目的は、特定の属性を予測することによって、モデルが語彙構造や構文などを「理解」しているかどうかを理解することです。

この記事の著者は、プローブ技術の信頼性を高める方法を探求する論文を特に気に入っています (Liu et al.、2019; Hewitt & Liang、2019)。信頼性もまた、注意が意味のある説明を提供できるかどうかという継続的な議論のテーマです (Jain & Wallace、2019 年; Wiegreffe & Pinter、2019 年; Wallace、2019 年)。研究者の分析手法への関心は高まっており、その最たる例が ACL 2020 の新しいトラック「NLP モデルの分析と解釈可能性」でしょう。

なぜそれが重要なのでしょうか?

現在の最先端の方法は、一般的にブラックボックスとして使用されます。より優れたモデルを開発し、それを現実世界で使用するためには、モデルがなぜその決定を下すのかを理解する必要があります。しかし、モデル予測を解釈するための現在の方法はまだ限られています。

次に何をすればいいでしょうか?

私たちの予想を超える予測を説明するには、さらに研究を重ねる必要があります。予測は信頼できないことが多いからです。この方向における重要な傾向は、より多くのデータセットが人間による説明を提供していることです (Camburu et al.、2018; Rajani et al.、2019; Nie et al.、2019)。

表現における言語知識を学習するためのプローブ設定。

上記は、2019 年の NLP 分野に関する著者のレビューです。 NLP は依然として急成長している分野であり、多くの理論が急速に発展しており、今後の研究成果が期待されていることがわかります。

<<:  人工知能は個人情報詐欺の蔓延に対する優れた解決策である

>>:  テクノロジーを活用して伝染病と闘う上で、人工知能はどのような役割を果たすのでしょうか?

ブログ    
ブログ    

推薦する

...

人工知能はビジネスに大きな影響を与えます。AIは中小企業に5つの大きなメリットをもたらします。

市場のトレンドはどのくらいの速さで発展していますか? 特に人工知能に関しては。企業は驚くべき速度で ...

...

アンドリュー・ン氏がチューリングトリオに加わり、サム・アルトマン氏を非難: AI規制は「規制がないよりはまし」、ルカン氏はそれを歓迎

ほんの数日前、ベンジオ氏と他の有力者グループは、人工知能が人類の運命を危険にさらす可能性があるという...

Li Ziqing教授はPBODの主任コンピュータービジョン科学者を務めています。

最近、中国のビッグデータおよび人工知能製品と技術の大手プロバイダーであるPERCENTは、コンピュー...

AI、BI、データ: 2020 年までに勝利するのは誰か?

10 年前、データと分析の市場には大手企業が存在しませんでした。実際、業界では「クラウド」、「ビッ...

推奨アルゴリズムコレクション(パート2) - SVDとCB

[[331259]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事でレコメンデー...

負荷分散アルゴリズムの分類の詳細な説明

負荷分散により、ネットワーク パフォーマンスとネットワーク動作環境を効果的に改善できます。では、負荷...

2020年に注目すべき7つのAIトレンド

人工知能は将来人類に大きな可能性をもたらすでしょうが、もちろんいくつかの面では人類にリスクをもたらす...

人工知能がITおよびAV業界にもたらす変化

【51CTO.com クイック翻訳】 [[425066]] ITおよびAV業界における人工知能IT(...

...

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

2023年にはAI技術が話題となり、プログラミングを中心に多くの分野に影響を及ぼします。 Sprin...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...