MetaMindによるNLP研究の徹底分析：機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収を発表したディープラーニング企業MetaMindは、自然言語処理におけるLSTMとBag-of-Wordsモデルの応用を詳細に分析した記事を公式サイトで公開しました。

機械学習、ディープラーニング、そしてより広い意味での人工知能の台頭は疑う余地がなく、すでにコンピューターサイエンスの分野に大きな影響を与えています。画像認識や囲碁など、多くのタスクでディープラーニングが人間を上回ったと聞いたことがあるかもしれません。

ディープラーニングコミュニティは現在、自然言語処理 (NLP) を研究と応用の次のフロンティアと見なしています。

ディープラーニングの大きな利点の 1 つは、その進歩が非常に汎用的である傾向があることです。たとえば、ある分野でディープラーニングを効果的にする技術は、多くの場合、大きな変更を加えることなく別の分野に転用できます。具体的には、画像や音声の認識のための大規模で計算コストの高いディープラーニングモデルを構築するために開発された手法は、自然言語処理にも使用できます。その一例は、最新の翻訳システムです。このシステムは、これまでのすべてのシステムよりも性能が優れていますが、はるかに多くのコンピューターパワーを必要とします。このような要求の厳しいシステムは、現実世界のデータで偶然に発生する非常に複雑なパターンを発見することができますが、これにより、多くの人がさまざまなタスクにこのような大規模なモデルを使用するようになります。これにより、別の疑問が生じます。

すべてのタスクは、このタイプのモデルを必要とするほど複雑ですか?

感情分析のための bag-of-words 埋め込みでトレーニングされた 2 層 MLP の内部を見てみましょう。

文章を肯定的か否定的かに分類できる、バッグ・オブ・ワードと呼ばれるシンプルなディープラーニングシステムの内部。この画像は、bag-of-words 上の 2 層 MLP の最後の隠し層からの T-SNE です。各データポイントは文に対応し、異なる色はディープラーニングシステムの予測と実際のターゲットに対応します。実線のボックスは、文の異なる意味内容を表します。それらについては、後でインタラクティブなチャートで確認できます。

上の図の実線のボックスは、いくつかの重要な洞察を提供します。現実世界のデータの難しさはこれよりはるかに大きいです。簡単に分類できる文もありますが、複雑な意味構造を持つ文もあります。簡単に分類できる文章の場合、大容量のシステムは必要ないかもしれません。おそらく、もっと単純なモデルでも同じことができるでしょう。このブログ投稿では、これが真実かどうかを検討し、多くの場合、単純なモデルで目的を達成できることを示します。

1. テキストのディープラーニング

ほとんどのディープラーニング手法では、入力として浮動小数点数が必要です。テキストを扱ったことがない方は、次のように疑問に思うかもしれません。

テキストをディープラーニングに利用するにはどうすればよいですか?

テキストの場合、中心的な問題は、資料の長さを前提として、大量の情報をいかに表現するかということです。一般的なアプローチは、テキストを単語、サブ単語、さらには文字にトークン化することです。その後、各単語は、word2vec や Glove などのよく研究された方法を使用して浮動小数点ベクトルに変換できます。この方法は、異なる単語間の暗黙的な関係を通じて、単語の意味のある表現を改善することができます。

単語を高次元埋め込み（たとえば 300 次元）に変換し、PCA または T-SNE（この場合は 2 次元への次元削減のための一般的なツール）を使用すると、単語間の興味深い関係を見つけることができます。例えば、上の画像では、叔父と叔母の間の距離が男性と女性の距離とほぼ同じであることがわかります（Mikolov et al.、2013より）

トークン化と word2vec メソッドを使用すると、テキストを単語の浮動小数点表現のシーケンスに変換できます。

さて、単語表現のシーケンスは何に役立つのでしょうか?

2. 言葉の袋

それでは、おそらく最もシンプルな機械学習アルゴリズムである Bag of Words (BoW) を調べてみましょう。

いくつかの単語表現 (図の下部にある灰色のボックス) を取得し、合計または平均して共通表現 (青いボックス) を取得します。この共通表現には、各単語に関する情報が含まれています。この論文では、この共通表現を使用して、文が肯定的であるか否定的であるかを予測します (赤いボックス)。

各特徴次元の単語の平均を単純に取得します。単語の埋め込みを単純に平均化するだけで（文の順序は完全に無視されますが）、多くの単純な実用的なケースで良好な結果を得るのに十分であり、ディープニューラルネットワーク（後述）と組み合わせると強力なベースラインも提供されることがわかります。

さらに、平均を取るための計算コストは低く、文の次元を固定サイズのベクトルに削減できます。

3. リカレントニューラルネットワーク

一部の文では、高いレベルの正確性が求められたり、文の構造に依存したりします。これらの問題を解決するために bag-of-words を使用するだけでは不十分な場合があります。ただし、驚くべきリカレントニューラルネットワークの使用を検討することもできます。

各タイムステップ (左から右へ) で、入力 (単語など) が RNN (灰色のボックス) に送られ、以前の内部メモリ (青色のボックス) が統合されます。次に、RNN はいくつかの計算を実行して、以前に確認されたすべての単位 (たとえば、以前のすべての単語) を表す新しい内部メモリ (青いボックス) を作成します。 RNN には文レベルの情報が含まれるようになり、文が肯定的か否定的かをより正確に予測できるようになります (赤いボックス)。

各単語の埋め込みはリカレントニューラルネットワークに順番に入力され、リカレントニューラルネットワークは以前に見た情報を保存し、それを新しい単語と組み合わせることができます。 Long Short-Term Memory (LSTM) や Gated Recurrent Unit (GRU) などのよく知られたメモリセルを利用すると、RNN は多くの単語を含む文章で何が起こったかを記憶できます。(LSTM の成功により、LSTM メモリセルを備えた RNN は LSTM と呼ばれることがよくあります。) これらのモデルの中で最大のものは、この構造を 8 回積み重ねます。

どちらも LSTM ユニットを備えた再帰型ニューラルネットワークを表します。また、LSTM レイヤー間の接続をスキップしたり、アテンションと呼ばれる方法など、いくつかのトレードオフのトリックも適用します。また、緑の LSTM が反対方向を向いていることにも注意してください。通常の LSTM と組み合わせると、データシーケンスの両方向で情報を取得できるため、双方向 LSTM と呼ばれます。詳細については、Stephen Merity のブログ (Synced の記事「詳細 | レイヤーごとの分析、Google の機械翻訳のブレークスルーの背後にあるニューラルネットワークアーキテクチャとは?」) を参照してください (出典: Wu 他、2016)。

ただし、LSTM は単純な bag-of-words モデルよりも計算コストがはるかに高く、実装とサポートには高性能コンピューティングハードウェアを使用する経験豊富なディープラーニングエンジニアが必要です。

例: 感情分析

感情分析は、主観的な記事の極性を定量化する文書分類タスクです。モデルは、文が与えられると、その感情が肯定的か、否定的か、中立的かを推定します。

深刻な問題になる前に、Twitter で怒っている顧客を見つけたいですか? それなら、感情分析がまさにあなたが探しているものかもしれません!

この目的に最適なデータセット（次に使用します）は、スタンフォード感情ツリーバンク (SST) です。

https://nlp.stanford.edu/sentiment/treebank.html

PyTorch 用のデータローダーを公開しました。

https://github.com/pytorch/テキスト

STT は文を分類 (肯定的、否定的) できるだけでなく、各文の文法的なサブフレーズも提供できます。ただし、当社のシステムではツリー情報は使用しません。

オリジナルの SST は、非常にポジティブ、ポジティブ、ニュートラル、ネガティブ、非常にネガティブの 5 つのカテゴリで構成されています。バイナリ分類タスクはより単純であると考えており、肯定的なものは極めて肯定的なものと組み合わされ、否定的なものは極めて否定的なものと組み合わされ、中立的なものは存在しません。

モデルアーキテクチャの簡単な技術的な説明を提供します。重要なのは、それがどのように構築されているかではなく、安価なモデルがバッチサイズ 64 で 10 ミリ秒で 82% の検証精度を達成するのに対し、高価な LSTM アーキテクチャは 88% の検証精度を達成するものの、同じ量のタスクを処理するのに 87 ミリ秒かかることです (最良のモデルは約 88 ～ 90% の精度です)。

下の緑色のボックスは、GloVe を使用して初期化され、その後に単語平均化 (単語のバッグ) とドロップアウト付き 2 層 MLP が続く単語埋め込みを表しています。

下の水色のボックスは、GloVe を使用して初期化された単語の埋め込みを表します。単語埋め込み全体で勾配は追跡されません。私たちは、bag-of-words と同様の方法で LSTM ユニットを備えた双方向 RNN を使用し、RNN の隠し状態を使用して平均と最大値を抽出し、その後にドロップアウト付きの 2 層 MLP を使用しました。

5. 計算コストの低いスキムリーダー

一部のタスクでは、アルゴリズムは人間レベルに近い精度を発揮できますが、これを実現するには、おそらくサーバーの予算が非常に高くなる必要があります。ご存知のとおり、実際のデータでは必ずしも LSTM を使用する必要はなく、安価な Bag of Words (BoW) を使用しても問題ない場合があります。

もちろん、順序に依存しない Bag-of-Words (BoW) は、多数の否定的な単語を誤分類します。完全に劣った Bag-of-Words (BoW) に切り替えると、全体的なパフォーマンスが低下し、説得力も低下します。そこで疑問は次のようになります。

「簡単な」文と「難しい」文を区別することを学ぶことはできるでしょうか?

また、時間を節約するために、低コストのモデルを使用してこのタスクを完了することはできますか?

6. 内部を探索する

ディープラーニングモデルを探索する一般的な方法は、各文が隠れ層でどのように表現されるかを理解することです。ただし、隠れ層は高次元であることが多いため、T-SNE などのアルゴリズムを使用して 2 次元に削減し、人間が検査できるようにグラフをプロットすることができます。

上記の 2 つの画像は、元のテキスト内のインタラクティブアイコンのスクリーンショットです。オリジナルのインタラクティブチャートでは、カーソルを移動したり、ズームしたり、データポイントの上にマウスを移動したりして、そのデータポイントに関する情報を表示できます。写真では、Bag of Words (BoW) の最後の隠しレイヤーを見ることができます。任意のデータポイントにマウスカーソルを合わせると、そのデータポイントを表す文が表示されます。文の色はラベルによって異なります。

予測タブ: モデルのシステム予測と実際のラベルの比較。データポイントの中心は予測値 (陽性の場合は青、陰性の場合は赤) を表し、周囲の線は実際のラベルを表します。システムが正しい場合と間違っている場合を理解できるようにします。

確率タブ: 出力層で予測されたクラスの確率をプロットします。これは、モデルが予測に関してどれだけ有益であるかを表します。さらに、データポイントにマウスカーソルを合わせると、特定のデータポイントの確率が表示され、モデルの予測を表す色が表示されます。タスクはバイナリ分類であるため、確率は 0.5 から始まり、この場合の最小信頼度は 50/50 であることに注意してください。

T-SNE プロットは過度に解釈されやすいですが、傾向についていくつかのアイデアが得られる可能性があります。

7. T-SNEの解釈

文はクラスターに分割され、異なる意味タイプを構成します。
一部のクラスターは形式が単純で、高い信頼性と精度で計算されます。
他のクラスターはより散在しており、精度と信頼性は低くなります。
肯定的な要素と否定的な要素を含む文章は難しいです。

次に、LSTM 上の同様のプロットを見てみましょう。

上記の 2 つの画像は、元のテキスト内のインタラクティブアイコンのスクリーンショットです。オリジナルのインタラクティブチャートでは、カーソルを移動したり、ズームしたり、データポイントの上にマウスを移動したりして、そのデータポイントに関する情報を表示できます。セットアップは、bag-of-words 相互作用図に似ています。LSTM の内部を調べてみましょう。

これらの観察の多くは LSTM にも当てはまると考えられます。ただし、LSTM のサンプル数は比較的少なく、信頼性も比較的低く、肯定的な要素と否定的な要素の両方を含む文は、bag-of-words よりも LSTM にとってそれほど難しくありません。

Bag of Words は文をクラスタ化し、その確率を使用して、そのクラスタ内の文に対して正しい予測を出すことが可能かどうかを識別できるようです。これらの観察に関して妥当な仮定は、信頼性が高い回答の方がより正確であるということです。

この仮説を調査するために、確率の閾値を調べることができます。

8. 確率閾値

人々は、確実性の尺度として各クラスの確率を提供するために、単語のバッグと LSTM をトレーニングします。これは何を意味するのでしょうか? Bag of Words が 1 を返す場合、予測に自信があることを意味します。通常、予測する際には、モデルによって提供される確率が最も高いクラスを選択します。このバイナリ分類（正または負）の場合、確率は 0.5 を超える必要があります（そうでない場合は、反対のクラスを予測します）。しかし、予測されたクラスの確率が低い場合、モデルに疑問があることを示している可能性があります。たとえば、モデルが陽性確率を 0.51、陰性確率を 0.49 と予測した場合、結論が陽性であると言っても説得力がありません。「しきい値」を使用する場合、予測される確率を値と比較して、それを使用するかどうかを評価することを意味します。たとえば、すべての確率が 0.7 より大きい文を使用することを決定できます。あるいは、0.5〜0.55 の間隔が予測の信頼性にどのような影響を与えるかを調べることもできます。これはまさに下の図で調査したいことです。

このしきい値グラフでは、バーの高さは 2 つのしきい値内のデータポイントの精度に対応し、線は、すべてのデータポイントが特定のしきい値外にある場合の同様の精度を表します。データ量グラフでは、バーの高さは 2 つのしきい値内に収まるデータの量に対応し、線は各しきい値ビンの累積データです。

各 bag-of-words グラフから、確率しきい値を上げるとパフォーマンスが向上することがわかります。 LSTM はトレーニングセットを過剰適合し、高い信頼性でのみ回答を提供するため、これが LSTM グラフで明らかでないことは正常と思われます。

簡単なサンプルにはBoWを使用し、難しいサンプルにはオリジナルのLSTMを使用する

したがって、出力確率を使用するだけで、文が簡単な場合と、より強力なシステム (強力な LSTM など) からのガイダンスが必要な場合を判断できます。

私たちは確率しきい値を使用した確率戦略を作成しました。この戦略では、バッグオブワードシステムの確率にしきい値を設定し、しきい値を満たさないすべてのデータポイントに対して LSTM を使用します。これを行うと、Bag of Words (しきい値を超える文) のデータと、BoW (しきい値を超える) または LSTM (しきい値を下回る) のいずれかを選択するデータポイントの範囲が得られ、これを使用して精度と計算コストを見つけることができます。次に、BoW と LSTM の比率を 0.0 (LSTM のみ) から 1.0 (BoW のみ) の範囲で取得し、これを使用して精度と計算時間を計算します。

9. ベースライン

ベースラインを構築するには、2 つのモデル間の比率を考慮する必要があります。たとえば、Bag of Words (BoW) に 0.1 データを使用すると、LSTM の精度は 0.9 倍、BoW の精度は 0.1 倍になります。目標は、ガイド付き戦略なしでベースラインを取得し、文中で BoW または LSTM を使用する選択がランダムに割り当てられるようにすることです。ただし、戦略を使用する場合はコストがかかります。まず、BoW モデルを通じてすべての文を処理し、BoW と LSTM のどちらを使用するかを決定する必要があります。どの文も確率しきい値に達しない場合は、追加のモデルを実行する理由はありません。これを反映するために、戦略コストと比率を次のように計算します。

ここで、C はコストを表し、p は BoW で使用されるデータの割合を表します。

上の図は検証セットの結果であり、BoW、LSTM (赤線)、確率しきい値戦略 (青線) のさまざまな組み合わせ比率の精度と速度を比較しています。左端のデータポイントは LSTM のみを使用した場合、右端は BoW のみを使用した場合、中央は 2 つを組み合わせた場合に対応しています。青い線は、ガイドポリシーなしの CBOW と LSTM の組み合わせを表し、赤い線は、BoW 確率をポリシーガイドとして使用して、どのシステムがどの程度の割合を使用するかを示しています。 BoW のみが使用されるため、最大の時間節約は 90% 以上になることに注意してください。興味深いことに、BoW しきい値を使用すると、ガイド付き戦略を使用しない場合よりも大幅に優れたパフォーマンスが得られることがわかりました。

次に、曲線の平均を測定しました。これを曲線下速度 (SUC) と呼び、下の表に示します。

上記は、検証セットで BoW を使用するか LSTM を使用するかを個別に選択する戦略の結果です。各モデルは異なるシードを使用して 10 回計算されます。この表の結果は SUC の平均です。確率戦略も比率と比較されます。

10. 読み飛ばすべき時と読むべき時を学ぶ

2 つの異なるモデル間を切り替えるタイミングを知るだけでは十分ではありません。すべての異なるモデル間を切り替えることを学習する、より一般的なシステムを構築したいからです。このようなシステムは、より複雑な動作を処理するのに役立ちます。

教師あり学習において、完全な読み取りがスキップよりも優れている場合を学習できますか?

LSTM は左から右に「読み取り」、各ステップでメモリを保存しますが、「スキップ」では BoW モデルを使用します。バッグ・オブ・ワード・モデルからの確率を操作する場合、バッグ・オブ・ワード・システムが挑戦されたとき、より強力な LSTM がより適切に機能するという不変条件に基づいて決定を下します。しかし、これは常に当てはまるのでしょうか?

文に関して bag of words と LSTM が正しいか間違っているかを示す混同行列。以前の bag-of-words と LSTM 間の混乱 T-SNE プロットに似ています。

実際には、これが当てはまるのは文の 12% のみで、6% の文では bag-of-words と LSTM の両方が間違っていました。この場合、LSTM を実行する理由はなく、時間を節約するために bag of words を使用できます。

11. スキップと設定を学ぶ

BoW が疑わしい場合は、必ずしも LSTM を使用する必要はありません。 LSTM も間違いを犯し、貴重な計算リソースを節約したい場合に、bag-of-words モデルにそれを理解させることはできますか?

もう一度 T-SNE プロットを見てみましょう。ただし、今度は BoW と LSTM 間の混同行列プロットを追加します。特に BoW が間違っている場合に、混同行列のさまざまな要素間の関係を見つけたいと考えています。

比較チャートから、BoW が正しい場合と疑わしい場合は、判断が容易であることがわかります。しかし、LSTM が正しいか間違っているかに関して、BoW と LSTM の間には明確な関係はありません。

1. この関係を学ぶことはできますか?

さらに、確率的戦略はバイナリ決定に依存し、確率を必要とするため、非常に制限的です。代わりに、ニューラルネットワークに基づくトレーニング可能な意思決定ネットワークを提案します。混同行列を見ると、この情報を使用して教師あり決定ネットワークのラベルを生成できます。したがって、LSTM が正しく、BoW が間違っている場合に LSTM を使用できます。

データセットを生成するには、単語の集まりと LSTM の真の予測と潜在的な予測を含む文のセットが必要です。しかし、LSTM をトレーニングする過程で、99% を超えるトレーニング精度を達成することが多くなり、トレーニングセットに過剰適合していることが明らかになりました。これを回避するために、トレーニングセットをモデルトレーニングセット (トレーニングデータの 80%) と決定トレーニングセット (トレーニングデータの残りの 20%) に分割します。決定トレーニングセットは、モデルがこれまで見たことのないデータです。次に、残りの 20% のデータを使用してモデルを微調整し、決定ネットワークがこの新しい、目に見えない、しかし非常に関連性の高いデータセットに一般化され、システムが改善されることを期待しました。

bag-of-words と LSTM は両方とも、最初に「モデルトレイン」(トレーニングデータの 80%) でトレーニングされ、その後、これらのモデルを使用して決定ネットワークのラベルが生成され、その後、完全なデータセットでトレーニングされました。この間ずっと検証セットが使用されました。

決定ネットワークを構築するには、安価な bag-of-words システムの最後の隠しレイヤー (T-SNE プロットの生成に使用されるレイヤーと同じレイヤー) に進みます。モデルトレーニングセットの bag-of-words トレーニングの上に 2 層 MLP を積み重ねます。このアプローチに従わないと、意思決定ネットワークは BoW モデルの傾向を学習できず、適切に一般化できないことがわかりました。

下部の長いバーは、ドロップアウトのない bag-of-words システムのレイヤーを表します。 2 層の MLP が最上部に追加され、bag-of-words を使用するか、より優れた LSTM を使用するかを選択するクラスがあります。

検証セットの決定ネットワークによって選択されたカテゴリ (モデルトレーニングセットでトレーニングされたモデルに基づく) は、完全なトレーニングセットでトレーニングされた密接に関連するモデルに適用されます。完全なトレーニングセットでトレーニングされたモデルに適用するのはなぜでしょうか? モデルトレーニングセットでトレーニングされたモデルは通常品質が低いため、精度が低くなるためです。決定ネットワークは、検証セットの SUC を最大化することに基づいて早期停止でトレーニングされます。

2. 意思決定ネットワークはどのように機能しますか?

まず、意思決定ネットワークの予測を見てみましょう。

データポイントは、bag-of-words モデルを使用する場合の以前の T-SNE プロットと同じです。緑の点は bag-of-words を使用して予測された文を表し、黄色の点は LSTM を表します。

これが bag-of-words の確率カットオフにどれだけ近いかに注目してください。決定ネットワークの最後の隠し層の T-SNE が、LSTM が正しいか間違っているかに関する情報を実際に収集できるかどうかを見てみましょう。

3. ネットワークは私たちの決定をどのように実行するのでしょうか?

決定ネットワークの予測から始めましょう。

データポイントは、検証文から導出された決定ネットワークの最後の隠し状態に基づく文表現です。色は前回の比較写真と同じです。

決定ネットワークは、単語バッグの隠れた状態からクラスターを選択できるようです。ただし、LSTM が間違っている可能性がある場合 (黄色のクラスターと赤のクラスターを分離する場合) は理解されていないようです。

紫色の曲線は、検証セットに新しく導入された決定ネットワークを表しています。決定ネットワークが確率しきい値に近いがわずかに異なるソリューションを実現する方法に注目してください。時間曲線とデータの精度から判断すると、決定ネットワークの利点は明らかではありません。

テストセットと検証セットでの Bow と LSTM のパフォーマンス。 SUC は、精度と速度のグラフの平均に基づいています。各モデルは異なるシードを使用して 10 回計算されました。表の結果は SUC の平均です。標準偏差は比率からの差に基づいています。

予測グラフ、データ量、精度、SUC スコアから、決定ネットワークは BoW が正しい場合と間違っている場合をうまく理解していると推測できます。さらに、ディープラーニングモデルの隠れた状態をマイニングするための、より一般的なシステムを構築できるようになります。しかし、より複雑な LSTM など、アクセスできないシステムの動作を意思決定ネットワークに理解させることは非常に難しいことも示しています。

12. 議論

ついに、LSTM の真の威力が理解できました。LSTM は、トレーニングに実際のデータほどの量を必要としなくても、テキストに対して人間に近いパフォーマンスを実現できます。簡単な文章を理解するために Bag-of-Words モデルをトレーニングすることができます。これにより、システム全体のパフォーマンスの低下を最小限に抑えながら、多くのコンピューティングリソースを節約できます (Bag-of-Words しきい値のサイズによって異なります)。

この方法は平均化に関連しており、通常は信頼性の高い類似モデルが使用される場合に実行されます。ただし、調整可能な信頼度を持つ単語のバッグがあり、LSTM を実行する必要がない限り、計算時間と精度の重要性を比較検討し、それに応じてパラメータを調整できます。このアプローチは、パフォーマンスを犠牲にすることなく計算リソースを節約したいディープラーニング開発者にとって非常に役立つと考えています。

記事にはインタラクティブなグラフィックがいくつか含まれています。興味のある読者は、元の Web ページにアクセスしてそれらを閲覧できます。この記事は、MetaMind の研究科学者である Alexander Rosenberg Johansen によって執筆されました。この研究の関連論文は近々arXivに掲載される予定だと報告されています。

元記事: https://metamind.io/research/learning-when-to-skim-and-when-to-read

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 基本的なアルゴリズムの学習ルートとランダムな考え

>>: 人工知能がいかに「知的」であっても、それは人類の奇跡である