いつ表面的に調べ、いつ深く掘り下げるべきか - 機械学習は1ページで説明できるものではありません

機械学習、ディープラーニング、人工知能の台頭は議論の余地のない事実となり、コンピュータサイエンスの分野に大きな影響を与え始めています。周知のとおり、これまで画像認識から囲碁競技まで多くの分野で、ディープラーニングの実際のパフォーマンスは人間をはるかに上回ってきました。

ディープラーニングコミュニティは現在、自然言語処理 (NLP) をテクノロジの研究と応用における次のフロンティアと見なしています。

ディープラーニングの大きな利点の 1 つは、その改善レベルがさまざまなシナリオに適用できることです。たとえば、あるドメインでのディープラーニングに適した特定の手法は、多くの場合、変更を加えることなく他のドメインに直接転送できます。より具体的には、画像および音声認識のための大規模で計算集約的なディープラーニングモデルを構築するアプローチが、自然言語処理に浸透しています。最新かつ最先端の翻訳システムのおかげで、このシステムはこれまでよりもはるかに優れたパフォーマンスを実現できます。もちろん、動作するには依然として大量のコンピューティング機器が必要です。現実世界のデータから非常に複雑な分析モデルを見つけるには非常に強力なシステムを使用する必要がありますが、一方で、これらのモデルは他のさまざまなタスクに大規模に適用できるようになります。これにより新たな疑問が生じます。

すべてのタスクにこのような複雑なモデルを使用する必要があるのでしょうか?

感情分析を実行するようにトレーニングされた 2 層 MLP モデルを見てみましょう。

これは「bag of words」モデルと呼ばれるシンプルなディープラーニングシステムで、文章を肯定的または否定的な 2 つのカテゴリに分類します。最終的な視覚化は、バッグ・オブ・ワードモデルの 2 層 MLP アーキテクチャの上位層にある T-SNE 隠し層によって実現されます。各データポイントは文に対応しており、ディープラーニングシステムの予測と実際のターゲットに基づいて異なる色でマークされます。図中の境界ボックスは文章の内容に基づいて描画されます。興味のある友人は、マウスを合わせることでチャートを操作できます。

上の画像の境界ボックスは、いくつかの重要な洞察を提供します。現実世界のデータ処理タスクは難易度がさまざまです。分類しやすい文もありますが、複雑な意味構造を含む文もあります。分類しやすい文の場合、処理を完了するために大容量のシステムは必要ないかもしれません。言い換えれば、同じ結論に達するには、より単純なモデルで十分です。今日のブログ投稿では、この推測が真実かどうかを検討します。また、このような単純なモデルを通常どのように使用するかについても説明します。

テキストコンテンツとディープラーニング

ほとんどのディープラーニング手法では、入力として浮動小数点数が必要です。これまでにテキスト処理を試したことがない限り、次のような疑問が湧くかもしれません。

テキストスニペットをディープラーニングに接続するにはどうすればよいですか?

テキストコンテンツを扱う場合、中心的な問題は、あらゆる量の情報をどのように表現するかということです。現在、最も普及しているソリューションの 1 つは、テキストを単語、サブ単語、さらには文字にトークン化することです。さらに、word2vec や GloVe などのソリューションを使用して、各単語を浮動小数点ベクトルに変換できます。このように、異なる単語間の暗黙の関係を通じて単語の意味を表現することができます。

単語を選択し、それを高次元の埋め込み（たとえば 300 次元）に変換し、次に PCA と T-SNE（どちらも一般的な次元削減ツールで、この場合は 2 次元に削減します）を使用すると、単語間の興味深い関連性を発見できます。上の図からわかるように、uncle と aunt は似たような意味を持ちますが、それぞれ男性と女性を指します。

トークン化と word2vec を使用すると、テキストスニペットを各単語を表す浮動小数点数のシーケンスに変換できます。

さて、このフロートのシーケンスをどのように使用するのでしょうか?

バッグ・オブ・ワード・モデル

ここで、おそらくこれまでに出会った中で最もシンプルな機械学習アルゴリズムの 1 つである、バッグオブワード (BoW) モデルについて説明します。

複数の語彙表現（下部の灰色のボックス）を取得し、それらを加算または平均して、各単語の情報が含まれる別の一般的な表現（青色のボックス）にまとめます。この論文では、この一般的な表現は、文章で表現された感情が肯定的であるか否定的であるかを予測する役割を果たします (赤いボックス)。

特徴の寸法の平均を直接取得します。平均単語埋め込みの単純なシナリオでは、文内の表現の順序が完全に無視された場合でも、このモデルはほとんどの単純な例でうまく機能することがわかります。ディープニューラルネットワーク (これについては後で詳しく説明します) と組み合わせると、Bag-of-Words モデルは理解のための理想的なベースラインを提供することがよくあります。さらに、平均化はコストのかからない操作であり、文の次元を固定サイズのベクトルに削減するのに役立ちます。

リカレントニューラルネットワーク

一部の文にはより複雑な構造が含まれていたり、より正確に処理する必要がある場合があります。多くの場合、bag-of-words モデルだけではこれらの問題を解決するのに十分ではないため、別の魔法の武器であるリカレントニューラルネットワークを使用する時が来ました。

各タイムステップ（左から右へ）で、RNN（灰色のボックス）には、既存の内部メモリ（青色のボックス）への追加として入力（単語など）が与えられます。次に、RNN は新しい内部メモリ (青いボックス) で計算を実行します。このメモリは、RNN が以前に確認したすべてのユニット (元のすべての単語など) を表します。 RNN は文レベルで新しい情報を取得しているはずです。つまり、文で表現されている感情が肯定的か否定的かをより正確に予測できるようになったということです (赤いボックス)。

埋め込まれた各単語は、リカレントニューラルネットワークに順番に入力され、リカレントニューラルネットワークは、以前に見たものの保存された情報を管理し、それを新しい単語と組み合わせます。 Long Short-Term Memory (LSTM) や Gated Recurrent Unit (GRU) などのよく知られたメモリユニットを搭載した RNN を使用すると、RNN は多数の単語を含む文の意味を記憶できるようになります。 (LSTM の成功により、LSTM メモリセルを使用する RNN は単に LSTM と呼ばれることがよくあります。) これらのモデルのうち最大の 8 つが積み重ねられています。

LSTM メモリセルを備えた RNN を使用した言語翻訳のための、おそらく最も高度なディープラーニングモデルへようこそ。ピンク、オレンジ、緑のボックスは、LSTM ユニットを備えた再帰型ニューラルネットワークです。異なるLSTM層間でのスキップ接続などの処理手法の交換も実現でき、アテンションと呼ばれる手法を持っています。ご覧のとおり、緑の LSTM は反対方向を指しています。通常の LSTM と組み合わせると、双方向 LSTM と呼ばれるものが生成され、データシーケンスから 2 方向で情報を取得できるようになります。詳細については、 Stephen Merity のブログ投稿をご覧ください。

ただし、LSTM を実行するには、低コストの bag-of-words モデルよりもはるかに多くのリソースが必要であり、通常、高性能コンピューティングハードウェアを実装して効率的にサポートするには、経験豊富なディープラーニングエンジニアが必要です。

例: 感情分析

感情分析は、文書内容の主観的な傾向を判断できる文書分類メカニズムです。モデルは、文章を入力すると、表現される感情が肯定的か、否定的か、中立的かを評価できます。

顧客が行動を起こす前にツイートで顧客を見つけたいですか?感情分析はあなたのニーズに効果的に応えます！

この点で最もよく知られている公開データセット（この記事の後半で使用するデータセット）は、スタンフォードセンチメントツリーライブラリ（略して SST）です。 SST は、文を分類 (肯定的または否定的) できるだけでなく、文内の個々の文法を判断することもできます。しかし、私たちのシステムでは、ツリー情報は使用しません。オリジナルの SST では、感情を「非常に肯定的」、「肯定的」、「中立的」、「否定的」、「非常に否定的」の 5 つのカテゴリに分類しました。この例では、二分法はより単純で理解しやすいものであるべきだと考えたため、非常に肯定的なものを肯定的なものと、非常に否定的なものを否定的なものと結合し、中立的な判断結果をすべて削除しました。

例で使用するモデルアーキテクチャの概要と技術的な紹介を提供しました。最も重要なのは、特定のアーキテクチャ設計ではなく、低コストのモデルが 64 個のバッチで 10 ミリ秒のレイテンシで 82% の検証精度を実現するのに対し、高コストの LSTM は 64 個のバッチで 87 ミリ秒のレイテンシで 88% の検証精度とわずかに優れた精度しか実現しないという事実です (トップモデルの精度は通常 88% から 90% の間です)。

下部の緑色のボックスは埋め込まれた語彙を表します。これは GloVe によって初期化され、その後単語の意味が抽出され (bag-of-words モデル)、分析され、2 層 MLP モデルによって中立要素が削除されます。

下の青緑色のボックスは、GloVe によって初期化された語彙の埋め込みを表します。単語の埋め込みを追跡しなくなりました。ここでは、LSTM セルに類似した LSTM セルを備えた双方向 RNN を使用します。 RNN 隠し状態を使用して平均値と最大値を取得し、続いて 2 層 MLP モデルを使用して分析と中立因子の除去を行います。

低コストの読書ソリューション

さまざまなアルゴリズムにより、一部のタスクでは人間レベルの精度を実現できますが、それらのアルゴリズムが課すサーバーパフォーマンス要件は、多くの場合、非常に高いものになります。さらに、前述のように、実際のデータを処理するために LSTM などの高性能なソリューションを常に使用する必要はありません。ほとんどの場合、Bag-of-Words モデルでタスクを完了するのに十分です。しかし、時には次のような問題に直面することがあります。

「演技はひどく、リアリティがまったく欠けていた...それでも私は9点を付けたい」

順序を無視するアルゴリズムの一種である bag-of-words モデルは、この文を間違いなく否定表現として理解します。しかし、このような単純で明確な表現が分析の精度を低下させる原因となっていることは明らかであり、このような状況は明らかに受け入れられません。そこで疑問は次のようになります。

「簡単な」文と「難しい」文を区別する方法を学ぶことはできるでしょうか?

また、低コストのモデルを使用してこのタスクを達成できますか?

さらに詳しく

ディープラーニングモデルを探索する一般的な方法は、隠し層に基づいて各文の表現をプロットすることです。ただし、隠れ層は通常高次元であるため、T-SNE などのアルゴリズムを使用して、最初に 2 次元に縮小し、人間が理解できる方法でプロットすることができます。

BoW: 予測
BoW: 確率

データポイントを移動、ズーム、保存したり、データポイントの上にマウスを移動して情報を表示したりできます。ツールチップは、右にレンダリングすると（つまり、データポイントを左に移動する）、パフォーマンスが向上する可能性があることに注意してください。

上のグラフでは、Bag of Words (BoW) モデルにプロットされた最新の隠し層を確認できます。任意のデータポイントの上にマウスを置くと、そのデータポイントを表す対応する文章が表示されます。文自体の色はラベルによって決まります。

予測タブ: システム予測と実際のモデル標準の比較。データポイントの中央のケースには予測されたラベル (青は正、赤は負) があり、周囲の線は実際のラベルを表します。このようにして、システムの結論が正しいかどうかを簡単に判断できます。

確率タブ:出力レイヤーの予測結論に割り当てる特定の確率を表します。それは、モデルが予測にどれだけ自信を持っているかを示します。さらに、データポイントにマウスカーソルを合わせると、グラフにそのデータポイントの確率が表示され、モデルの予測に基づいて色が付けられます。確率の開始値は 0.5 であり、これはタスク自体がバイナリタイプであることを意味し、値 0.5 は信頼度が最も低い 50-50 であることを意味することに注意してください。

T-SNE プロットは過剰解釈の影響を非常に受けやすいですが、一部の要因は他の要因よりも大きな影響を与える傾向があります。

T-SNE解釈

文をクラスターに分割します。これらのクラスターには、異なるセマンティックタイプが含まれます。
一部のクラスターは多重度が比較的単純であり、これはモデルの精度に対する信頼度が高いことを意味します。
その他のクラスタリングは精度が低く、結論の信頼性は高くありません。
肯定的な表現と否定的な表現の両方が含まれる文は、判断が難しくなることがよくあります。

LSTM モデルに基づいて生成されたプロットされたチャートを見てみましょう。

LSTM: 予測
LSTM: 確率

Bag-of-Words モデルと同じ設定を使用して、LSTM を詳細に調査することを目指します。

LSTM の結果のほとんどは、bag-of-words モデルの結果と変わらないことがわかります。ただし、LSTM はほとんどの結論に対して高い信頼性を持ち、肯定的表現と否定的表現の両方を含む文を判断する際に bag-of-words モデルよりも優れたパフォーマンスを発揮します。

Bag-of-Words モデルは、文をクラスタリングおよび分割し、確率的メカニズムを使用して予測の精度を定量化する能力を十分に備えているようです。これに基づいて、基本的に次のような推論を導き出すことができます。

一般的に、信頼度の高い回答の方が正確です。

この仮説を調査するために、確率の閾値を観察することができます。

確率閾値

bag-of-words モデルと LSTM は、各クラスの確率を提供するようにトレーニングされており、これを信頼度の尺度として使用できます。具体的には、バッグ・オブ・ワード・モデルが値 1 を返す場合、予測の結論に非常に自信があることを意味します。

一般的に、予測を行う際には、モデルによって提供される確率が最も高いクラスを選択します。バイナリ分類（正または負）では、確率は 0.5 より高くなければなりません（そうでない場合、反対の結論が得られます）。ただし、確率値が低いということは、モデル自体が現在の結論について確信を持っていないことを意味します。たとえば、モデルが負の値 0.49 と正の値 0.51 を予測した場合、結論が正確である確率は極めて低いことを意味します。

しきい値について言及する場合、実際に意味するのは、予測される確率を特定の値と比較して、その確率に対応する結論が信頼できるかどうかを評価することです。たとえば、確率値が 0.7 を超える結論だけを使用することにすることもできます。あるいは、確率値が 0.5 から 0.55 までの文を調べて、この信頼区間でモデルがどのような予測を行うかを理解することもできます。これについては後で詳しく説明します。

弓
LSTM

しきい値プロットでは、バーの高さは 2 つのしきい値内のデータポイントの精度に対応し、線は、すべてのデータポイント (特定のしきい値ではなく) を参照として使用した場合のおおよその精度を表します。

データ量プロットでは、バーの高さは 2 つのしきい値間のすべてのデータの累積に対応し、線は各しきい値によって定義された間隔からの累積データを表します。

Bag-of-Words モデルをプロットすると、確率しきい値を上げると予測精度が向上することがわかります。ただし、これは LSTM グラフでは明らかではありません。主な理由は、LSTM がトレーニングセットに依存せず、信頼性の高い回答のみを提供するためです。

単純な例には bag-of-words モデルが使用され、複雑な例には LSTM が使用されます。

したがって、出力確率値を通じて、基本的に文章の内容が単純であるかどうか、そして LSTM などのより強力な分析システムを使用する必要があるかどうかを判断できます。

確率しきい値を使用して、「確率戦略」と呼ばれる新しい戦略を作成します。これは、バッグオブワードシステムで確率しきい値を取得し、信頼性がしきい値要件を満たさない予測結論を LSTM を使用してさらに処理するのに役立ちます。このようにして、データの一部 (しきい値を超える確率を持つ文) を bag-of-words モデルで処理し、データの他の部分を bag-of-words モデルまたは LSTM (特にしきい値を下回る確率を持つ文) で処理することができます。その後、BoWとLSTMの使用比率を0.0（LSTMのみ使用）から1.0（BoWのみ使用）の範囲で取得し、分析と計算に必要な時間と予想される精度を取得します。

ベンチマークの確立

ベンチマークを確立するには、2 つのモデルの具体的な使用比率を選択する必要があります。たとえば、データの 0.1 を BoW に割り当て、データの 0.9 を LSTM に割り当てた場合、最終的な精度の 90% は LSTM によって決定され、10% は BoW によって決定されます。私たちの目標は、ランダムに割り当てられた文の内容に基づいて、BoW と LSTM のどちらを使用するかを決定できる、ポリシーフリーのベースラインを確立することです。ただし、この戦略を実行するにはコストがかかります。まず、すべての文を bag-of-words モデルで処理して、どの文が bag-of-words に適していて、どの文が LSTM に適しているかを判断する必要があります。いずれかの文の予測信頼度がベースライン確率要件を満たさない場合は、すべてを LSTM に引き渡す必要があることを意味します。これは、しきい値設定に問題がある可能性もあることを意味します。これを回避するために、戦略のコストとモデル使用率を次のように計算することにしました。

ここで、C はコストを表し、p は bag-of-words モデルで使用されるデータの割合を表します。

検証セットの結果は、BoW と LSTM のさまざまなマッチング比率 (赤線) と確率しきい値戦略 (青線) の対応する精度と処理速度を比較しています。左側のデータポイントは LSTM のみが使用される場合を表し、右側のデータポイントは bag-of-words モデルのみが使用される場合を表し、その間のデータポイントは両方が使用される場合を表します。青い曲線は、ガイドなし戦略の影響下での BoW と LSTM の組み合わせを表し、赤い曲線は、データのどの部分にどのシステムを使用するかをガイドする戦略として bag-of-words 確率を使用する状況を示しています。線の上にマウスを置くと、さまざまな割合/確率のしきい値によって節約される処理時間を確認できます。バッグオブワードモデルのみを使用する場合、時間節約能力は約 90% に制限されることに注意することが重要です。

ここでの興味深い発見は、バッグ・オブ・ワードしきい値設定を使用すると、ガイダンス戦略を使用しない場合よりも大幅に優れたパフォーマンスが得られることです。

この曲線を曲線速度 (SUC) と呼び、平均値をとります。結果は次の表に示します。

検証セットを使用して、BoW または LSTM の離散選択結果を使用するかどうかを決定します。各モデルは異なる材料を使用して 10 回計算されました。表の結果は SUC の平均です。確率戦略と使用率を比較します。

いつ浅く探索し、いつ深く探索するかを知る

2 つの異なるモデルをいつ切り替えるかを知るだけでは明らかに十分ではありません。各モデルをいつ切り替えるかを学習する、より一般的なシステムを構築したいと考えています。このようなシステムは、より複雑な動作を処理するのに役立ちます。

セット管理アプローチを使用して、浅くではなく深く取り組む方がよい場合を把握できますか?

ここでの「深い探索」とは、LSTM を使用して左から右に処理し、各タイムステップの結果をメモリに保存することを意味します。また、「浅い探索」とは、BoW モデルを使用することを意味します。バッグオブワードモデルを使用して確率を計算すると、単語の意味が不確実な場合は、より強力な LSTM の方がより正確な結果を提供できるはずだと結論付けることができますが、本当にそうなのでしょうか?

bag-of-words モデルと LSTM には、同じ文に対する正しいか間違ったかの判断に関する混同行列があります。これは、bag-of-words モデルと LSTM を混同した以前の T-SNE プロットに似ています。

実際、LSTM が BoW よりも優れた判断結果を提供するのは 12% の場合のみであり、6% のケースでは、Bag of Words モデルも LSTM も正しい結果を提供できないことがわかります。これを念頭に置くと、LSTM を使用する理由はないと思われます。bag-of-words モデルだけに頼るだけで、かなり正確な結果が得られ、速度もはるかに速くなります。

「浅い探索」を理解する - 設定

つまり、BoW が結果について確信が持てない場合でも、それ以降の処理に必ずしも LSTM を使用する必要はありません。では、どの場合に LSTM が間違いを犯し、どの場合にリソース比率の高い LSTM が正しい結果を出すことができるかを、bag-of-words モデルに理解させることができるでしょうか?もう一度 T-SNE プロットを見てみましょう。ただし、ここでは BoW と LSTM 間の混同行列に注目します。特に BoW が間違っている場合に、混同行列内の要素間の関係を見つけたいと考えています。

BoW: LSTMとの比較
LSTM: BoWとの比較

データポイントを移動、ズーム、保存したり、データポイントの上にマウスを移動して情報を表示したりできます。ツールチップは、右にレンダリングすると（つまり、データポイントを左に移動する）、パフォーマンスが向上する可能性があることに注意してください。 BoW と LSTM の予測結果を比較して、両者の精度の違いを理解します。これにより、どのモデルのパフォーマンスが優れているかを評価することができます。さらに、データポイントの上にマウスを置くと、精度と確率が表示されます。予測結果に応じて確率情報が色分けされます。

事例を比較することで、BoW が正しい場合と、結果があまり確実でない場合とを簡単に判断できるようになりました。しかし、LSTM が正しいことと間違っていることの間には明確な相関関係はありません。

このつながりを理解できるでしょうか?

さらに、確率戦略自体には、継承されたバイナリ決定に依存し、一致する確率値を必要とするため、明らかな制限があります。したがって、ニューラルネットワークに基づくトレーニング可能な意思決定ネットワークのセットを提案します。混同行列にのみ焦点を当てると、この情報を使用して教師あり決定ネットワークのラベルを生成できます。この方法では、BoW が間違っていて LSTM が正しい場合にのみ LSTM が使用されるようにすることができます。

このデータセットを生成するには、bag-of-words モデルと LSTM によって提供される正しい基礎予測を含む一連の文が必要です。ただし、トレーニング中、LSTM は通常 99% 以上の精度を達成できるため、トレーニングセットのサイズが、より多くの経験を提供するのに十分ではなくなったことを意味します。この状況を回避するために、トレーニングセットをモデルトレーニングセット (トレーニングデータの 80% を含む) と決定トレーニングセット (トレーニングデータの残りの 20% を含む) に分割します。後者は、トレーニングプロセス中にモデルに配信されることはありません。その後、決定トレーニングセットを使用してモデルを詳細に調整し、決定ネットワークがこれまでに出現したことのないこのデータ部分で同様の優れた予測パフォーマンスを発揮することを期待しました。

Bag-of-Words モデルと LSTM は両方とも、最初に「モデルトレーニング」セット (つまり、トレーニングデータの 80%) を使用してトレーニングされます。次に、これら 2 つのモデルは決定ネットワークのラベルを生成し、最後に完全なデータセットを使用してモデルが再トレーニングされます。このプロセス全体を通して、常に同じ検証セットを使用します。

決定ネットワークを構築するために、低コストの bag-of-words システムの最後の隠し層をマイニングしました (これは T-SNE プロットの生成にも使用されました)。この後、モデルトレーニングセットの bag-of-words トレーニングの上に 2 層 MLP を積み重ねます。このアプローチを採用しないと、意思決定ネットワークは BoW モデルの変化する傾向を把握できず、結果を効果的に一般化できないことがわかりました。

下部の青緑色のボックスは、bag-of-words システム (フィルタリングされていない) のレイヤーを表します。その後、その上に 2 層の MLP を積み重ね、bag-of-words モデルと LSTM のどちらを使用するかを決定するクラスを生成します。

モデルトレーニングセットに基づいて決定ネットワークによって選択されたクラスは、トレーニングセット全体に完全に適用されますが、高い相関関係が維持されます。トレーニングセットのモデルは劣っていることが多く、精度が低下するため、トレーニング済みのモデルを完全なトレーニングセットに適用します。検証セットで SUC を最大化した後、決定ネットワークはトレーニングを早期に停止できます。

私たちの意思決定ネットワークはどの程度うまく機能しているでしょうか?

まずはこの決定ネットワークの予測結果を見てみましょう。

データポイントは、以前に Bag of Words モデルを使用したときに作成した T-SNE プロットと同じです。緑の点は bag-of-words モデルによって予測された文を表し、黄色の点は LSTM によって予測された文を表します。

ここで、結果と bag-of-words モデルにおける確率しきい値との類似性に注意する必要があります。ここで、決定ネットワークの最後の隠し層の T-SNE を見て、LSTM 予測が正しいか間違っているかを正確に判断できるかどうかを確認しましょう。

各データポイントは、決定ネットワークの最後の隠し層の文表現に基づいており、検証文から派生しています。色の意味は以前の比較図と一致しています。

決定ネットワークは、実際に、バッグ・オブ・ワード・モデルの隠れた状態からクラスターを抽出できるようです。しかし、LSTM が誤った判断を下す状況 (赤色から黄色のクラスターを抽出する) は検出できないようです。

紫色の曲線は、検証セットに新しく導入された決定ネットワークを表します。決定ネットワークは、確率しきい値に対して類似しているがわずかに異なるソリューションを使用することに注意してください。

時間節約曲線上のデータの精度から判断すると、この決定ネットワークのパフォーマンスが優れているかどうかを判断するのは困難です。

検証セットとテストセットを使用して、BoW または LSTM の離散選択結果を使用するかどうかを決定します。 SUC は、精度と速度のプロットの平均に基づいています。各モデルは異なる材料を使用して 10 回計算されました。表の結果はSUCの平均値です。標準偏差はこの比率からの差に基づいています。

予測プロットから、データ量、精度、SUC スコアに基づいて、決定ネットワークが BoW によって与えられた予測結果が正しいかどうかを正確に判断できるかどうかを判断できます。さらに、これを使用して、ディープラーニングモデルの隠れた状態にアクセスできる、より一般的なシステムを構築することもできます。しかし、結果は、決定ネットワークが、より複雑な LSTM など、アクセスできないシステムの動作を理解するのが難しいことも示しています。