TabR: 検索拡張により、深層学習は表形式データで勾配ブースティングモデルを上回るパフォーマンスを発揮できるようになりますか?

これは7月に発表された新しい論文で、深層学習が表形式データにおける勾配強化モデルを上回ることを可能にすることを目的として、自然言語処理を使用した検索拡張技術を提案しています。

検索強化は NLP の研究方向ですが、検索強化を導入した表形式のディープラーニングモデルの現在の実装では、検索ベースでないモデルと比較して改善がほとんど見られません。そこで論文の著者らは、注意に似た検索コンポーネントを追加することで既存のモデルを改良した新しい TabR モデルを提案しました。この注意メカニズムの詳細により、表形式のデータを使用するタスクのパフォーマンスが大幅に向上すると言われています。 TabR モデルは、平均して表形式データでは他の DL モデルよりも優れており、いくつかのデータセットで新しい標準を設定し、特に GBDT に適していると一般的に考えられているデータセットでは、GBDT モデルを上回る場合もあります。

タブR

表形式のデータセットは通常、特徴とラベルのペア {(xi, yi)} として表されます。ここで、xi と yi はそれぞれ i 番目のオブジェクトの特徴とラベルです。一般的に、タスクにはバイナリ分類、マルチクラス分類、回帰の 3 つの主な種類があります。

表形式のデータの場合、データセットをトレーニング、検証、テストの部分に分割し、モデルは「入力」または「ターゲット」オブジェクトの予測を行います。検索技術を使用する場合、検索は「コンテキスト候補」または「候補」のセットに対して実行され、検索されるオブジェクトは「コンテキストオブジェクト」または単に「コンテキスト」と呼ばれます。すべての入力オブジェクトに対して同じ候補オブジェクトのセットが使用されます。

この論文の実験設定には、検証セットのパフォーマンスに基づいたハイパーパラメータの調整と早期停止を必要とする調整および評価プロトコルが含まれています。次に、15 個のランダムシードを平均したテストセットで最適なハイパーパラメータがテストされ、アルゴリズムの比較では標準偏差が考慮されました。

著者らの目標は、従来のフィードフォワードネットワークに検索機能を統合することです。このプロセスでは、ターゲットオブジェクトとそのコンテキスト候補をエンコーダーに渡し、次にターゲットオブジェクトの検索コンポーネントの表現を渡し、最後に予測子が予測を行います。

エンコーダーモジュールと予測モジュールは作業の焦点ではないため、単純なままになっています。検索モジュールは、ターゲットオブジェクトの表現だけでなく、候補オブジェクトの表現とラベルに対しても動作します。このモジュールは、注意メカニズムの一般化されたバージョンとして考えることができます。

このプロセスにはいくつかのステップが含まれます。

エンコーダーに少なくとも 1 つのブロックが含まれている場合、表現は正規化されます。
ターゲットオブジェクトとの類似性に基づいてコンテキストオブジェクトを定義します。
ソフトマックス関数に基づいてコンテキストオブジェクトの類似性に重みを割り当てます。
コンテキストオブジェクトの値を定義します。
値と重みを使用して重み付け集計を出力します。

コンテキストサイズは 96 という大きな値に設定され、softmax 関数によって有効なコンテキストサイズが自動的に選択されます。

検索モジュールは最も重要な部分です

著者らは、検索モジュール、具体的には類似性モジュールと値モジュールのさまざまな実装を調査します。また、次の手順で最終モデルがどのように取得されるかについても説明します。

1. 著者らは、従来の注意の類似性モジュールと価値モジュールを評価し、その構成が多層パーセプトロン (MLP) に類似していることを発見し、そのため検索コンポーネントの使用を正当化できないことを明らかにしました。

2. その後、研究者らはコンテキストラベルを値モジュールに追加しましたが、これによってパフォーマンスが向上しなかったため、従来の注意の類似性モジュールがボトルネックになっている可能性があることが示唆されました。

3. 類似性モジュールを改善するために、著者らはクエリの概念を削除し、ドット積を L2 距離に置き換えました。この調整により、いくつかのデータセットでパフォーマンスが大幅に向上しました。

4. 値モジュールも、最近提案された DNNR (回帰問題用の kNN アルゴリズムの一般化バージョン) に触発されて改良されました。新しい値モジュールにより、パフォーマンスがさらに向上します。

5. 最後に、著者はモデル TabR を作成します。類似性モジュールのスケーリング項を省略し、ターゲットオブジェクトを独自のコンテキストに含めないようにすると (交差注意を使用)、平均的にはより良い結果が得られます。

結果として得られる TabR モデルは、表形式の検索に基づく深層学習の問題に対する堅牢なアプローチを提供します。

著者らは、TabR モデルの 2 つの主な制限についても強調しています。

すべての検索強化モデルと同様に、予測に実際のトレーニングオブジェクトを使用すると、プライバシーや倫理的な懸念など、アプリケーションの観点からいくつかの問題が発生する可能性があります。

TabR の検索コンポーネントは、以前の作業よりも効率的ですが、かなりのオーバーヘッドが発生します。そのため、非常に大規模なデータセットを処理するには、効果的に拡張できない可能性があります。

実験結果

TabR を既存の検索強化ソリューションおよび最先端のパラメトリックモデルと比較します。完全に構成された TabR に加えて、特徴埋め込みを使用せず、線形エンコーダーとブロック予測子のみを備えた簡易バージョンの TabR-S も使用しました。

フルパラメータのディープラーニングモデルとの比較では、TabR がいくつかのデータセットでほとんどのモデルよりも優れており、MI データセットを除くすべてのデータセットで競争力があることが示されています。多くのデータセットにおいて、多層パーセプトロン (MLP) よりも大幅な改善が実現します。

GBDT モデルと比較すると、調整された TabR はいくつかのデータセットで大幅な改善を示し、他のデータセット (MI データセットを除く) でも競争力を維持しており、TabR の平均パフォーマンスも GBDT モデルよりも優れています。

要約すると、TabR は表形式データの問題に対する強力なディープラーニングソリューションとしての地位を確立し、優れた平均パフォーマンスを示し、いくつかのデータセットで新しいベンチマークを設定しました。検索ベースのアプローチは優れた可能性を示しており、一部のデータセットでは勾配ブースティング決定木を大幅に上回ることができます。

いくつかの研究

1. TabRのトレーニングを高速化するためにコンテキストをフリーズする

TabR の元の実装では、すべての候補をエンコードし、各トレーニングバッチの類似性を計算する必要があるため、大規模なデータセットのトレーニングは遅くなる可能性があります。著者らは、300 万以上のオブジェクトを含む完全な「天気予報」データセットで TabR をトレーニングするには 18 時間以上かかると述べています。

著者らは、トレーニング中、平均トレーニングオブジェクトのコンテキスト (つまり、上位 m 個の候補オブジェクトと類似度モジュール S に従ったそれらの分布) は安定する傾向があり、最適化の機会を提供すると指摘しています。一定数のエポックが経過すると、彼らは「コンテキストフリーズ」を提案しました。これは、すべてのトレーニングオブジェクトの最新のコンテキストが最後にもう一度計算され、残りのトレーニングに再利用されるというものです。

このシンプルな手法により、メトリックに大きな損失を与えることなく TabR のトレーニングを高速化できます。前述の完全な「天気予報」データセットでは、競争力のある RMSE 値を維持しながら、ほぼ 7 倍の高速化 (トレーニング時間を 18 時間 9 分から 3 時間 15 分に短縮) を達成しています。

2. 再トレーニングなしで新しいトレーニングデータでTabRを更新する（予備調査）

実際のシナリオでは、機械学習モデルがすでにトレーニングされた後に、新しい、見たことのないトレーニングデータが受信されることがよくあります。著者らは、新しいデータを候補検索セットに追加することで、再トレーニングを必要とせずに新しいデータを組み込む TabR の能力をテストしました。

彼らは完全な天気予測データセットを使用してこのテストを実行しました。結果は、オンライン更新によって新しいデータをトレーニング済みの TabR モデルに効果的に組み込むことができることを示しています。このアプローチでは、データのサブセットでモデルをトレーニングし、完全なデータセットからモデルを取得することで、TabR をより大きなデータセットに拡張できます。

3. 検索コンポーネントでXGBoostを強化する

著者らは、TabR と同様の検索コンポーネントを組み込むことで、XGBoost のパフォーマンスを向上させようとしました。このアプローチでは、元の特徴空間内の特定の入力オブジェクトに最も近い 96 個のトレーニングオブジェクト (TabR のコンテキストサイズに一致) を見つけます。次に、これらの最近傍の特徴とラベルを平均化し、回帰タスクではラベルをそのまま取得し、分類タスクでは単一のエンコーディングに変換します。

これらの平均データは、ターゲットオブジェクトの特徴とラベルと連結され、XGBoost の新しい入力ベクトルを形成します。ただし、この戦略では XGBoost のパフォーマンスは大幅に向上しませんでした。隣人の数を変えてみたとしても、大きな改善は得られませんでした。