TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

これは7月に発表された新しい論文で、深層学習が表形式データにおける勾配強化モデルを上回ることを可能にすることを目的として、自然言語処理を使用した検索拡張技術を提案しています。

検索強化は NLP の研究方向ですが、検索強化を導入した表形式のディープラーニング モデルの現在の実装では、検索ベースでないモデルと比較して改善がほとんど見られません。そこで論文の著者らは、注意に似た検索コンポーネントを追加することで既存のモデルを改良した新しい TabR モデルを提案しました。この注意メカニズムの詳細により、表形式のデータを使用するタスクのパフォーマンスが大幅に向上すると言われています。 TabR モデルは、平均して表形式データでは他の DL モデルよりも優れており、いくつかのデータセットで新しい標準を設定し、特に GBDT に適していると一般的に考えられているデータセットでは、GBDT モデルを上回る場合もあります。

タブR

表形式のデータセットは通常、特徴とラベルのペア {(xi, yi)} として表されます。ここで、xi と yi はそれぞれ i 番目のオブジェクトの特徴とラベルです。一般的に、タスクにはバイナリ分類、マルチクラス分類、回帰の 3 つの主な種類があります。

表形式のデータの場合、データセットをトレーニング、検証、テストの部分に分割し、モデルは「入力」または「ターゲット」オブジェクトの予測を行います。検索技術を使用する場合、検索は「コンテキスト候補」または「候補」のセットに対して実行され、検索されるオブジェクトは「コンテキスト オブジェクト」または単に「コンテキスト」と呼ばれます。すべての入力オブジェクトに対して同じ候補オブジェクトのセットが使用されます。

この論文の実験設定には、検証セットのパフォーマンスに基づいたハイパーパラメータの調整と早期停止を必要とする調整および評価プロトコルが含まれています。次に、15 個のランダム シードを平均したテスト セットで最適なハイパーパラメータがテストされ、アルゴリズムの比較では標準偏差が考慮されました。

著者らの目標は、従来のフィードフォワード ネットワークに検索機能を統合することです。このプロセスでは、ターゲット オブジェクトとそのコンテキスト候補をエンコーダーに渡し、次にターゲット オブジェクトの検索コンポーネントの表現を渡し、最後に予測子が予測を行います。

エンコーダー モジュールと予測モジュールは作業の焦点では​​ないため、単純なままになっています。検索モジュールは、ターゲット オブジェクトの表現だけでなく、候補オブジェクトの表現とラベルに対しても動作します。このモジュールは、注意メカニズムの一般化されたバージョンとして考えることができます。

このプロセスにはいくつかのステップが含まれます。

  • エンコーダーに少なくとも 1 つのブロックが含まれている場合、表現は正規化されます。
  • ターゲット オブジェクトとの類似性に基づいてコンテキスト オブジェクトを定義します。
  • ソフトマックス関数に基づいてコンテキスト オブジェクトの類似性に重みを割り当てます。
  • コンテキスト オブジェクトの値を定義します。
  • 値と重みを使用して重み付け集計を出力します。

コンテキスト サイズは 96 という大きな値に設定され、softmax 関数によって有効なコンテキスト サイズが自動的に選択されます。

検索モジュールは最も重要な部分です

著者らは、検索モジュール、具体的には類似性モジュールと値モジュールのさまざまな実装を調査します。また、次の手順で最終モデルがどのように取得されるかについても説明します。

1. 著者らは、従来の注意の類似性モジュールと価値モジュールを評価し、その構成が多層パーセプトロン (MLP) に類似していることを発見し、そのため検索コンポーネントの使用を正当化できないことを明らかにしました。

2. その後、研究者らはコンテキスト ラベルを値モジュールに追加しましたが、これによってパフォーマンスが向上しなかったため、従来の注意の類似性モジュールがボトルネックになっている可能性があることが示唆されました。

3. 類似性モジュールを改善するために、著者らはクエリの概念を削除し、ドット積を L2 距離に置き換えました。この調整により、いくつかのデータセットでパフォーマンスが大幅に向上しました。

4. 値モジュールも、最近提案された DNNR (回帰問題用の kNN アルゴリズムの一般化バージョン) に触発されて改良されました。新しい値モジュールにより、パフォーマンスがさらに向上します。

5. 最後に、著者はモデル TabR を作成します。類似性モジュールのスケーリング項を省略し、ターゲット オブジェクトを独自のコンテキストに含めないようにすると (交差注意を使用)、平均的にはより良い結果が得られます。

結果として得られる TabR モデルは、表形式の検索に基づく深層学習の問題に対する堅牢なアプローチを提供します。

著者らは、TabR モデルの 2 つの主な制限についても強調しています。

すべての検索強化モデルと同様に、予測に実際のトレーニング オブジェクトを使用すると、プライバシーや倫理的な懸念など、アプリケーションの観点からいくつかの問題が発生する可能性があります。

TabR の検索コンポーネントは、以前の作業よりも効率的ですが、かなりのオーバーヘッドが発生します。そのため、非常に大規模なデータセットを処理するには、効果的に拡張できない可能性があります。

実験結果

TabR を既存の検索強化ソリューションおよび最先端のパラメトリック モデルと比較します。完全に構成された TabR に加えて、特徴埋め込みを使用せず、線形エンコーダーとブロック予測子のみを備えた簡易バージョンの TabR-S も使用しました。

フルパラメータのディープラーニング モデルとの比較では、TabR がいくつかのデータセットでほとんどのモデルよりも優れており、MI データセットを除くすべてのデータセットで競争力があることが示されています。多くのデータセットにおいて、多層パーセプトロン (MLP) よりも大幅な改善が実現します。

GBDT モデルと比較すると、調整された TabR はいくつかのデータセットで大幅な改善を示し、他のデータセット (MI データセットを除く) でも競争力を維持しており、TabR の平均パフォーマンスも GBDT モデルよりも優れています。

要約すると、TabR は表形式データの問題に対する強力なディープラーニング ソリューションとしての地位を確立し、優れた平均パフォーマンスを示し、いくつかのデータセットで新しいベンチマークを設定しました。検索ベースのアプローチは優れた可能性を示しており、一部のデータセットでは勾配ブースティング決定木を大幅に上回ることができます。

いくつかの研究

1. TabRのトレーニングを高速化するためにコンテキストをフリーズする

TabR の元の実装では、すべての候補をエンコードし、各トレーニング バッチの類似性を計算する必要があるため、大規模なデータセットのトレーニングは遅くなる可能性があります。著者らは、300 万以上のオブジェクトを含む完全な「天気予報」データセットで TabR をトレーニングするには 18 時間以上かかると述べています。

著者らは、トレーニング中、平均トレーニング オブジェクトのコンテキスト (つまり、上位 m 個の候補オブジェクトと類似度モジュール S に従ったそれらの分布) は安定する傾向があり、最適化の機会を提供すると指摘しています。一定数のエポックが経過すると、彼らは「コンテキスト フリーズ」を提案しました。これは、すべてのトレーニング オブジェクトの最新のコンテキストが最後にもう一度計算され、残りのトレーニングに再利用されるというものです。

このシンプルな手法により、メトリックに大きな損失を与えることなく TabR のトレーニングを高速化できます。前述の完全な「天気予報」データセットでは、競争力のある RMSE 値を維持しながら、ほぼ 7 倍の高速化 (トレーニング時間を 18 時間 9 分から 3 時間 15 分に短縮) を達成しています。

2. 再トレーニングなしで新しいトレーニングデータでTabRを更新する(予備調査)

実際のシナリオでは、機械学習モデルがすでにトレーニングされた後に、新しい、見たことのないトレーニング データが受信されることがよくあります。著者らは、新しいデータを候補検索セットに追加することで、再トレーニングを必要とせずに新しいデータを組み込む TabR の能力をテストしました。

彼らは完全な天気予測データセットを使用してこのテストを実行しました。結果は、オンライン更新によって新しいデータをトレーニング済みの TabR モデルに効果的に組み込むことができることを示しています。このアプローチでは、データのサブセットでモデルをトレーニングし、完全なデータセットからモデルを取得することで、TabR をより大きなデータセットに拡張できます。

3. 検索コンポーネントでXGBoostを強化する

著者らは、TabR と同様の検索コンポーネントを組み込むことで、XGBoost のパフォーマンスを向上させようとしました。このアプローチでは、元の特徴空間内の特定の入力オブジェクトに最も近い 96 個のトレーニング オブジェクト (TabR のコンテキスト サイズに一致) を見つけます。次に、これらの最近傍の特徴とラベルを平均化し、回帰タスクではラベルをそのまま取得し、分類タスクでは単一のエンコーディングに変換します。

これらの平均データは、ターゲット オブジェクトの特徴とラベルと連結され、XGBoost の新しい入力ベクトルを形成します。ただし、この戦略では XGBoost のパフォーマンスは大幅に向上しませんでした。隣人の数を変えてみたとしても、大きな改善は得られませんでした。

要約する

ディープラーニング モデルは表形式データにおける勾配強化モデルを上回っておらず、TabR は引き続きこの方向で取り組んでいます。

<<:  人工知能は労働力不足の重要な解決策とみられる

>>:  AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

ブログ    

推薦する

...

Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

人工知能、機械学習、マシンビジョンとは具体的に何でしょうか?顔認識と人工知能の関係は何でしょうか?人...

AIOps の 7 つの主要機能

企業ネットワークが進化し続け、特にデジタル ビジネス アプリケーションへの移行が進むにつれて、サービ...

検索エンジン技術のランキングアルゴリズムを解読する

[[117973]] 1. ページランクPageRank は、世界で最も人気のある検索エンジンである...

クレジットカード詐欺を防ぐために、機械学習アルゴリズムがあなたの身元を認識します

クレジットカード詐欺のリスクは、世界中の銀行のクレジットカード部門を悩ませている問題の一つとなってい...

「アルゴリズム経済」はどのような新しいモデルやトレンドを生み出すのでしょうか?

2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...

人工知能はそれほど信頼できるものではない。システムは「知らないことを知らない」し、アルゴリズムは安全ではない。

[[419993]]文/陳潔人工知能技術は、画像分析から自然言語理解、科学分野に至るまで、現在の科...

アンドリュー・ン氏のチームが2019年のAIトレンドを振り返る:自動運転は寒い冬を迎え、ディープフェイクはモンスターとなった

あと数日で2019年も終わりです。今年は AI が夢から現実へと移り変わる年です。NLP から自動運...

個人情報保護を強力に強化

動物園に行くときは指紋で「チェックイン」する必要があり、家に帰ってコミュニティに入るときも顔をスキャ...

...

企業の78%が2022年までにAIを主要な収益源と見なしている

SambaNova Systems が調査した企業の大多数は、2022 年までに AI を主要な収...

Minecraft でニューラル ネットワークを構築し、操作プロセスを明確に表示する | オープン ソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...

AIチャットボット、欲しいですか?

チャットボットが追加されると、顧客からの問い合わせに24時間対応できるようになるため、革命的な変化が...

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...