TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

これは7月に発表された新しい論文で、深層学習が表形式データにおける勾配強化モデルを上回ることを可能にすることを目的として、自然言語処理を使用した検索拡張技術を提案しています。

検索強化は NLP の研究方向ですが、検索強化を導入した表形式のディープラーニング モデルの現在の実装では、検索ベースでないモデルと比較して改善がほとんど見られません。そこで論文の著者らは、注意に似た検索コンポーネントを追加することで既存のモデルを改良した新しい TabR モデルを提案しました。この注意メカニズムの詳細により、表形式のデータを使用するタスクのパフォーマンスが大幅に向上すると言われています。 TabR モデルは、平均して表形式データでは他の DL モデルよりも優れており、いくつかのデータセットで新しい標準を設定し、特に GBDT に適していると一般的に考えられているデータセットでは、GBDT モデルを上回る場合もあります。

タブR

表形式のデータセットは通常、特徴とラベルのペア {(xi, yi)} として表されます。ここで、xi と yi はそれぞれ i 番目のオブジェクトの特徴とラベルです。一般的に、タスクにはバイナリ分類、マルチクラス分類、回帰の 3 つの主な種類があります。

表形式のデータの場合、データセットをトレーニング、検証、テストの部分に分割し、モデルは「入力」または「ターゲット」オブジェクトの予測を行います。検索技術を使用する場合、検索は「コンテキスト候補」または「候補」のセットに対して実行され、検索されるオブジェクトは「コンテキスト オブジェクト」または単に「コンテキスト」と呼ばれます。すべての入力オブジェクトに対して同じ候補オブジェクトのセットが使用されます。

この論文の実験設定には、検証セットのパフォーマンスに基づいたハイパーパラメータの調整と早期停止を必要とする調整および評価プロトコルが含まれています。次に、15 個のランダム シードを平均したテスト セットで最適なハイパーパラメータがテストされ、アルゴリズムの比較では標準偏差が考慮されました。

著者らの目標は、従来のフィードフォワード ネットワークに検索機能を統合することです。このプロセスでは、ターゲット オブジェクトとそのコンテキスト候補をエンコーダーに渡し、次にターゲット オブジェクトの検索コンポーネントの表現を渡し、最後に予測子が予測を行います。

エンコーダー モジュールと予測モジュールは作業の焦点では​​ないため、単純なままになっています。検索モジュールは、ターゲット オブジェクトの表現だけでなく、候補オブジェクトの表現とラベルに対しても動作します。このモジュールは、注意メカニズムの一般化されたバージョンとして考えることができます。

このプロセスにはいくつかのステップが含まれます。

  • エンコーダーに少なくとも 1 つのブロックが含まれている場合、表現は正規化されます。
  • ターゲット オブジェクトとの類似性に基づいてコンテキスト オブジェクトを定義します。
  • ソフトマックス関数に基づいてコンテキスト オブジェクトの類似性に重みを割り当てます。
  • コンテキスト オブジェクトの値を定義します。
  • 値と重みを使用して重み付け集計を出力します。

コンテキスト サイズは 96 という大きな値に設定され、softmax 関数によって有効なコンテキスト サイズが自動的に選択されます。

検索モジュールは最も重要な部分です

著者らは、検索モジュール、具体的には類似性モジュールと値モジュールのさまざまな実装を調査します。また、次の手順で最終モデルがどのように取得されるかについても説明します。

1. 著者らは、従来の注意の類似性モジュールと価値モジュールを評価し、その構成が多層パーセプトロン (MLP) に類似していることを発見し、そのため検索コンポーネントの使用を正当化できないことを明らかにしました。

2. その後、研究者らはコンテキスト ラベルを値モジュールに追加しましたが、これによってパフォーマンスが向上しなかったため、従来の注意の類似性モジュールがボトルネックになっている可能性があることが示唆されました。

3. 類似性モジュールを改善するために、著者らはクエリの概念を削除し、ドット積を L2 距離に置き換えました。この調整により、いくつかのデータセットでパフォーマンスが大幅に向上しました。

4. 値モジュールも、最近提案された DNNR (回帰問題用の kNN アルゴリズムの一般化バージョン) に触発されて改良されました。新しい値モジュールにより、パフォーマンスがさらに向上します。

5. 最後に、著者はモデル TabR を作成します。類似性モジュールのスケーリング項を省略し、ターゲット オブジェクトを独自のコンテキストに含めないようにすると (交差注意を使用)、平均的にはより良い結果が得られます。

結果として得られる TabR モデルは、表形式の検索に基づく深層学習の問題に対する堅牢なアプローチを提供します。

著者らは、TabR モデルの 2 つの主な制限についても強調しています。

すべての検索強化モデルと同様に、予測に実際のトレーニング オブジェクトを使用すると、プライバシーや倫理的な懸念など、アプリケーションの観点からいくつかの問題が発生する可能性があります。

TabR の検索コンポーネントは、以前の作業よりも効率的ですが、かなりのオーバーヘッドが発生します。そのため、非常に大規模なデータセットを処理するには、効果的に拡張できない可能性があります。

実験結果

TabR を既存の検索強化ソリューションおよび最先端のパラメトリック モデルと比較します。完全に構成された TabR に加えて、特徴埋め込みを使用せず、線形エンコーダーとブロック予測子のみを備えた簡易バージョンの TabR-S も使用しました。

フルパラメータのディープラーニング モデルとの比較では、TabR がいくつかのデータセットでほとんどのモデルよりも優れており、MI データセットを除くすべてのデータセットで競争力があることが示されています。多くのデータセットにおいて、多層パーセプトロン (MLP) よりも大幅な改善が実現します。

GBDT モデルと比較すると、調整された TabR はいくつかのデータセットで大幅な改善を示し、他のデータセット (MI データセットを除く) でも競争力を維持しており、TabR の平均パフォーマンスも GBDT モデルよりも優れています。

要約すると、TabR は表形式データの問題に対する強力なディープラーニング ソリューションとしての地位を確立し、優れた平均パフォーマンスを示し、いくつかのデータセットで新しいベンチマークを設定しました。検索ベースのアプローチは優れた可能性を示しており、一部のデータセットでは勾配ブースティング決定木を大幅に上回ることができます。

いくつかの研究

1. TabRのトレーニングを高速化するためにコンテキストをフリーズする

TabR の元の実装では、すべての候補をエンコードし、各トレーニング バッチの類似性を計算する必要があるため、大規模なデータセットのトレーニングは遅くなる可能性があります。著者らは、300 万以上のオブジェクトを含む完全な「天気予報」データセットで TabR をトレーニングするには 18 時間以上かかると述べています。

著者らは、トレーニング中、平均トレーニング オブジェクトのコンテキスト (つまり、上位 m 個の候補オブジェクトと類似度モジュール S に従ったそれらの分布) は安定する傾向があり、最適化の機会を提供すると指摘しています。一定数のエポックが経過すると、彼らは「コンテキスト フリーズ」を提案しました。これは、すべてのトレーニング オブジェクトの最新のコンテキストが最後にもう一度計算され、残りのトレーニングに再利用されるというものです。

このシンプルな手法により、メトリックに大きな損失を与えることなく TabR のトレーニングを高速化できます。前述の完全な「天気予報」データセットでは、競争力のある RMSE 値を維持しながら、ほぼ 7 倍の高速化 (トレーニング時間を 18 時間 9 分から 3 時間 15 分に短縮) を達成しています。

2. 再トレーニングなしで新しいトレーニングデータでTabRを更新する(予備調査)

実際のシナリオでは、機械学習モデルがすでにトレーニングされた後に、新しい、見たことのないトレーニング データが受信されることがよくあります。著者らは、新しいデータを候補検索セットに追加することで、再トレーニングを必要とせずに新しいデータを組み込む TabR の能力をテストしました。

彼らは完全な天気予測データセットを使用してこのテストを実行しました。結果は、オンライン更新によって新しいデータをトレーニング済みの TabR モデルに効果的に組み込むことができることを示しています。このアプローチでは、データのサブセットでモデルをトレーニングし、完全なデータセットからモデルを取得することで、TabR をより大きなデータセットに拡張できます。

3. 検索コンポーネントでXGBoostを強化する

著者らは、TabR と同様の検索コンポーネントを組み込むことで、XGBoost のパフォーマンスを向上させようとしました。このアプローチでは、元の特徴空間内の特定の入力オブジェクトに最も近い 96 個のトレーニング オブジェクト (TabR のコンテキスト サイズに一致) を見つけます。次に、これらの最近傍の特徴とラベルを平均化し、回帰タスクではラベルをそのまま取得し、分類タスクでは単一のエンコーディングに変換します。

これらの平均データは、ターゲット オブジェクトの特徴とラベルと連結され、XGBoost の新しい入力ベクトルを形成します。ただし、この戦略では XGBoost のパフォーマンスは大幅に向上しませんでした。隣人の数を変えてみたとしても、大きな改善は得られませんでした。

要約する

ディープラーニング モデルは表形式データにおける勾配強化モデルを上回っておらず、TabR は引き続きこの方向で取り組んでいます。

<<:  人工知能は労働力不足の重要な解決策とみられる

>>:  AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

ブログ    

推薦する

生成 AI は岐路に立っています。次の波はどこから来るのでしょうか?

生成 AI は、特にビジネスの世界でますます人気が高まっています。ウォルマートはつい最近、店舗外の従...

CPU と比較して、GPU がディープラーニングに適しているのはなぜですか?

1. CPUとGPUの比較CPUは複数の機能を備えた優れたリーダーです。その利点は、強力なスケジュ...

ガートナー:世界の会話型 AI 支出は 2023 年に 186 億ドルに達すると予測

8月1日、ガートナーの最新レポートによると、カスタマーサービスセンター(CC)テクノロジー、会話型A...

農業における人工知能の応用

農業は人類の生存の基盤であり、第三次産業の中核的位置を占め、経済社会の安定と発展に極めて重要な産業で...

...

生成 AI が流行する中、コンプライアンス計画にはどのような変化が見られるのでしょうか?

消費者のショッピング嗜好を予測したり、軍事上の意思決定を導いたり、金融犯罪に関する独自の洞察を提供し...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...

この式がブロックされると、AI IQはゼロになります

[[214770]]この記事はQuantum School(WeChat:quantumschool...

人工知能革命は雇用を創出するのか、それとも雇用を破壊するのか?

技術革命への懸念私たちは技術革命を心配すべきでしょうか、それとも期待すべきでしょうか。一方では、技術...

1.9k の星を獲得した LLM 微調整ツール Lamini は高速かつ強力で、無料で利用可能

LLM の微調整は、複雑な問題から、継続的な技術改善を通じてアクセス可能な問題へと変化しました。さて...

...

...

...

...