TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

これは7月に発表された新しい論文で、深層学習が表形式データにおける勾配強化モデルを上回ることを可能にすることを目的として、自然言語処理を使用した検索拡張技術を提案しています。

検索強化は NLP の研究方向ですが、検索強化を導入した表形式のディープラーニング モデルの現在の実装では、検索ベースでないモデルと比較して改善がほとんど見られません。そこで論文の著者らは、注意に似た検索コンポーネントを追加することで既存のモデルを改良した新しい TabR モデルを提案しました。この注意メカニズムの詳細により、表形式のデータを使用するタスクのパフォーマンスが大幅に向上すると言われています。 TabR モデルは、平均して表形式データでは他の DL モデルよりも優れており、いくつかのデータセットで新しい標準を設定し、特に GBDT に適していると一般的に考えられているデータセットでは、GBDT モデルを上回る場合もあります。

タブR

表形式のデータセットは通常、特徴とラベルのペア {(xi, yi)} として表されます。ここで、xi と yi はそれぞれ i 番目のオブジェクトの特徴とラベルです。一般的に、タスクにはバイナリ分類、マルチクラス分類、回帰の 3 つの主な種類があります。

表形式のデータの場合、データセットをトレーニング、検証、テストの部分に分割し、モデルは「入力」または「ターゲット」オブジェクトの予測を行います。検索技術を使用する場合、検索は「コンテキスト候補」または「候補」のセットに対して実行され、検索されるオブジェクトは「コンテキスト オブジェクト」または単に「コンテキスト」と呼ばれます。すべての入力オブジェクトに対して同じ候補オブジェクトのセットが使用されます。

この論文の実験設定には、検証セットのパフォーマンスに基づいたハイパーパラメータの調整と早期停止を必要とする調整および評価プロトコルが含まれています。次に、15 個のランダム シードを平均したテスト セットで最適なハイパーパラメータがテストされ、アルゴリズムの比較では標準偏差が考慮されました。

著者らの目標は、従来のフィードフォワード ネットワークに検索機能を統合することです。このプロセスでは、ターゲット オブジェクトとそのコンテキスト候補をエンコーダーに渡し、次にターゲット オブジェクトの検索コンポーネントの表現を渡し、最後に予測子が予測を行います。

エンコーダー モジュールと予測モジュールは作業の焦点では​​ないため、単純なままになっています。検索モジュールは、ターゲット オブジェクトの表現だけでなく、候補オブジェクトの表現とラベルに対しても動作します。このモジュールは、注意メカニズムの一般化されたバージョンとして考えることができます。

このプロセスにはいくつかのステップが含まれます。

  • エンコーダーに少なくとも 1 つのブロックが含まれている場合、表現は正規化されます。
  • ターゲット オブジェクトとの類似性に基づいてコンテキスト オブジェクトを定義します。
  • ソフトマックス関数に基づいてコンテキスト オブジェクトの類似性に重みを割り当てます。
  • コンテキスト オブジェクトの値を定義します。
  • 値と重みを使用して重み付け集計を出力します。

コンテキスト サイズは 96 という大きな値に設定され、softmax 関数によって有効なコンテキスト サイズが自動的に選択されます。

検索モジュールは最も重要な部分です

著者らは、検索モジュール、具体的には類似性モジュールと値モジュールのさまざまな実装を調査します。また、次の手順で最終モデルがどのように取得されるかについても説明します。

1. 著者らは、従来の注意の類似性モジュールと価値モジュールを評価し、その構成が多層パーセプトロン (MLP) に類似していることを発見し、そのため検索コンポーネントの使用を正当化できないことを明らかにしました。

2. その後、研究者らはコンテキスト ラベルを値モジュールに追加しましたが、これによってパフォーマンスが向上しなかったため、従来の注意の類似性モジュールがボトルネックになっている可能性があることが示唆されました。

3. 類似性モジュールを改善するために、著者らはクエリの概念を削除し、ドット積を L2 距離に置き換えました。この調整により、いくつかのデータセットでパフォーマンスが大幅に向上しました。

4. 値モジュールも、最近提案された DNNR (回帰問題用の kNN アルゴリズムの一般化バージョン) に触発されて改良されました。新しい値モジュールにより、パフォーマンスがさらに向上します。

5. 最後に、著者はモデル TabR を作成します。類似性モジュールのスケーリング項を省略し、ターゲット オブジェクトを独自のコンテキストに含めないようにすると (交差注意を使用)、平均的にはより良い結果が得られます。

結果として得られる TabR モデルは、表形式の検索に基づく深層学習の問題に対する堅牢なアプローチを提供します。

著者らは、TabR モデルの 2 つの主な制限についても強調しています。

すべての検索強化モデルと同様に、予測に実際のトレーニング オブジェクトを使用すると、プライバシーや倫理的な懸念など、アプリケーションの観点からいくつかの問題が発生する可能性があります。

TabR の検索コンポーネントは、以前の作業よりも効率的ですが、かなりのオーバーヘッドが発生します。そのため、非常に大規模なデータセットを処理するには、効果的に拡張できない可能性があります。

実験結果

TabR を既存の検索強化ソリューションおよび最先端のパラメトリック モデルと比較します。完全に構成された TabR に加えて、特徴埋め込みを使用せず、線形エンコーダーとブロック予測子のみを備えた簡易バージョンの TabR-S も使用しました。

フルパラメータのディープラーニング モデルとの比較では、TabR がいくつかのデータセットでほとんどのモデルよりも優れており、MI データセットを除くすべてのデータセットで競争力があることが示されています。多くのデータセットにおいて、多層パーセプトロン (MLP) よりも大幅な改善が実現します。

GBDT モデルと比較すると、調整された TabR はいくつかのデータセットで大幅な改善を示し、他のデータセット (MI データセットを除く) でも競争力を維持しており、TabR の平均パフォーマンスも GBDT モデルよりも優れています。

要約すると、TabR は表形式データの問題に対する強力なディープラーニング ソリューションとしての地位を確立し、優れた平均パフォーマンスを示し、いくつかのデータセットで新しいベンチマークを設定しました。検索ベースのアプローチは優れた可能性を示しており、一部のデータセットでは勾配ブースティング決定木を大幅に上回ることができます。

いくつかの研究

1. TabRのトレーニングを高速化するためにコンテキストをフリーズする

TabR の元の実装では、すべての候補をエンコードし、各トレーニング バッチの類似性を計算する必要があるため、大規模なデータセットのトレーニングは遅くなる可能性があります。著者らは、300 万以上のオブジェクトを含む完全な「天気予報」データセットで TabR をトレーニングするには 18 時間以上かかると述べています。

著者らは、トレーニング中、平均トレーニング オブジェクトのコンテキスト (つまり、上位 m 個の候補オブジェクトと類似度モジュール S に従ったそれらの分布) は安定する傾向があり、最適化の機会を提供すると指摘しています。一定数のエポックが経過すると、彼らは「コンテキスト フリーズ」を提案しました。これは、すべてのトレーニング オブジェクトの最新のコンテキストが最後にもう一度計算され、残りのトレーニングに再利用されるというものです。

このシンプルな手法により、メトリックに大きな損失を与えることなく TabR のトレーニングを高速化できます。前述の完全な「天気予報」データセットでは、競争力のある RMSE 値を維持しながら、ほぼ 7 倍の高速化 (トレーニング時間を 18 時間 9 分から 3 時間 15 分に短縮) を達成しています。

2. 再トレーニングなしで新しいトレーニングデータでTabRを更新する(予備調査)

実際のシナリオでは、機械学習モデルがすでにトレーニングされた後に、新しい、見たことのないトレーニング データが受信されることがよくあります。著者らは、新しいデータを候補検索セットに追加することで、再トレーニングを必要とせずに新しいデータを組み込む TabR の能力をテストしました。

彼らは完全な天気予測データセットを使用してこのテストを実行しました。結果は、オンライン更新によって新しいデータをトレーニング済みの TabR モデルに効果的に組み込むことができることを示しています。このアプローチでは、データのサブセットでモデルをトレーニングし、完全なデータセットからモデルを取得することで、TabR をより大きなデータセットに拡張できます。

3. 検索コンポーネントでXGBoostを強化する

著者らは、TabR と同様の検索コンポーネントを組み込むことで、XGBoost のパフォーマンスを向上させようとしました。このアプローチでは、元の特徴空間内の特定の入力オブジェクトに最も近い 96 個のトレーニング オブジェクト (TabR のコンテキスト サイズに一致) を見つけます。次に、これらの最近傍の特徴とラベルを平均化し、回帰タスクではラベルをそのまま取得し、分類タスクでは単一のエンコーディングに変換します。

これらの平均データは、ターゲット オブジェクトの特徴とラベルと連結され、XGBoost の新しい入力ベクトルを形成します。ただし、この戦略では XGBoost のパフォーマンスは大幅に向上しませんでした。隣人の数を変えてみたとしても、大きな改善は得られませんでした。

要約する

ディープラーニング モデルは表形式データにおける勾配強化モデルを上回っておらず、TabR は引き続きこの方向で取り組んでいます。

<<:  人工知能は労働力不足の重要な解決策とみられる

>>:  AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

ブログ    

推薦する

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコ...

AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!

AI による自動プログラミングを可能にすることは、人工知能分野における長年の夢の 1 つです。現在...

文書翻訳における人工知能: 効率化の新時代

今日、言語を超えた効果的なコミュニケーションはこれまで以上に重要になっています。企業が新しい市場に進...

...

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...

...

ICML賞を受賞したばかりの機械学習の専門家マックス・ウェリング氏がマイクロソフトに入社し、分子シミュレーションに注力

[[412546]]量子コンピューティング + 機械学習は分子シミュレーションの分野でどのような火花...

いくつかの小さな図でディープラーニングを徹底的に説明します

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

人工知能を背景とした公共読書空間の探究と創造

5Gネットワ​​ークの発展と人工知能アプリケーションの人気の高まりにより、スマート無人書店の出現は、...

2大音声アシスタントであるAlexaとCortanaの融合の目的は何でしょうか?

[[201743]] BI中国語ウェブサイトが8月31日に報じた。水曜日、アマゾンとマイクロソフト...

...

顔認識技術の新たな進歩:自閉症やADHDを検出できる

[[187357]]顔の表情や頭の動きから自閉症やADHDの患者を識別できる新しいコンピューターアル...

...

JS を使用して複数の画像類似性アルゴリズムを実装する

検索分野では、Google画像検索、Baidu画像検索、Taobaoの商品写真検索など、「類似画像・...

...