ディープラーニングで構造化データを処理するにはどうすればよいですか?

この投稿では、ディープラーニングのあまり知られていない応用分野である構造化データに焦点を当てます。この記事の著者は、サンフランシスコ大学 (USF) の大学院生である Kerem Turgutlu です。

この記事で説明した手順に従ってディープラーニング手法を使用して構造化データを処理すると、次のような利点があります。

素早い
ドメイン知識は不要
優れたパフォーマンス

機械学習/ディープラーニングやあらゆる種類の予測モデリングタスクでは、まずデータが来て、次にアルゴリズム/メソッドが来ます。これは、画像分類、NLP、その他多くの「非従来型」データ処理など、特定のタスクを解決する前に、一部の機械学習手法で多くの特徴エンジニアリングが必要になる主な理由でもあります。これらのデータは、ロジスティック回帰モデルやランダムフォレストモデルに直接入力して処理することはできません。対照的に、ディープラーニングは、複雑で時間のかかる特徴エンジニアリングを行わなくても、これらのタイプのタスクで優れたパフォーマンスを実現できます。ほとんどの場合、これらの機能にはドメイン知識、創造性、そして多くの試行錯誤が必要です。もちろん、ドメインの専門知識と巧みな特徴エンジニアリングは依然として非常に価値がありますが、この投稿で紹介したテクニックは、ドメインの知識がなくても Kaggle のコンペティションで上位 3 位に入るのに十分です。参照: http://blog.kaggle.com/2016/01/22/rossmann-store-sales-winners-interview-3rd-place-cheng-gui/

図1: かわいい犬と怒った猫

特徴生成の複雑な性質と強力さ（CNN の畳み込み層など）により、ディープラーニングは画像、テキスト、音声データに関連するさまざまな問題に広く使用されてきました。これらの問題は間違いなく人工知能の発展にとって非常に重要であり、この分野のトップ研究者は毎年互いに競い合っており、猫、犬、船の分類などのタスクでは毎年前年よりも成績が向上しています。しかし、実際の業界でのアプリケーションでは、これがほとんど見られません。なぜでしょうか? 企業のデータベースには構造化されたデータが含まれており、それが私たちの日常生活を形作る分野です。

まず、構造化データを定義しましょう。構造化データでは、行は収集されたデータポイントまたは観測値、列は各観測値の個々の属性を表すフィールドと考えることができます。たとえば、オンライン小売店のデータには、顧客の取引イベントを表す列と、購入した商品、数量、価格、タイムスタンプなどの情報を含む列が含まれる場合があります。

以下に販売者のデータをいくつか示します。行は個々の販売イベントを表し、列はこれらの販売イベントに関する情報を示します。

図2: 構造化データを含むパンダデータフレームの例

次に、構造化データタスクにニューラルネットワークを使用する方法について説明します。実際、理論上は、任意のアーキテクチャで完全に接続されたネットワークを作成し、「列」を入力として使用するのは簡単です。いくつかのドット積と損失関数によるバックプロパゲーションを実行すると、予測を行うことができるトレーニング済みのネットワークが得られます。

非常に単純でわかりやすいように見えますが、構造化データを扱う場合には、ニューラルネットワークよりもツリーベースの方法が好まれることが多いです。それはなぜでしょうか? これは、アルゴリズムの観点から、つまりアルゴリズムがデータをどのように扱い、処理するかという観点から理解できます。

構造化データと非構造化データは、人によって処理方法が異なります。非構造化データは「非従来型」ですが、通常はピクセル、ボクセル、オーディオ周波数、レーダー後方散乱、センサー測定値などの単位量の単一のエンティティを扱います。構造化データに関しては、さまざまなデータ型を扱う必要があることがよくあります。これらのデータ型は、数値データとカテゴリデータの 2 つのカテゴリに分類されます。ニューラルネットワークを含むほとんどのアルゴリズムではカテゴリデータを直接処理できないため、トレーニング前にカテゴリデータを前処理する必要があります。

変数をエンコードするためのオプションには、ラベル/値エンコードやワンホットエンコードなど、多数あります。しかし、これらの手法では、カテゴリ階層の記憶と現実的な表現に関して依然として問題が残っています。メモリの問題はより重大な場合があるので、例を使って説明しましょう。

コラムの情報は曜日であると仮定します。この変数にワンホットまたは任意のラベルエンコーディングを使用する場合は、各レベル間に等しく任意の距離/差があると想定する必要があります。

図3: ワンホットエンコーディングとラベルエンコーディング

しかし、これらの方法は両方とも、2 日間の差が等しいと想定していますが、これは明らかに当てはまらないことはわかっており、アルゴリズムもこれを認識している必要があります。

「ニューラルネットワークの連続的な性質により、カテゴリ変数への適用が制限されます。したがって、整数として表されるカテゴリ変数にニューラルネットワークを直接適用すると、良い結果は得られません。」[1]

ツリーベースのアルゴリズムでは、各状態を見つけるために必要に応じて分岐できるため、カテゴリ変数が連続していると想定する必要はありませんが、ニューラルネットワークの場合はそうではありません。エンティティの埋め込みは、この問題の解決に役立ちます。エンティティ埋め込みを使用すると、離散値を、同様の関数出力を持つ値が互いに近くなる多次元空間にマッピングできます。たとえば、売上の問題のために州を国の空間に埋め込むと、類似した州の売上はこの投影された空間内でより近くなります。

カテゴリ変数の階層については仮定を立てたくないので、ユークリッド空間で各カテゴリのより適切な表現を学習します。この表現は単純で、ワンホットエンコーディングと学習可能な重みのドット積に等しくなります。

埋め込みは、各単語をベクトルとして表現できる NLP の分野で非常に幅広く応用されています。 Glove と word2vec は 2 つの有名な埋め込み方法です。図4[2]から埋め込みの威力が分かります。これらのベクターは、目的に合っている限り、自由にダウンロードして使用できます。実際、ベクターに含まれる情報を表現するには最適な方法です。

図4: TensorFlowチュートリアルのword2vec

埋め込みはさまざまなコンテキスト（教師ありおよび教師なしの両方の方法）で使用できますが、私たちの主な目標は、カテゴリ変数に対してこのマッピングを実行する方法を理解することです。

エンティティの埋め込み

「エンティティ埋め込み」の呼び方は人それぞれですが、単語埋め込みで見たユースケースとそれほど違いはありません。結局のところ、私たちが関心を持っているのは、グループ化されたデータの高次元ベクトル表現を持つことだけです。これらのデータは、単語、曜日、国などです。単語埋め込みからメタデータ埋め込み (この場合はカテゴリ) へのこの変換により、Yoshua Bengio らは、通常では勝つことが不可能な単純な自動アプローチを使用して、2015 年の Kaggle コンテストで優勝することができました。参考: https://www.kaggle.com/c/pkdd-15-predict-taxi-service-trajectory-i

「顧客ID、タクシーID、日時情報からなる個別のメタデータを処理するために、モデルを使用して、これらの各情報の埋め込みを共同で学習します。このアプローチは、各単語が固定サイズのベクトル空間（単語埋め込みと呼ばれる）にマッピングされる自然言語モデリング手法[2]に触発されています。[3]

図5: t-SNE 2D投影を使用したタクシーメタデータ埋め込みの視覚化

ニューラルネットワークでこれらの機能を学習する方法を段階的に説明します。完全に接続されたニューラルネットワークを定義し、数値変数とカテゴリ変数を個別に処理します。

各カテゴリ変数について:

1. ランダム埋め込み行列mxDを初期化します。

m: カテゴリ変数の異なるレベルの数 (月曜日、火曜日、...)
D: 表現に必要な次元。1からm-1までの値を取ることができるハイパーパラメータ（ラベルエンコーディングの場合は1、ワンホットエンコーディングの場合はm）

図6: 埋め込み行列

2. 次に、ニューラルネットワークを通過するたびに、埋め込み行列内の特定のラベル (「dow」の場合は Monday など) を検索し、1xD ベクトルを生成します。

図7: 検索後の埋め込みベクトル

3. この 1×D ベクトルを入力ベクトル (数値ベクトル) に追加します。このプロセスは、各特定の行を検索することによって取得される各クラスの埋め込みベクトルを追加する行列拡張と考えることができます。

図8: 埋め込みベクトルを追加した後

4. バックプロパゲーションを実行する際に、損失関数を最小化するために、これらの埋め込みベクトルを勾配方式で更新します。

入力は通常は更新されませんが、埋め込み行列の場合は、勾配をこれらのマップされた特徴に戻し、最適化するという特別なケースがあります。

これは、反復ごとにカテゴリ埋め込みがより適切に表現されるプロセスと考えることができます。

注: 経験則として、カーディナリティがそれほど高くないカテゴリは保持する必要があります。変数の特定のレベルが観測値の 90% を占める場合、その変数は予測値が高くないため、避けた方がよい場合があります。

良いニュース

埋め込みベクトルの検索を実行し、requires_grad=True を許可してそれらを学習することで、上記のアーキテクチャをお気に入りのフレームワーク (できれば動的フレームワーク) に実装できます。しかし、Fast.ai はこれらすべてのステップとそれ以上を達成しました。このライブラリは、構造化ディープラーニングを容易にするだけでなく、差分学習率、SGDR、循環学習率、学習率の検出など、最先端の機能を多数提供します。これらは私たちが活用できる機能です。これらのトピックの詳細については、次のブログをご覧ください。

https://medium.com/@bushaev/improving-the-way-we-work-with-learning-rate-5e99554f163b
https://medium.com/@surmenok/深層ニューラルネットワークの最適学習速度の推定-ce32f2556ce0
https://medium.com/@markkhoffmann/exploring-stochastic-gradient-descent-with-restarts-sgdr-fa206c38a74e

Fast.aiを使用して実装

このセクションでは、上記の手順を実装し、構造化データをより効率的に処理できるニューラルネットワークを構築する方法について説明します。

ここでは、人気のある Kaggle コンペティションを見てみましょう: https://www.kaggle.com/c/mercari-price-suggestion-challenge/。これは、データが主にカテゴリであり、カーディナリティがかなり高く (高すぎず)、それ以外にはあまりないため、エンティティ埋め込みに非常に適した例です。

データ：

約140万行

item_condition_id: 商品の状態（基数: 5）
category_name: カテゴリ名 (カーディナリティ: 1287)
brand_name: ブランド名 (基本: 4809)
送料: 価格に送料が含まれているかどうか (基数: 2)

重要な注意: 最適なモデルパラメータはすでにわかっているので、この例では検証セットは含めませんが、ハイパーパラメータを調整するには検証セットを使用する必要があります。

ステップ1:

欠損値自体も重要な情報なので、欠損値をレイヤーとして追加します。

 train.category_name = train.category_name.fillna( 'missing' ).astype( 'category' )  
 train.brand_name = train.brand_name.fillna( 'missing' ).astype( 'category' )  
 train.item_condition_id = train.item_condition_id.astype( 'カテゴリ' )  
 test.category_name = test.category_name.fillna( 'missing' ).astype( 'category' )  
 test.brand_name = test.brand_name.fillna( 'missing' ).astype( 'category' )  
 test.item_condition_id = test.item_condition_id.astype( 'カテゴリ' )

ステップ2:

ニューラルネットワークは正規化されたデータを好むため、データを前処理し、数値列を比例してスケーリングします。データをスケーリングしないと、すべてがドット積と勾配になるため、ネットワークは 1 つの機能に集中しすぎる可能性があります。トレーニング統計に応じてトレーニングデータとテストデータの両方をスケーリングする方がよいでしょうが、これはあまり重要ではありません。これは各ピクセルの値を 255 で割るのと同じです。

同じレイヤーに同じエンコーディングを適用したいので、トレーニングデータとテストデータを組み合わせました。

 combined_x、combined_y、nas、_ = proc_df(combined、 'price' 、do_scale= True )

ステップ3:

モデルデータオブジェクトを作成します。パスは、Fast.ai がモデルとアクティベーションを保存する場所です。

パス = '../data/'    
 md = ColumnarModelData.from_data_frame(path、test_idx、combined_x、combined_y、cat_flds=cats、bs= 128

ステップ4:

D (埋め込みの次元) を決定します。cat_sz は、各カテゴリ列のタプル (col_name、cardinality+1) のリストです。

 # D（埋め込みの次元）はハイパーパラメータであると言いました 
 # しかし、ジェレミー・ハワードのルールは 親指の 
 emb_szs = [(c, min (50, (c+1)//2)) _,cの場合cat_sz ]  
 # [(6, 3), (1312, 50), (5291, 50), (3, 2)]

ステップ5:

Fast.ai ライブラリのコアオブジェクトである学習者を作成します。

パラメータ: 埋め込みサイズ、数値列の数、埋め込みドロップアウト、出力、レイヤー サイズ、レイヤー ドロップアウト 
 m = md.get_learner(emb_szs, len(combined_x.columns)-len(cats),

ステップ6:

この部分については、先ほど触れた他の記事でさらに詳しく説明しています。

Fast.ai を活用してください。

損失が大きくなり始める前のある時点で、学習率を選択する必要があります...

 # 最適なものを見つける lrm.lr_find() # 最適なものを見つける lrm.sched.plot()

図9: 学習率と損失のグラフ

フィッティング

わずか 3 エポック後に次の結果が得られることがわかります。

 lr = 0.0001m.fit(lr, 3, メトリック=[lrmse])

よりフィット

m.fit(lr, 3, メトリック=[lrmse], cycle_len=1)

その他にもいろいろ…

 m.fit(lr, 2, メトリック=[lrmse], cycle_len=1)

したがって、ほんの数分で、それ以上のアクションをとらなくても、これらのシンプルだが効果的な手順により、上位 10% 程度に入ることができます。本当に高い目標がある場合は、item_description 列を使用して、それを複数のカテゴリ変数として使用することをお勧めします。次に、エンティティの埋め込みに作業を実行させます。もちろん、スタッキングと組み合わせも忘れないでください。

参考文献

[1] Cheng Guo、Felix Berkhahn（2016年4月22日）カテゴリ変数のエンティティ埋め込み。https://arxiv.org/abs/1604.06737から取得。
[2] TensorFlowチュートリアル: https://www.tensorflow.org/tutorials/word2vec
[3] Yoshua Bengio、他「タクシー目的地予測への人工ニューラルネットワークの応用」https://arxiv.org/pdf/1508.00021.pdfより取得。

<<: Google エンジニア: AI テクノロジーにより、5 年以内に人間とコンピューターの会話が実現する

>>: Panda Eats SMS: 機械学習に基づく新しいスパムフィルタリングアプリ

ブログ

ディープラーニングで構造化データを処理するにはどうすればよいですか?

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

MIT の新しい研究: ゼロから設計? AIにより誰もが服をデザインできるようになる

機密コンピューティングが生成型AIの導入を確実にする方法

1 つの記事で AI エージェントテクノロジーを理解する

推薦する

海雲傑迅は人工知能教育分野で総合的なサービスを提供するAI Goを立ち上げようとしている

アコーディオン: HBase メモリ圧縮アルゴリズム

GPT-4 の計算能力不足の問題をどうやって解決するか?小学生のように扱えば、結果は電卓と同じくらい正確であることが保証されます

8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー：吊り下げられた心臓はついに死んだ

アンドリュー・ン：AIはビッグデータから「スモールデータ」に移行する時が来た

機械学習は計算化学研究の発展にどのように役立つのでしょうか?

アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

Andrew Ng 氏へのインタビュー: 今後 10 年間で人工知能はどこに向かうのでしょうか?

ヘルスケアがビッグデータの恩恵を受ける6つの方法