機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

[[327734]]

ユーザーポートレートに基づいた広告は、広告効果を最適化し、精密なマーケティングを実現するための基礎であり、人口統計属性における性別や年齢などのラベルは、ユーザーポートレートの基本情報です。では、データをできるだけ正確にラベル付けするにはどうすればよいでしょうか?

ここで機械学習が役に立ちます。この記事では、性別ラベルを例に、人口属性ラベルを予測するための機械学習モデルの構築と最適化について紹介します。

性別ラベル予測プロセス

一般的に、教師なし学習では有用な情報を学習することが難しいだけでなく、学習効果を評価することも難しくなります。したがって、可能であれば、問題を教師あり学習に変換してみます。

性別ラベルについても同様です。TalkingData によって収集された元のデータから抽出された信頼できる性別サンプルデータと有用な情報を使用して、性別ラベル生成タスクを教師あり機械学習タスクに変換できます。具体的には、男性/女性が 1/0 ラベル (ラベル、Y 値とも呼ばれ、表現の便宜上、男性/女性をそれぞれ 1/0 ラベルとしてマークします) として使用されるため、性別ラベル付けのタスクはバイナリ分類タスクに変換されます。

性別ラベルの生産フローチャートは次のとおりです。

簡単に言えば、入力は信頼できる性別情報を含むサンプルデータであり、最近のアクティブな生データから有用な特徴が抽出されます。
これら 2 つを結合すると、モデリングに直接使用できるデータセットが得られます。
このデータセットに基づいてモデリングを実行し、性別予測モデルを学習します。
次に、モデルを使用してすべてのサンプルを予測し、すべてのサンプルの性別スコアを取得します。この時点で、作品のモデル部分は基本的に完成しています。
最後のステップは、しきい値を決定し、男性/女性のラベルを出力することです。ここでは、しきい値を決定するためにモデルに依存するのではなく、より信頼性の高いサードパーティツールを使用して、できるだけ多くのサンプルが期待される精度で呼び出されるようにします。

また、TalkingData では 10 億を超えるデータ量に直面しており、ラベル作成プロセスでの計算を高速化するために、単一のマシンが必要な場合を除き、分散 Spark を使用して計算を高速化することを優先します。

機能とモデルメソッドのバージョン反復

モデルのパフォーマンスを最適化するために、性別ラベル予測モデルを数回反復しました。

01性別予測モデルV1

モデルで最初に使用される機能には、デバイスアプリケーション情報、SDK に埋め込まれたアプリケーションパッケージ名、SDK に埋め込まれたアプリケーション内のカスタムイベントログ、デバイスモデル情報の 4 つのディメンションが含まれます。

このモデルは Xgboost (バージョン 0.5) を使用し、各次元の特徴に基づいてモデルをトレーニングして 4 つのサブモデルを取得します。各サブモデルは、特徴ディメンションに基づいて、デバイスの男性/女性の向きのスコアを出力します。スコアの範囲は 0 ～ 1 です。スコアが高いということは、デバイスが男性向けであることを意味し、その逆も同様です。モデルコードの例は次のとおりです。

<完全なコードを表示するには左右にスワイプしてください>

 com.talkingdata.utils.LibSVM をインポートします。
 ml.dmlc.xgboost4j.scala.DMatrix をインポートします。
 ml.dmlc.xgboost4j.scala.spark.XGBoost をインポートします //バージョン 0.5 
 
 //列車ステージ
 val trainRDD = LibSVM.loadLibSVMFile(sc, trainPath) // scはSparkContextです
 val モデル = XGBoost.train(trainRDD、paramMap、numRound、nWorkers = ワーカー) 
 
 
 //ステージを予測する
 val testSet = LibSVM.loadLibSVMFilePred(sc,testPath,-1,sc.defaultMinPartitions)
 val pred = testSet.map(_._2).mapPartitions{ iter =>
         モデル.値.予測(新しいDMatrix(iter)).マップ(_.head).toIterator
     }.zip(testSet).map{ケース(pred, (tdid, feature)) =>
         s "$tdid\t$pred"  
     }

欠点と最適化の方向性:

このモデルは 4 つのサブモデルを融合したもので、構造が複雑で動作効率が低いです。代わりに単一のモデルを使用することを検討してください。
SDK に組み込まれたアプリケーションのカスタムイベントログ機能のカバー率が低く、ETL 処理のリソース消費量が大きいため、この分野のモデルへの貢献度を再評価する必要があります。
デバイス名フィールドには男性と女性の区別があるようです。一部のユーザーグループは、自分の名前やニックネームにちなんでデバイスに名前を付けます (たとえば、「哥」や「军」のフィールドは男性である傾向があり、「妹」や「兰」のフィールドは女性である傾向があります)。効果を確認し、このフィールドを追加するかどうかを検討します。

02性別予測モデルV2

モデル使用機能の 4 つの次元が、SDK に埋め込まれたアプリケーションパッケージ名、SDK に埋め込まれたアプリケーション AppKey、デバイスモデル情報、デバイス名に調整されました。

その中で、SDK に埋め込まれているアプリケーションパッケージ名とデバイス名がセグメント化されています。次に、CountVectorizer を使用して上記の 4 種類の特徴をスパースベクトル (Vector) に処理し、ChiSqSelector を使用して特徴をスクリーニングします。

このモデルは LR (ロジスティック回帰) を使用します。コード例は次のとおりです。

<完全なコードを表示するには左右にスワイプしてください>

 org.apache.spark.ml.feature.VectorAssembler をインポートします。
   org.apache.spark.ml.PipelineModel をインポートします。
   org.apache.spark.ml.classification.LogisticRegression をインポートします。 
 
   val transformedDF = spark.read .parquet( "/traindata/path" )//単語分割、CountVectorizer、ChiSqSelector 操作後の機能（ベクトル列） 
 
   val featureCols = Array( "パッケージ名" 、 "アプリキー" 、 "モデル" 、 "デバイス名" )
   val ベクターライザー = 新しい VectorAssembler()。
                     入力列を設定します(featureCols)。
                     setOutputCol( "機能" )
   val lr = 新しいロジスティック回帰()
   val パイプライン = 新しいパイプライン().setStages(Array(vectorizer, lr))
   val モデル = pipeline.fit(変換されたDF) 
 
   //ステージを予測する
   val transformedPredictionDF = spark. read .parquet( "/predictData/path" ) //train と同じ、単語分割、CountVectorizer、ChiSqSelector 処理後の機能、ベクトル列
   val予測 = model.transform(変換された予測DF)

メリットと改善効果：

単一のモデルを使用することで、共通のモデル評価指標 (ROC-AUC、Precision-Recall など) を使用してモデルを測定でき、後続のバージョン反復のベースラインとして使用して、モデルの観点からバージョンの改善を比較しやすくなります。

欠点と最適化の方向性:

LR モデルは比較的単純で、学習能力が限られています。Xgboost モデルなどのより強力なモデルに置き換えられます。

03性別予測モデルV3

このモデルでは、以前のバージョンに含まれていた 4 つのディメンション (SDK に埋め込まれたアプリケーションパッケージ名、SDK に埋め込まれたアプリケーション AppKey、デバイスモデル情報、デバイス名) に加えて、最近集約されたデバイスアプリケーション情報も追加されています。処理方法は以前のバージョンと同様であるため、ここでは繰り返しません。

モデルは LR から Xgboost (バージョン 0.82) に変更されました。コード例は次のとおりです。

<完全なコードを表示するには左右にスワイプしてください>

 org.apache.spark.ml.feature.VectorAssembler をインポートします。
 ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier をインポートします //バージョンは 0.82 です
 
 val transformedDF = spark.read .parquet( "/trainData/path" )//単語分割とCountVectorizer操作後の機能（ベクトル列） 
 
 val featureCols = Array( "パッケージ名" 、 "アプリキー" 、 "モデル" 、 "デバイス名" )
 val ベクターライザー = 新しい VectorAssembler()。
                   入力列を設定します(featureCols)。
                   setOutputCol( "機能" )
 val assembledDF = vectorizer.transform(transformedDF) 
 
 //列車ステージ
 //xgboost パラメータ設定
 val xgbParam = Map( "eta" -> xxx,
 "最大深度" -> xxx,
 「目的」 -> 「バイナリ:ロジスティック」 、
 "num_round" -> xxx,
 「num_workers」 -> xxx)
 val xgbClassifier = 新しい XGBoostClassifier(xgbParam)。
     setFeaturesCol( "機能" )。
     setLabelCol( "ラベル列名" ) 
 
 モデル = xgbClassifier.fit(組み立てられたDF) 
 
 //ステージを予測する
 val transformedPredictionDF = spark. read .parquet( "/predictData/path" ) //train と同じ、単語分割と CountVectorizer 操作後の機能、ベクトル列
 val assembledpredicDF = vectorizer.transform(transformedPredictionDF)
 val予測 = model.transform(assembledpredicDF)

メリットと改善効果：

以前のバージョンと比較すると、AUC は 6.5% 向上し、最終的な性別ラベル生成におけるリコール率は 26% 向上しました。 TalkingData のデータ量は 10 億を超えているため、この数字は依然としてかなりの量です。

04性別予測モデルV4

TalkingData では、以前のバージョンに含まれていた 5 つの特徴ディメンションに加えて、3 つの広告カテゴリディメンションの特徴も追加しました。広告カテゴリの特徴のカバー率はわずか 20% ですが、最終ラベルのリコール率の向上にも大きな影響を与えています。

モデルは Xgboost の DNN に置き換えられ、トレーニングエポックの最大数は 40 に設定され、早期停止パラメータが設定されました。ニューラルネットワークはビッグデータに基づいてのみ機能することを考慮し、ニューラルネットワークの学習を確実にするために、トレーニングに使用するサンプルサイズを 2 倍にしました。

DNN の構造は次のとおりです。

<完全なコードを表示するには左右にスワイプしてください>

パイソン
   ジェンダーネット_VLen(
     (embeddings_appKey): 埋め込み(xxx, 64, padding_idx=0)
     (embeddings_packageName): 埋め込み(xxx, 32, padding_idx=0)
     (embeddings_model): 埋め込み(xxx, 32, padding_idx=0)
     (embeddings_app): 埋め込み(xxx, 512, padding_idx=0)
     (embeddings_deviceName): 埋め込み(xxx, 32, padding_idx=0)
     (embeddings_adt1): 埋め込み(xxx, 16, padding_idx=0)
     (embeddings_adt2): 埋め込み(xxx, 16, padding_idx=0)
     (embeddings_adt3): 埋め込み(xxx, 16, padding_idx=0)
     (fc): シーケンシャル(
       (0): 線形(in_features=720, out_features=64, バイアス= True )
       (1): BatchNorm1d(64, eps=1e-05, momentum=0.1, affine= True , track_running_stats= True )
       (2): ReLU()
       （３）脱落者（p=0.6）
       (4): 線形(in_features=64, out_features=32, バイアス= True )
       (5): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine= True , track_running_stats= True )
       (6): ReLU()
       （7）：脱落者（p=0.6）
       (8): 線形(in_features=32, out_features=16, バイアス= True )
       (9): BatchNorm1d(16, eps=1e-05, momentum=0.1, affine= True , track_running_stats= True )
       (10): ReLU()
       （11）：脱落者（p=0.6）
       (12): 線形(in_features=16, out_features=2, バイアス= True )
     ）
   ）

メリットと改善効果：

以前のバージョンと比較すると、AUC は 1.5% しか増加していませんが、最終的な性別ラベル生成におけるリコール率は 13% 増加しています。データ量と既存のラベル量を考慮すると、この改善は依然として良好です。このことから、バージョン反復の効果を検証する際には、モデルの AUC という単一の指標だけで測定するべきではないことがわかります。これは、バージョン反復の効果の改善度合いを測定するのに十分正確ではないためです。最終的な真の指標の改善、つまり性別ラベル予測において、期待される精度（精度）内で再現されたサンプルの数を検証する必要があります。ただし、バージョンを最適化するときに、AUC などのモデル関連の指標を使用して、制御変数の実験効果をすばやく検証することはできます。結局のところ、これらの指標は計算が簡単です。

モデル探索のヒント

生のログからフィールドを抽出し、それらを情報に集約するには、多くの ETL ステップが必要であり、多くの最適化手法が関係します。この部分は専用の ETL チームによって処理されるため、ここでは詳細に説明しません。

モデルチームは、時間集約後のフィールドをモデリングタスクに直接使用できます。ただし、ETL と機能生成に費やされる時間は、モデルの最適化と反復処理にかかる時間の大部分を占めます。

以下では、皆様の参考になればと思い、2 つの最適化の落とし穴と解決策をまとめました。

1. 性別ラベル予測の場合、入力特徴のほとんどは、最近収集されたデバイスアプリケーション情報などの配列型です。このタイプのフィールドの場合、モデルをトレーニングする前に、通常は CountVectorizer を呼び出して配列をベクトルに変換し、それをモデルの入力として使用します。ただし、CountVectorizer のこの手順は非常に時間がかかるため、バージョンの反復中に実験を迅速に実行することができません。

この問題に対処するには、この変換手順を事前に完了し、生成された Vector 列を保存します。こうすることで、各実験で CountVectorizer が消費する時間を節約できます。

実際の生産では、多くのタグの生産で同じフィールドが使用されるため、配列はベクターに変換され、事前に保存されます。後続のさまざまなタスクはベクター列を直接呼び出すことができるため、多くの時間を節約できます。

2. 最初の方法は多くの時間を節約できますが、実稼働環境では Spark の方がより多く使用されています。実際、モデルの初期段階の調査では、最初に Spark を使用してトレーニングセットを生成することもできます。通常、実際のサンプルはそれほど多くないため、生成されるトレーニングセットはそれほど大きくないことが多く、単一のマシンを使用して迅速な実験を行うことができます。

単一のマシン上で、Python を使用してより便利に図を描き、データをより直感的に理解し、機能のスクリーニングをより速く実行し、アイデアをより速く検証することができます。データとモデルを深く理解した後、実験から得られた結論をすぐに生産に適用できます。

著者について: TalkingData のデータサイエンティストである Zhang Xiaoyan は、現在、エンタープライズレベルのユーザーポートレートプラットフォームの構築と、効率的なマーケティング配信アルゴリズムの研究開発を担当しています。彼女は長年、インターネット広告、ユーザーポートレート、不正検出などの分野に関心を持ってきました。

<<: AIの次の目的地：リアルタイムサービス

>>: 適切な機械学習アルゴリズムを簡単に選択する方法を教えます。