ユーザーポートレートに基づいた広告は、広告効果を最適化し、精密なマーケティングを実現するための基礎であり、人口統計属性における性別や年齢などのラベルは、ユーザーポートレートの基本情報です。では、データをできるだけ正確にラベル付けするにはどうすればよいでしょうか? ここで機械学習が役に立ちます。この記事では、性別ラベルを例に、人口属性ラベルを予測するための機械学習モデルの構築と最適化について紹介します。 性別ラベル予測プロセス一般的に、教師なし学習では有用な情報を学習することが難しいだけでなく、学習効果を評価することも難しくなります。したがって、可能であれば、問題を教師あり学習に変換してみます。 性別ラベルについても同様です。TalkingData によって収集された元のデータから抽出された信頼できる性別サンプル データと有用な情報を使用して、性別ラベル生成タスクを教師あり機械学習タスクに変換できます。具体的には、男性/女性が 1/0 ラベル (ラベル、Y 値とも呼ばれ、表現の便宜上、男性/女性をそれぞれ 1/0 ラベルとしてマークします) として使用されるため、性別ラベル付けのタスクはバイナリ分類タスクに変換されます。 性別ラベルの生産フローチャートは次のとおりです。
また、TalkingData では 10 億を超えるデータ量に直面しており、ラベル作成プロセスでの計算を高速化するために、単一のマシンが必要な場合を除き、分散 Spark を使用して計算を高速化することを優先します。 機能とモデルメソッドのバージョン反復モデルのパフォーマンスを最適化するために、性別ラベル予測モデルを数回反復しました。 01性別予測モデルV1モデルで最初に使用される機能には、デバイス アプリケーション情報、SDK に埋め込まれたアプリケーション パッケージ名、SDK に埋め込まれたアプリケーション内のカスタム イベント ログ、デバイス モデル情報の 4 つのディメンションが含まれます。 このモデルは Xgboost (バージョン 0.5) を使用し、各次元の特徴に基づいてモデルをトレーニングして 4 つのサブモデルを取得します。各サブモデルは、特徴ディメンションに基づいて、デバイスの男性/女性の向きのスコアを出力します。スコアの範囲は 0 ~ 1 です。スコアが高いということは、デバイスが男性向けであることを意味し、その逆も同様です。モデルコードの例は次のとおりです。 <完全なコードを表示するには左右にスワイプしてください>
欠点と最適化の方向性:
02性別予測モデルV2モデル使用機能の 4 つの次元が、SDK に埋め込まれたアプリケーション パッケージ名、SDK に埋め込まれたアプリケーション AppKey、デバイス モデル情報、デバイス名に調整されました。 その中で、SDK に埋め込まれているアプリケーション パッケージ名とデバイス名がセグメント化されています。次に、CountVectorizer を使用して上記の 4 種類の特徴をスパース ベクトル (Vector) に処理し、ChiSqSelector を使用して特徴をスクリーニングします。 このモデルは LR (ロジスティック回帰) を使用します。コード例は次のとおりです。 <完全なコードを表示するには左右にスワイプしてください>
メリットと改善効果: 単一のモデルを使用することで、共通のモデル評価指標 (ROC-AUC、Precision-Recall など) を使用してモデルを測定でき、後続のバージョン反復のベースラインとして使用して、モデルの観点からバージョンの改善を比較しやすくなります。 欠点と最適化の方向性: LR モデルは比較的単純で、学習能力が限られています。Xgboost モデルなどのより強力なモデルに置き換えられます。 03性別予測モデルV3このモデルでは、以前のバージョンに含まれていた 4 つのディメンション (SDK に埋め込まれたアプリケーション パッケージ名、SDK に埋め込まれたアプリケーション AppKey、デバイス モデル情報、デバイス名) に加えて、最近集約されたデバイス アプリケーション情報も追加されています。処理方法は以前のバージョンと同様であるため、ここでは繰り返しません。 モデルは LR から Xgboost (バージョン 0.82) に変更されました。コード例は次のとおりです。 <完全なコードを表示するには左右にスワイプしてください>
メリットと改善効果:
04性別予測モデルV4TalkingData では、以前のバージョンに含まれていた 5 つの特徴ディメンションに加えて、3 つの広告カテゴリ ディメンションの特徴も追加しました。広告カテゴリの特徴のカバー率はわずか 20% ですが、最終ラベルのリコール率の向上にも大きな影響を与えています。 モデルは Xgboost の DNN に置き換えられ、トレーニング エポックの最大数は 40 に設定され、早期停止パラメータが設定されました。ニューラル ネットワークはビッグ データに基づいてのみ機能することを考慮し、ニューラル ネットワークの学習を確実にするために、トレーニングに使用するサンプル サイズを 2 倍にしました。 DNN の構造は次のとおりです。 <完全なコードを表示するには左右にスワイプしてください>
メリットと改善効果:
モデル探索のヒント 生のログからフィールドを抽出し、それらを情報に集約するには、多くの ETL ステップが必要であり、多くの最適化手法が関係します。この部分は専用の ETL チームによって処理されるため、ここでは詳細に説明しません。 モデル チームは、時間集約後のフィールドをモデリング タスクに直接使用できます。ただし、ETL と機能生成に費やされる時間は、モデルの最適化と反復処理にかかる時間の大部分を占めます。 以下では、皆様の参考になればと思い、2 つの最適化の落とし穴と解決策をまとめました。 1. 性別ラベル予測の場合、入力特徴のほとんどは、最近収集されたデバイスアプリケーション情報などの配列型です。このタイプのフィールドの場合、モデルをトレーニングする前に、通常は CountVectorizer を呼び出して配列をベクトルに変換し、それをモデルの入力として使用します。ただし、CountVectorizer のこの手順は非常に時間がかかるため、バージョンの反復中に実験を迅速に実行することができません。 この問題に対処するには、この変換手順を事前に完了し、生成された Vector 列を保存します。こうすることで、各実験で CountVectorizer が消費する時間を節約できます。 実際の生産では、多くのタグの生産で同じフィールドが使用されるため、配列はベクターに変換され、事前に保存されます。後続のさまざまなタスクはベクター列を直接呼び出すことができるため、多くの時間を節約できます。 2. 最初の方法は多くの時間を節約できますが、実稼働環境では Spark の方がより多く使用されています。実際、モデルの初期段階の調査では、最初に Spark を使用してトレーニング セットを生成することもできます。通常、実際のサンプルはそれほど多くないため、生成されるトレーニング セットはそれほど大きくないことが多く、単一のマシンを使用して迅速な実験を行うことができます。 単一のマシン上で、Python を使用してより便利に図を描き、データをより直感的に理解し、機能のスクリーニングをより速く実行し、アイデアをより速く検証することができます。データとモデルを深く理解した後、実験から得られた結論をすぐに生産に適用できます。 著者について: TalkingData のデータ サイエンティストである Zhang Xiaoyan は、現在、エンタープライズ レベルのユーザー ポートレート プラットフォームの構築と、効率的なマーケティング配信アルゴリズムの研究開発を担当しています。彼女は長年、インターネット広告、ユーザー ポートレート、不正検出などの分野に関心を持ってきました。 |
>>: 適切な機械学習アルゴリズムを簡単に選択する方法を教えます。
すでに非常に人気がある人工知能は、大学入試の願書が記入されるにつれて、間違いなく人気が続くでしょう。...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
人工知能(AI)は驚異的な進歩を遂げ、一般に応用可能な技術として社会に影響を与えています。しかし、初...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[378076]]これは、React DOM 操作を詳細に説明した最初の記事です。記事の内容はコミ...
動物実験は動物に対して行われる最も残酷な行為の一つと考えられています。研究によると、マウス、カエル、...
これらの提案により、LLM 申請の精度が向上し、適切な LLM を選択する方法についての考慮事項も含...
[[441939]] AIの概念が初めて提唱されたのは1956年なので、60年以上の歴史があります。...
人工知能(AI)は私たちが住む世界を急速に変えています。医療から金融まで、人工知能は産業を変革し、私...
AI は人間の従業員の努力を補完し、彼らの時間を解放することができます。人事担当者はこの機会を利用し...
無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...