ケーススタディ | 埋め込みに基づく特徴セキュアな計算

[[331789]]

序文

従来のデータの公開と共有の方法の多くは、生のデータをプレーンテキストで直接出力します。これは、データセキュリティとプライバシー保護の面で大きなリスクをもたらし、ますます厳しくなる法的および規制上の要件に準拠せず、データの量と規模に関して、今日のますます大規模で複雑化するアプリケーション要件を満たすことがますます困難になっています。また、データをラベル付きデータに加工して出力するという方法もありますが、通常は情報漏洩があり、このタイプのデータをモデリングに使用した場合の効果は大幅に減少します。

TalkingDataは実践を通じて、機械学習技術を活用した新たなソリューションを模索してきました。元のデータに対して分散暗黙的表現抽出計算を実行し（データ変換方式）、変換されたデータをオープンに共有することで、データ出力のセキュリティ要件を満たすだけでなく、ビッグデータ出力の処理速度も向上します。このデータ出力方法は主に機械学習の分散埋め込みアルゴリズムに基づいています。埋め込みアルゴリズムは、生データを変換し、その中の潜在的な関係性を掘り起こすことができる一連のアルゴリズムの総称です。埋め込みアルゴリズムで処理されたデータは、ラベル付きデータよりも情報漏洩が少なく、モデリング効果に優れているため、推奨システムや自然言語処理などの分野で広く使用されています。

TalkingData は、このタイプのアルゴリズムを安全なデータ出力の分野に適用し、変換後に元のデータを識別できない方法で出力できるようにし、データ取得者がそこから個人の身元に関連する機密情報を抽出できないようにすることで、プライバシーデータの匿名化保護を実現します。

TalkingData Systemプラットフォーム（以下、TDS）は、ユーザーのプライバシー保護、データ出力のセキュリティ確保、ビッグデータ出力処理の速度向上を考慮して構築されました。 TDSプラットフォームの基盤層はSparkとHadoopエコシステムに基づいており、埋め込みアルゴリズムを搭載しており、元のデータを計算して処理し、その結果をフロントエンドプラットフォームページを通じて企業ユーザーに出力します。金融、小売、インターネット、広告などの業界で応用されています。

TDS プラットフォームの助けを借りて、企業はユーザーグループのアクティビティ、消費、人口統計属性ラベルなどの垂直分野からの内部ファーストパーティデータを TalkingData のサードパーティデータと統合し、企業独自のモデルの機能ディメンションを充実させることができます。理論的には、ビジネスの説明や識別を必要としない予測モデルであれば、この方法で出力されたデータを使用できます。

アルゴリズムの解法の詳細な説明

このアルゴリズムは汎用的であり、標準形式に変換できるあらゆる生データ出力に適用できます。処理プロセスを詳しく説明する例を以下に示します。

1. TDSプラットフォームのユーザーは、デバイスID（デバイス識別）のバッチをアップロードし、IDマッチングを通じて対応するTDID（つまり、TalkingData独自の暗号化された識別子）を取得しました。

2. TDID をインデックスとして使用して元のデータを抽出します。 TDID が M 個あると仮定すると、TDID は各スマートモバイルデバイスの仮想的な固有番号と見なすことができます。抽出された生データには合計 M 行が含まれ、各行はデバイスの属性情報に対応します。属性の数は N であり、各デバイスの各属性値は 1 または 0 であり、デバイスが特定の属性を持っているか持っていないかを示していると仮定します。元のデータは M*N スパースマトリックスに変換され、各行はデバイスに対応し、各列は属性に対応します。たとえば、3 行目の 5 列目が 0 の場合、3 番目のデバイスには 5 列目に対応する属性がないことを意味します。

通常の行列と比較して、スパース行列はストレージスペースを大幅に節約できます。スパース行列を構築する方法は、次の手順で理解できます。

（１）M*N行列を作成し、そのすべての値をゼロで埋めます。

（２）１行ずつスキャンします。デバイスに特定の属性がある場合は、スキャンが完了するまでその場所の値を１に置き換えます。

（３）どの行と列のデータが１に設定されているかを記録し、その情報を保存します。保存される情報は実際には係数行列です。

3. 埋め込みモデルを通じて、標準形式の生データの表現学習が行われます。実際には、元の入力行列を分解することです。埋め込みモデルに使用できるアルゴリズムは多数あります。ここでは、特異値分解 (SVD) アルゴリズムを例として取り上げて紹介します。

SVD について話すとき、関連する概念である PCA (主成分分析)、別名固有値分解についても言及する必要があります。 PCA 法に関しては、一般的に次元削減が関連しています。簡単に言うと、PCA は、元の空間内で相互に直交する座標軸のセットを順番に見つけることです。最初の軸は分散を最大化する軸、2 番目の軸は最初の軸に直交する平面で分散を最大化する軸、3 番目の軸は最初の軸と 2 番目の軸に直交する平面で分散を最大化する軸です。このように、N 次元空間では N 個のこのような座標軸が見つかるものと仮定して、最初の r を使用してこの空間を近似し、N 次元空間を r 次元空間に圧縮します。選択する r 値は、データ損失を最小限に抑えるために空間を圧縮する必要があります。

PCA は、元のデータから明らかな特徴を持つより重要な情報を選択し、それを保持します。問題は、元のデータよりも少ない次元で元のデータをできるだけ多く記述する方法になります。同時に、PCA には変換行列が正方行列でなければならないなど多くの制限もありますが、SVD アルゴリズムではこの制限を回避できます。

SVD アルゴリズムは、行列を 3 つのサブ行列に分解できます (3 つのサブ行列を乗算すると、元の行列を復元できます)。これら 3 つの行列を U、Sigma、V と呼びます。Sigma 行列は、対角線上にのみ値があり、残りはすべて 0 である特異値行列です。

ケーススタディ | 埋め込みに基づく特徴セキュアな計算

元の行列が 10,000 行、1,000 列であると仮定すると、分解後に次の 3 つのサブ行列が得られます。

U行列は10,000*10,000

シグマ行列は10,000*1,000（対角要素を除くすべての要素は

0の場合、対角線上の要素は特異値と呼ばれる）

V(^)T行列（Vの転置行列）は1,000*1,000である。

実際のアプリケーションでは、U 行列の最初の 512 列のみを保持するため、3 つの行列の次元は 10,000*512、512*512、512*1,000 になります。なぜ 512 列が予約されているのですか?その理由は、行列Σでは特異値が大きなものから小さなものの順に並んでおり、特異値の減少が非常に速いためです。多くの場合、特異値の最初の10％、あるいは1％の合計が、すべての特異値の合計の99％以上を占めます。私たちの複数の実験によれば、512 列は特異値の情報をうまく保存できます。

4. 行列分解によって 3 つのサブ行列が得られたら、U と Sigma を乗算して出力行列を取得します。出力行列の次元は10,000*512です。ご覧のとおり、出力マトリックスには入力マトリックスと同じ数の行があり、各行は依然としてデバイスを表します。ただし、出力マトリックスの列数は 512 になります。各列が属性である元のマトリックスとは異なり、出力マトリックスの各列は機能に対応するようになりました。この機能は説明も識別も不可能であるため、出力データから個人のプライバシーが漏洩することはありません。

5. 出力マトリックスを直接出力し、TDS プラットフォームのユーザーはデータインターフェイスを通じてそれを呼び出すことができます。プラットフォームのユーザーは V マトリックスを取得できないため、元のマトリックスを復元できず、したがって個人に関連する元の属性情報を復元することはできません。

出力する場合、すべてのデータをステップ 2 の標準入力形式に整理し、入力マトリックスに連結する必要があります。以降の手順は上記の例と同じです。

効果

TalkingData は、データセキュリティ出力における埋め込みアルゴリズムの実際のパフォーマンスに関する多くの実験を実施し、複数の実際のプロジェクトで検証も行っています。次の 2 つの実際のケースを使用して説明します。

ケース1: 性別ラベル予測の改善

性別ラベルは、機械学習モデルを使用してデバイス情報に基づいて予測およびスコアリングすることで取得されます。これまでのモデリングプロセスでは、アルゴリズム担当者は、非構造化データを構造化された統計値に処理したり、他のラベルを特徴としてモデルに入力したりするなど、元の情報を特定の方法で処理することが多かった。ただし、これらの特徴エンジニアリング方法では、特定の情報の損失やエラーの発生が発生します。

手動での特徴スクリーニングと比較して、埋め込みによって処理されたデータは、情報漏洩が少ないため、理論的にはより優れたモデリング結果が得られます。次の 2 つの図から、同じ元データに基づいて、埋め込みモデルを使用した予測効果が、元の性別予測モデルと比較して (0.71 - 0.63)/0.63 = 13.7% 向上していることがわかります。

事例2：金融企業のリスク管理モデルの予測効果の向上

多くの企業と連携し、TalkingDataの人口統計属性タグやアプリ興味タグをサードパーティデータとして導入します。 TalkingData は金融企業と協力し、TDS を通じて企業にデータを出力し、リスク管理モデルに適用します。

同じ誤検出率の場合、同社のオリジナルアルゴリズムの生産精度は0.42でした。埋め込みアルゴリズムによって出力されたデータを追加した後、最適化された生産精度は0.52に達し、25％増加しました。リスク管理の分野では、25% の改善により、企業は大きな財務損失を回避できます。

他の埋め込み方法についての考察

埋め込み手法は、数学的な言語を使用してテキストを表現する自然言語処理の分野で広く使用されています。前述の SVD アルゴリズムの有効性は実際のモデル計算で検証されていますが、テキスト特徴の表現には依然として欠陥があります。

まず、これは単語の順序を考慮しないバッグオブワード（BOW）モデルです。実際のテキストでは、単語の順序も非常に重要であり、文中の各単語の重要性は異なります。次に、単語は互いに独立していると想定していますが、ほとんどの場合、単語は互いに影響を及ぼします。そのため、「読解」を行う際には、文脈を考慮する必要があることがよくあります。

現在、埋め込み分野はディープラーニングへと進化しており、おおよそ次の 4 つの一般的なアプリケーションに分けることができます。

テキスト構文と語順に依存しない Bag-of-Words モデル: one-hot、tf-idf、textrank など。

トピックモデル: LSA、pLSA、LDA;

単語ベクトルに基づく固定表現: word2vec、fastText、glove

単語ベクトルに基づく動的表現: ELMO、GPT、BERT

その中でも、Word2vec は業界で広く使用されているアルゴリズムの 1 つです。 Word2vec について話すとき、「単語ベクトル」の概念を紹介する必要があります。 NLP の分野では、最も細かいレベルは単語であり、単語は文を形成し、文は段落、章、文書を形成します。それぞれの単語を数学的な言語でどのように表現するかが、単語間の関係性を研究する鍵となります。 Word2vec はこのアイデアから派生したものです。これは、簡略化されたニューラルネットワークモデルと見なすことができます。ただし、その最終的な目標は、テキストシンボルを数値で表現するだけでなく、モデルトレーニング後の副産物であるモデルパラメータ (ここでは特にニューラルネットワークの重み) を表現することです。モデルパラメータは入力単語のベクトル化された表現として機能し、このベクトルは単語ベクトルと呼ばれます。

Word2vec を使用して類似の単語を検索する方法の例を次に示します。

TalkingData に埋め込みを適用する実際のシナリオを組み合わせると、単語ベクトルとの最大の違いは、表現された特徴間に文脈的なつながりがないことです。 TalkingData は主にモバイルデバイスの動作データを分析します。ほとんどのデバイス属性では、シャッフルの順序は実際の意味に影響を与えません。ただし、文中の単語はシャッフルできず、文の構造は単語ベクトルの表現にとって非常に重要です。実際のビジネスシナリオを考慮して、元のデータを変換するために Word2vec やより複雑な埋め込みアルゴリズムを使用することは選択しませんでした。

元のデータ出力のセキュリティは確保されていますが、データの解釈可能性が弱いという問題が伴います。埋め込みアルゴリズムは元のデータを別の空間の数値ベクトルに変換するため、出力行列の各列の実際の意味を手動で理解したり割り当てたりすることは不可能です。

モデラーが「給与予測回帰モデル」を構築し、収集されたサンプル特徴に「性別、年齢、学歴、勤務地、勤続年数...」が含まれており、これらはデータセットの各列に対応しているとします。その後、各特徴の重みを簡単に計算し、どの特徴の重みが高いか、つまり特徴の重要度の順位を比較して、「勤続年数が給与に与える影響は性別よりも重要である」などの結論を得ることができます。

しかし、TDS プラットフォームから出力されたデータを使用してモデルを構築する場合、上記のモデルのように、各列の特徴がモデルに与える影響を分析して比較することはできません。Embedding 特徴を追加することでモデルの効果が向上するかどうかについて、大まかな結論しか導き出すことができません。明らかに、モデラーがモデルの解釈可能性に関して特に厳しい要件を持っている場合、TDS プラットフォームは当面ソリューションを提供できません。

<<: エッジ AI はどのようにして将来の AI および IoT トレンドのロードマップとなるのでしょうか?

>>: ディープフェイクで映画を作る時代が来た：ディズニーが高解像度の顔を変えるアルゴリズムを公開