不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

背景

今年8月時点で、知乎の登録ユーザー数は2億人を突破した。私たちはスパムの管理において、より大きな課題と試練に直面しています。これまで、私たちは「Wukong」戦略エンジンを継続的にアップグレードし、行動、環境、リソース、テキストなどの多次元に適用することで、非常に良い結果を達成してきました。最近、スパムテキストを識別するためにディープラーニングを導入しようとしており、「Wukong」のスパム管理能力は新たなレベルに達しています。

問題分析

現在のサイト上のスパムテキストを整理したところ、主に次の 4 つの形式が含まれていることがわかりました。

  • 転換コンテンツ: このタイプのコンテンツは、コミュニティ内のスパム テキストの約 70% ~ 80% を占めます。典型的なコンテンツには、トレーニング機関、美容、保険、購買代理店などがあります。転用されるコンテンツには、QQ、携帯電話番号、WeChat、URL、さらには固定電話番号が含まれる場合があります。ワールドカップ、ダブル11、ダブル12などの特定の特別な時期には、さまざまな種類の特別な迷惑テキストも表示されます。これらはすべて、ブラック業界が富を稼ぐ絶好の機会です。
  • ブランドコンテンツ: このタイプのコンテンツは、より典型的な SEO 特性を持ちます。通常、コンテンツには明らかな転換の兆候はありません。不正行為の形式は、質問と回答の形式で表示されます。たとえば、「どのブランドが良いですか? 特定のトレーニング スクールはどうですか?」と尋ね、対応する回答で推奨事項を作成します。
  • 詐欺的なコンテンツ: このタイプのコンテンツは通常、自転車の返金など、有名人や組織になりすました形で表示され、詐欺を働くためにコンテンツ内に偽のカスタマー サービス電話番号が記載されています。
  • 嫌がらせコンテンツ: たとえば、誤解を招くような大量のコンテンツやアンケート形式のコンテンツは、ユーザー エクスペリエンスに重大な影響を及ぼします。

これらのスパム テキストの主な利点は、一方ではサイト内での拡散であり、他方では SEO 目標を達成するために検索エンジンをターゲットにすることです。

アルゴリズムの紹介

アルゴリズムの観点から見ると、この問題はテキスト分類の問題として捉えることができ、サイト上のコンテンツをスパム テキストと通常のテキストの 2 つのカテゴリに分割します。一般的に使用されているテキスト分類アルゴリズムは多数あります。ここでは、各分類アルゴリズムを詳細に紹介するのではなく、実際の問題に対処する際に遭遇するいくつかの問題とトレードオフを共有することだけを目的とします。

最初に遭遇した疑問は、CNN を使用するか RNN を使用するかということでした。一般的に言えば、CNN は階層型アーキテクチャであり、RNN は連続構造です。 CNN はいくつかのキーワードによって決定されるタスクに適しています。RNN は、コンテキストの理解に基づいた柔軟なモデリングを必要とする言語モデリング タスクなどの順次モデリング タスクに適しています。この結論は非常に明白ですが、現在の NLP 文献にはそれを裏付ける記事はありません。

また、一般的にCNNのトレーニング速度と予測速度はRNNよりも高速です。上記のサイトにおけるスパムテキストの主な形式を考慮すると、トラフィックの転換とブランドコンテンツの両方にキーワードが表示され、スパムテキスト検出の速度要件が比較的高いため、最終的に CNN を使用します。典型的な CNN テキスト分類モデルを下図に示します。

次に、入力として文字を使用するか単語を使用するかという問題に直面します。フレーズは文字よりも抽象度が高く、意味が豊かです。しかし、転用コンテンツ内のQQ、携帯電話番号、WeChat、URL、固定電話番号などは、通常、既存の語彙には登場しません。ブランド語も同様の特徴を持ち、一般的には未登録語です。さらに、転換コンテンツには通常、異なる単語が含まれており、単語を入力として使用すると、類似した特徴をうまく捉えることができません。つまり、入力として単語を使用することになります。

単語を入力として使用することを決定した後、Zhihu サイトのコーパスで事前トレーニングされた単語ベクトルを使用してモデルの埋め込みレイヤーを初期化するか、分類モデルで初期単語ベクトルを直接ランダムに生成するかを検討する必要があります。ここで考慮すべきことは、スパムテキストのデータ分布が、知乎上のテキストのデータ分布とはかなり異なるということです。スパムテキストは、サイト上の通常のテキストと比較して、比較的特定の領域です。したがって、ランダムに初期化された単語ベクトルを使用します。

単語ベクトルを使用することを決定した後、「ご興味がございましたら、ご相談ください: 2839825539」や「北京·和·和·天·下を探しています」などの重要な情報は、単語で計算すると通常非常に長くなることがわかりました。そのため、CNN では、関連するテキストの特徴を抽出するために、より大きな受容野が必要になります。畳み込みカーネルのサイズを単純に増やすと、パラメータの数が増えてしまいます。ネットワークパラメータの数を増やすことなく畳み込みの受容野を拡大するために、拡張畳み込みの使用を検討します。典型的な拡張畳み込みを下の図に示します。

さらに、識別する必要のあるジャンク テキストはすべて短いテキストではなく、長いテキストも含まれていることがわかりました。テキストの長さにより、畳み込み層の出力を単純に平均化して全結合層に出力すると、テキストがスパムかどうかを判断する重要な特徴が他の特徴に圧倒されてしまい、モデルの精度向上が難しくなる可能性が高くなります。したがって、主要な特徴にさらに重みを付けるために、Attention レイヤーを追加します。 Attentionの計算方法を以下の図に示します。

以上の分析を経て、最終的に採用したモデル構造を下図に示します。

スパムテキスト分類アルゴリズムの構造

モデル効果

現在、スパムテキスト モデルは Zhihu 上のすべてのコンテンツにスコアを付け、0 から 1 の間のスコアを出力します。システムはスコアの高いコンテンツを処理します。

Zhihu の一部の事業ラインにおけるモデルスコアのパフォーマンス:  

テキストスコア

>=0.9 の精度

>=0.8 の精度

>=0.7 の精度

答え

100.0%

99.8%

95.6%

質問する

100.0%

99.1%

97.7%

コメント

100.0%

99.6%

98.0%

現状では、このモデルを他の不正行為防止ディメンションと組み合わせることで、スパム スコアが 0.5 ポイントを超えるコンテンツを 97% 以上の精度で削除できます。開始以来、毎日何千ものスパムコンテンツが削除されています。

リアルタイムモデル処理

また、端午節の期間中、Zhihu に違法および違法なスパムの波が押し寄せたことにも注目すべきです。スパム テキスト モデルはコンテンツの 98% をカバーし、この攻撃の波は 1,000 件の投稿ほど続いた後、停止しました。

ドラゴンボートフェスティバルのスパム攻撃

次のステップ

スパム テキストの識別は、長期にわたる攻撃と防御のプロセスです。サイト上のスパム テキストは時間の経過とともに進化し続け、既存のモデルの有効性もそれに応じて変化します。サイト上のスパムテキストの課題に対処するために、私たちは引き続き悪い事例を収集し、モデルのパフォーマンスをさらに最適化していきます。

やっと

私のレベルが限られているため、間違いや漏れがある場合は、ご指摘いただければ幸いです。

著者: Zhihu コンテンツ品質チームのアルゴリズム エンジニア、Sun Jun。主に転用情報識別、ジャンクテキスト識別、テキスト感情分析モデルの開発と保守を担当します。

<<:  子どもたちが将来のスタートラインで勝てるようにするには:人工知能の思考を学ぶ

>>:  人工知能がボトルネックに到達しました!学者らが「共同で」ディープラーニングに反対し、AIの今後の発展方向を指摘

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識は3月15日に再び命名されました。データのプライバシーとセキュリティをどのように保護するのでしょうか?

昨日の3.15ガラでは、CCTVによって顔認識が初めて公開されました。 3月15日に顔認証が命名され...

AIGCは単なるコード支援ではありません

生成型人工知能 (AIGC) は、ソフトウェア開発者の生産性を向上させる大きな可能性を秘めています。...

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタス...

警戒するのは困難:真剣な AI 研究がいかにしてコンピューター生成ポルノに変わったのか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

2代目アメカ登場!よりリアルな表情で流暢に聴衆に話しかけ、数十の言語を話すことができる

ヒューマノイドロボット「アメカ」が第2世代にバージョンアップしました!最近、モバイル・ワールド・コン...

Github で最も注目されている機械学習イノベーション プロジェクト 7 つ

最新の機械学習開発と最先端のコードを持つプラットフォームはどれでしょうか? そう、GitHub です...

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

Nasdaq の CIO 兼 CTO である Brad Peterson 氏は、10 年以上にわたっ...

インテリジェントオートメーション: ロボティックプロセスオートメーションの未来

RPA は、データ入力やその他の単純作業を効率化することで、さまざまな業界の組織のビジネス プロセス...

VRとAI: 融合しようとしている2つの技術

テクノロジーは私たちの生活に常に影響を与えています。社会として私たちはテクノロジーに大きく依存するよ...

金融ロボアドバイザーは3つのトレンドによって増加傾向にある

編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...

AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート

最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...

三方からのアプローチ! AIがサイバーセキュリティを強化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...