5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

著者: Sun Yue、所属部署: 中国移動 (杭州) 情報技術有限公司 | 中国移動杭州 R&D センター

ラボガイド

5G ネットワークの継続的な普及により、多数のユーザーが 5G ネットワークにアクセスして使用し始めています。 5G ネットワークは、従来のネットワークの音声、ビデオ、テキストなどの情報を伝送できるだけでなく、低遅延と高精度の測位機能により、ライブ戦場情報、衛星測位ナビゲーションなど、実用的な価値のあるより多くのアプリケーション シナリオで使用できます。

オンライン情報には、政治情報、ポルノ情報、ギャング関連情報、詐欺関連情報、商業広告メッセージなどの悪質な情報が混在することが多く、悪質な情報の量は年々増加しており、ユーザーに多大な迷惑をかけています。ネットワーク環境を浄化し、悪質な情報の拡散を効果的に抑制するために、中国移動の5G悪質な情報セキュリティ管理プラットフォームが誕生しました。

データソース: 中国移動グループ情報セキュリティセンター

1. 5G悪質情報制御プラットフォームの応用シナリオ

テキストメッセージ、音声メッセージ、ビデオメッセージ、リッチメディアメッセージなどの複雑なネットワーク情報環境に直面した場合、プラットフォームは情報を政治、ポルノ、ギャング関連、詐欺関連、商業広告メッセージ、通常のメッセージなどに分類し、対応する戦略を通じて速やかに傍受し、悪質なニュースの重大性に基づいてその後の処罰を行い、ネットワーク環境を根本から浄化し、良好なサイバースペースを創造します。

2. 既存の5G悪質情報制御プラットフォームの技術的ハイライト

プラットフォームは主に以下の方法で不正な情報を傍受します。

① 第一レベルのキーワードを設定する:第一レベルのキーワードは通常、非常に敏感な単語に設定されます。ユーザーが第一レベルのキーワードを含むメッセージを送信すると、メッセージはすぐにブロックされ、メッセージの内容は送信できず、ユーザーにマークが付けられます。

② 共通キーワードの設定:共通キーワードは、比較的センシティブな単語に設定されています。ユーザーが送信した情報に共通キーワードが含まれており、一定期間内にユーザーがこのセンシティブなメッセージを送信した回数がシステムの事前設定された傍受しきい値を超えると、システムはユーザーをブラックリストに登録し、一定期間内にユーザーは5Gネットワ​​ークサービス全体を利用できなくなります。

③ 複雑なテキスト情報監視の設定:ユーザーがテキストと画像を含む PDF ファイルを送信する場合、ファイルからテキストを抽出し、第 1 レベルのキーワードと共通キーワードのメカニズムでフィルタリングし、リッチ メディア メカニズムを通じて画像をフィルタリングします。テキストと画像のフィルタリング結果に基づいて、ファイルの処理結果としてより重い処理の原則を採用します。

3. 既存の5G管理・制御プラットフォームの技術的な弱点

既存の5G悪報セキュリティ管理プラットフォームのフィルタリングメカニズムでは、特定の限定されたフレーズと短い文章しかフィルタリングできません。インターネットの普及に伴い、毎日大量の新しい単語が登場しており、手動で単語を追加することで、語彙ライブラリをタイムリーかつ迅速に更新することは不可能です。さらに、今日、多数のユーザーがテキストメッセージを送信する場合、テキストメッセージ全体に違法な言葉が含まれていなくても、表現された考えや感情には多くの否定的な感情的傾向が含まれている可能性があり、単語や短い文章だけに頼るだけでは否定的な感情コンテンツをうまく傍受することはできません。したがって、テキスト感情分析を使用して、否定的な感情傾向を含む文章を傍受してレビューすることで、否定的な情報制御の有効性をさらに高め、スパムによるユーザーへの侵食と被害を軽減できます。

人気のオンラインフレーズやニュースメッセージを含むテキスト感情ライブラリを構築することで、テキストに含まれる感情は、肯定的な感情、中立的な感情、否定的な感情の3つのカテゴリに分類されます。各テキストは、これらの3つのカテゴリに従ってラベル付けされます。感情ライブラリ内のテキストは、ディープラーニングネットワークを使用してトレーニングされます。トレーニングされたモデルは、5Gバッドニュース管理プラットフォームで使用され、悪い感情のメッセージを傍受できます。

4. ディープラーニングに基づく5Gバッド制御システムの技術的実装の詳細

このテクノロジーには、Jieba 単語分割システム、フレーズベクトル化、テキスト感情認識アルゴリズムという 3 つの主要な部分が含まれています。各部分間の相互作用は次の図に示されています。

モジュール相互作用フローチャート

クローラー技術を使用して、オンラインの単語やニュースメッセージを元のテキストとしてクロールし、元のテキストを8:2の比率でトレーニングセットとテストセットに分割します。トレーニングセットのテキスト情報にラベルを付け、Jieba単語分割ツールを使用してテストセットのテキスト情報を分割します。例:彼は杭州移動研究ビルに来ました。 Jieba 単語分割ツールを使用して単語を分割すると、結果は「he/came to/mobile/Hangzhou Research Institute/building」になります。最後に、分割されたデータはコーパスに整理されます。トレーニング セットとテスト セット内のテキスト情報の量は非常に大きい (通常は数百万のデータ) ため、単語分割後のコーパス内のデータ量も非常に大きくなります (数千万のデータ)。これらのコーパスは数値の形でコーパスに保存できますが、データ量が膨大であるため次元障害が発生する可能性が非常に高くなります。したがって、「了」、「的」、「吗」など、テキスト情報に現れる助詞については、これらの単語は非常に頻繁に出現しますが、感情的な効果にはほとんど貢献しません。次元を削減するという目的を達成するために、これらのフレーズをコーパスから削除することを選択します。

トレーニングセット内のベクトル化されたフレーズをディープラーニングネットワークに送信して学習とトレーニングを行い、対応するモデルを取得します。最後に、テストセットのデータをモデルに入力して、対応する認識結果を表示します。モデルが良好な精度率を得られると、モデルは5G不良制御プラットフォームに接続され、ユーザーはフィルタリングのためにエンドツーエンドの情報を送信します。フィルタリングプロセス中に否定的な情報が見つかった場合は、タイムリーに傍受されるため、5G否定情報管理および制御システムは、否定的な情報の傍受においてより体系的かつ包括的になります。

具体的な手順は次のとおりです。

  1. インターネットから元のテキストコーパスをクロールし、元のテキストを前処理します。これには、助詞の削除、テキスト内の句読点、空白領域、終端語、散在語、特定の語の削除が含まれます。単語分割に jieba ライブラリを使用し、フレーズに従ってテキスト文を個々のフレーズに正確に分割します。
  2. クロールされたテキストデータセットは、一定の比率に従ってトレーニングセットとテストセットに分割され、トレーニングセット内のテキスト文は手動でラベル付けされ、肯定的な感情、否定的な感情、中立的な感情に分割されます。 jieba ライブラリを使用して、トレーニング セットとテスト セット内のテキスト文を分割し、分割後のトレーニング セットをコーパスに構築します。
  3. ステップ 1 のフレーズをベクトル化し、各単語セグメントを多次元連続値ベクトルにマッピングして、データ セット全体の単語ベクトル マトリックスを取得します。
  4. まず感情語が位置する節を抽出することで文章の複雑さを軽減し、次にさまざまな特徴に基づいて節内の感情オブジェクトの位置を予測し、対応する位置から感情を抽出します。感情抽出とは、テキストから貴重な感情情報を取得し、感情表現における単語やフレーズの役割を判断することです。これには、感情を表現する人物の識別、評価対象の識別、感情意見語の識別などのタスクが含まれます。
  5. 上記の操作で得られた感情ベクトルはディープラーニングネットワークに送信され、テキスト感情認識モデルが得られます。次に、テストセット内の感情ベクトルがモデルに送信され、テスト結果が確認され、検出結果が正常なデータは、テキストマッチング、リッチメディア認識などの従来の戦略によってフィルタリングされます。

5. ディープラーニングを取り入れた5G傍受システムの利点

既存の5G傍受システムと比較して、ディープラーニングを統合した5G傍受システムには以下の利点があります。

  • ディープラーニング技術を使用して、高い信頼性と真正性を備えた効果的な識別を提供します。
  • 感情認識にディープラーニング技術を使用し、手動介入を減らして作業効率を高めます。
  • テキスト感情認識を使用すると、キーワード傍受の欠点を効果的に補うことができます。
  • テキスト感情認識を利用することで、新しいエントリ情報を戦略にタイムリーに自動的に更新および補足し、効率を向上させることができます。

結論は:

現在、ディープラーニングの応用分野は非常に広く、反復トレーニングと自己学習方式を利用することで、手作業の作業負荷を大幅に軽減し、効率と精度を向上させることができます。この技術は、前述の悪質な情報遮断システムに応用できるだけでなく、近い将来、他の新興分野でも活躍すると信じています。もちろん、ディープラーニング自体は完璧ではなく、すべての難しい問題を解決できるわけではありません。そのため、新たなブレークスルーを達成し、より良い未来のスマートライフを実現するために、ディープラーニング技術を新しいシナリオや新しい分野に適用し続ける必要があります。

<<:  メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

>>:  データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要

推薦する

...

C#DES アルゴリズムの概念と特性の簡単な分析

C# DES アルゴリズムは開発のセキュリティ部分として、その概念といくつかの簡単な歴史的起源を理解...

MOEA Framework 1.9は、MOEAアルゴリズムを開発するためのJavaクラスライブラリをリリースしました。

MOEA フレームワークは、多目的進化アルゴリズム (MOEA) を開発するための Java ライ...

TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される

AIは自慢するだけでなく、実践を通じて達成されます。コンセプトがどんなに優れていても、結果が重要です...

OpenAI と Mistral AI によって人気を博した MoE の背景にあるストーリーとは?ハイブリッドアーキテクチャの導入に関する包括的なガイド

専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このア...

「最もわかりにくい」Paxos アルゴリズムと、データベースの高可用性におけるその使用法をわかりやすい言葉で理解する

最近、Paxos アルゴリズムについてみんなが議論しています。私はオンラインで多くの記事を読みました...

...

スマートロボットについて知っておくべきことすべて

スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...

ダンスをしたり、音楽を作曲したり、演出したりできる AI を見たことがありますか?

最近、NVIDIA Blog は「ライト、カメラ、AI: Cambridge Consultants...

人工知能は人間に取って代わるでしょうか?

この記事のタイトルは少し大まかです。私の意見では、実際には 2 つの意味が含まれています。1 つ目は...

...

AIは都市部の地震監視のノイズ問題を解決すると期待されている

人口密度が高く、重要な施設が多数存在する都市では、破壊的な地震が発生すると壊滅的な結果をもたらすこと...

AI支援ツールを使用してソフトウェア要件を定義する

Userdoc は、ソフトウェア要件ド​​キュメントの作成を支援する AI 支援サービスです。最近の...

AIoT: トーク

AIoT とは何ですか? 何ができるのでしょうか? これらは、今日の記事で取り上げる質問です。本質的...

建設における人工知能の能力と限界

AI は、建設業界が大規模なインフラ プロジェクトを計画、実行、管理する方法に革命をもたらし、組織が...