5分間の技術講演 | AI技術と「サイバー暴力」のガバナンス

5分間の技術講演 | AI技術と「サイバー暴力」のガバナンス

パート01

「ネットいじめ」とは何ですか?

「サイバー暴力」とは、インターネット上で文章、画像、動画などを利用して他人を誹謗中傷したり、名誉を傷つけたり、他人の名誉やプライバシーなどを毀損したり、関係者に精神的ストレスや心理的トラウマを与える行為を指し、インターネット上の社会的暴力の延長線上にあるものです。サイバー暴力の最も一般的な形態は、Weibo、ビデオ、ニュース、フォーラムに現れます。

「サイバー暴力」の原因は、第一に、インターネットの匿名性により個人のプライバシーが保護される一方で、侵害者が軽率な発言をすることも許されていること、第二に、一部のメディアがトラフィックと注目度を追求するために一方的な報道を行い、話題性を高めるために事実を故意に歪曲していること、第三に、世論が形成される際に、個人が集団の価値観の方向に傾き、自分自身の合理的思考能力を無視する傾向があることである。

パート02

自然言語処理(NLP)と「ネットいじめ」

ソーシャルメディア上のサイバー暴力は、主にコメントや集中砲火などの形で拡散されます。コメントや集中砲火などの非構造化言語データを分析するために、使用されるコアAI技術は主に自然言語処理です。自然言語処理技術は、機械学習とディープラーニングの手法に基づいており、機械が言語の特徴を自動的に学習し、人間の言語を理解する能力を持つようになります。現在、この技術は、テキスト分類、自動要約、質問応答システム、機械翻訳、感情分析などに広く使用されています。実生活では、一般的な音声アシスタントや最近人気のChatGPTは、自然言語処理技術の一般的なアプリケーションです。「サイバー暴力」ガバナンスの面では、次の方向も関係します。

テキストエンティティ抽出:

「ネットいじめ」のターゲットは通常、特定の人物や出来事であるため、まずは大量のコメントデータから特定のネットいじめ事件に関するコメントをフィルタリングする必要があり、これには主に固有表現抽出アルゴリズム(NER)が関与します。 NER アルゴリズムは、主にルールベース方式、統計的方式、ディープラーニング方式などに分けられます。

図1 固有表現認識方式

テキスト感情分析:

感情分析では、コメントに肯定的/否定的なスコアを割り当て、セマンティクスにさまざまな種類の感情の詳細が含まれているかどうかを識別し、テキストから全体的な感情に最も大きな影響を与えるキーワードをインテリジェントに抽出できます。これにより、数千万件のコメントの背後にあるネットユーザーの感情分布を理解し、さらに、期間、地域、性別ごとにさまざまなイベントに対するさまざまなグループの感情を分析し、イベントに対する否定的かつ暴力的な感情を迅速に管理できるようになり、また、極性語に基づいてより多くの潜在的なサイバー暴力行為を発見することもできます。

図2 異なる感情の分類

技術的なポイントとしては、主に機械学習(SVM等)やディープラーニング(CNN)を用いたテキスト分類や極性語マイニングなどが挙げられます。全体のプロセスは図の通りです。

図3 文レベルの感情分析ソリューション

テキスト類似性分析:

同じイベントに関するコメントの類似性分析は、イベントコメントの世論の傾向を発見するのに役立ちます。さまざまなイベントのコメントに対して類似性分析を行うことで、「ネットいじめ」ユーザーが使用するコメントと類似した単語や表現を含むコメントを見つけたり、特定のイベント/人物に関する最近の世論の肯定的/否定的側面を掘り起こすことができます。現在、類似性分析には主に 2 つのディープラーニング パラダイムがあります (次の図を参照)。

図4 類似性分析の2つのパラダイム

最初のパラダイムでは、まずディープ ニューラル ネットワークを通じてコメント コンテンツの表現ベクトルを抽出し、次に表現ベクトルの単純な距離関数 (ユークリッド距離など) を通じて 2 つの類似性を計算します。この表現ベクトルの抽出方法は、通常、ツイン ネットワークを使用して実装されます。このカテゴリに属する​​一般的なモデルには、DSSM、CNTN などがあります。

2 番目のパラダイムは、ディープ モデルを通じてコメント コンテンツのクロス特徴を抽出し、一致する信号テンソルを取得し、それらを類似度スコアに集約することです。

構文/語彙解析:

構文と語彙の分析を通じて、多数の「肯定的」なコメントと「ネットいじめ」のコメントに共通する構文と語彙の習慣を掘り起こし、現在のオンライン環境で「ネットいじめ」のユーザーがよく使用するレトリックと単語、およびさまざまなユーザーが意見の極性を表現するときに使用する言語特性をまとめることができます。

統語構造解析は、文の主語、述語、目的語、形容詞、副詞、補語を識別し、構成要素間の関係を解析するために使用されます。これは通常、深層学習の RNN および LSTM シーケンス モデルに基づいています。

語彙解析のタスクは、入力されたコメント内容文字列を単語シーケンスに変換し、各単語の品詞をマークすることです。シーケンスラベリング技術が主に使用されます。具体的なアルゴリズムには、条件付きランダムフィールド (CRF)、RNN + CRF などがあります。

図5 語彙解析の例


パート03

要約する

「サイバー暴力」の存在は、被害者の権利と利益を直接的に危険にさらすだけでなく、ネットワークの安全性と社会の調和にも悪影響を及ぼします。中国移動スマートホームオペレーションセンターは、ディープラーニング、画像認識、自然言語処理、OCRなどの技術的蓄積を基に、写真、テキスト、動画、音声内のポルノ、暴力とテロ、政治、ギャンブル、画像OCR、顔認識などの多次元コンテンツのセキュリティテストを実行できるコンテンツセキュリティ保護製品を発売しました。

AI技術の発展に伴い、技術的手段に基づくインターネット暴力管理が徐々に重要な役割を果たすようになるでしょう。中国移動のスマートホームオペレーションセンターは、このシナリオにおいて先進技術を継続的に探求し、業界の最先端技術を組み合わせてコンテンツエコシステムの構築を強化し、中国サイバースペース管理局の「明晰で明るい」シリーズの特別措置に積極的に対応し、明晰で明るいネットワーク環境の実現に貢献します。

<<:  プロンプトによるプライバシー漏洩が心配ですか?このフレームワークにより、LLaMA-7Bは安全性の推論を実行できる。

>>:  ChatGPT を使用すると、開発と学習の効率が向上するだけでなく、奥さんとの関係にも役立ちますか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転車が保険業界に与える影響

自動運転車の急速な発展は、自動車業界や輸送業界を再定義するだけでなく、保険業界にも混乱をもたらすでし...

...

黄仁訓氏の予測: AGI は 5 年以内に実現される可能性があります。米国は中国のニーズを完全に満たして「サプライチェーンの独立」を達成するまでにまだ10年ある

最近、ニューヨークタイムズの年次ディールブックサミットで、黄仁勲氏は、汎用人工知能(AGI)を「かな...

マイクロマシンラーニングは、マイクロプロセッサにディープラーニングを組み込むことを約束する

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟ディープラーニング モデルの初期の成功は、大量のメモリと ...

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。簡単に言え...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

マシンビジョンはインダストリー4.0とモノのインターネットの重要な技術です

[51CTO.com クイック翻訳] マシンビジョンは、機械学習と商用グレードのハードウェアを組み合...

対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

[[431792]]自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付ける...

データ構造とアルゴリズムの基本概念

[[361250]]この記事はWeChatの公開アカウント「bigsai」から転載したもので、著者...

Weibo の背後にあるビッグデータの原理を探る: 推奨アルゴリズム

推薦システムは早くから誕生していたが、本格的に注目されるようになったのは、「Facebook」に代表...

ReSimAD: 実データなしで知覚モデルの一般化パフォーマンスを向上させる方法

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

スーパー人工知能とは何ですか?

進化し続けるテクノロジーの世界において、魅力的であると同時に不安も抱かせる概念の出現が、スーパー人工...

私の友人はソーシャルメディアのアルゴリズムの推奨に「誘惑」され、過激なグループに参加しました

[[380723]]ビッグデータダイジェスト制作著者: カレブソーシャル メディアにおけるアルゴリズ...

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

7月25日、AIベースのディープフェイク技術が進化を続ける中、人間が肉眼で「どのコンテンツがAIによ...