[51CTO.comからのオリジナル記事] 突然の流行に直面して、国民は情報の適時性、透明性、伝達効率にさらに注目するようになりました。 2003年のSARSの時と比べると、今回の流行発生後の情報の氾濫はさらに激動している。モバイル通信の時代では、誰もが自らメディアとなり、情報の受信者であるだけでなく、無数の世論の中継地点となり、さまざまな情報のプロデューサーにもなります。さまざまな疫病情報は、世論の分野における「信号対雑音比」を低下させるだけでなく、さまざまな噂の適切な温床も提供します。 2020年2月初旬、世界保健機関は会議で「インフォデミック」という用語を提案しました。これは情報+エピデミックで、簡単に言えば「情報の流行」と理解できます。疫病の発生以来、人々は大量の情報にさらされ、真実と虚偽の区別がつかなくなっている。情報の更新は絶えず人々の神経を刺激し、不安、心配、不安、恐怖を引き起こしている。集団感情の「過負荷」の下では、伝染病抑制の課題は間違いなくさらに厳しいものとなる。注目すべきは、人工知能が、この疫病に関する世論の整理において「砂の中から金を見つける」役割を果たし始めており、NLP(自然言語処理)技術を使用して、有効な情報を「精製」し、情報の手がかりを関連付け、公共の危機的出来事に関する情報センターを構築していることである。 LDA の台頭: テキストの意味をマイニングする強力なツール 自然言語は人間の英知の結晶であるため、NLP は人工知能の最高傑作として称賛されています。「機械に自然言語を理解させる」とは、機械に人間の言語を理解させ、人間と会話させ、さらには言語の背後にある文化、意図、感情を理解させるという、AI に関する人々の当初の夢を具体化したものです。今日では、「テキストが飛び交うところでは、NLP テクノロジーが燃える」と言えるでしょう。 LDA (潜在的ディリクレ配分) トピック モデルは、NLP の非常に基本的なモデルであり、一般にもよく知られています。記事を書くとき、ほとんどの人はまず記事の主要なテーマをいくつか決め、それからそのテーマに沿った単語や文章を使用します。このプロセスの逆の処理が LDA で行われます。簡単に言えば、インターネット上の各記事にどのようなトピックが書かれているか、各トピックが各記事に出現する確率はどれくらいか、などを推測して分析するなど、特定の文書のトピック分布をコンピュータに推測させることを意味します。 従来の方法では、2 つのドキュメント間の類似性は、2 つのドキュメントに共通する単語がいくつあるかを識別することによって決定されます。このアプローチの制限は、セマンティクスの背後にある関連性を考慮していないことです。 例えば: 「ファンフィクションサイトA03がヒューゴー賞を受賞。」 「芸術的創造は孤立したものではない。」 この2つの文章には共通する単語はありませんが、実は前者は受賞のニュースであり、後者は受賞スピーチです。両者のテーマは似ています。文書の類似性を判断する際には、文書内の潜在的な単語や 2 つの文書間のつながりを考慮する必要があることがわかります。トピック モデリングでは、トピックは、トピックに強く関連し、出現確率の高い単語が入ったバッグのようなものです。 LDA モデルはセマンティックマイニングのための強力なツールであると言えます。 流行中、LDA はデータセットからトピックを抽出するためにも使用されました。今年2月14日、「新型コロナウイルス感染症AIトピック分析プラットフォーム」が正式に開始された。このプラットフォームは、清華大学人工知能研究所とRealAIが共同で開発し、立ち上げました。基礎となるアルゴリズムのサポートに関しては、プラットフォームは WarpLDA トピック抽出アルゴリズムを使用して開発されています。 WarpLDA は、従来のギブス サンプリング アルゴリズムと比較して、メモリ アクセス効率と並列処理の点でより多くの利点があり、数億のテキストのトピック抽出に使用できます。 真実と偽りを区別する:有効な情報を抽出する 調査中、51CTOの記者は、このプラットフォームが流行データのリアルタイム報告に加えて、流行に関連するホットな話題の分析にも重点を置いていることを知った。 「伝染病の最前線の話、予防と制御対策、または科学の知識や噂を打ち破る情報など、広く普及し人気のあるものであれば、プラットフォームで見つけることができます。そのため、私たちのプラットフォームの位置付けは、むしろ『伝染病の話題のホットリスト』のようなものです」とRealAIのスタッフは紹介した。 モバイル端末でプラットフォームインターフェースを開くと、次のことがわかります。現在、オンラインの特定のセクションには、「今日のホットトピック」キーワード、「ホットエリアランキング」、「リアルタイムホットトピック」トピックランキング、「最近3日間」ホットトピックランキング、「公式ニュースリリース」が含まれます。これらのモジュールを組み合わせて、膨大な量の断片化されたコンテンツの中で、一般向けの情報ポータルを構築します。 これらのモジュールの設定から、情報「過負荷」の問題に対応するために、プラットフォームは大量の情報を自動的にキャプチャし、人々の関心の高いホットニュース、世論の動向、地域の注目の変化を特定し、その過程でニュースの信憑性の識別を完了し、出力情報の信頼性をある程度確保していることがわかります。 RealAI は、効果的な情報をフィルタリングする方法について具体的な指示を与えました。 まず、ニュースソースの捕捉に関しては、国家衛生健康委員会の公式サイト、新華網、人民日報などの権威あるメディアなど、公式チャンネルからの情報を優先し、これらのチャンネルからのニュースに高い重みを持たせます。一般的に言えば、「噂」はソーシャルネットワーキングプラットフォーム上で生成され、拡散されやすいため、Weiboやセルフメディアなどのチャネルの重みは比較的低くなります。 さらに、公式チャンネルで公開された記事は内容がより真面目でスタイルも一貫しているため、ニュースをクロールする際に 1 つのトピックに集中しやすくなります。一方、根拠もなく捏造された噂は、文章の表現や文言がかなり異なることが多く、ニュースをまとめる際に拡散しやすく、話題にまとめるのが難しい。 現在の NLP 分野では LDA トピック モデルの開発にはまだ大きな余地があることから、プラットフォームでは、マシンの欠点を補うために操作中に手動制御も可能になります。 実際、AI技術は、パンデミック以前から、オンライン上の噂やフェイクニュースとの戦いで登場し始めていました。 2019年、アリババはエイプリルフールに「AI Rumor Crusher」をリリースした。このアルゴリズムモデルは、情報の信憑性を判断するために、まず最初の情報源を見つけ、ユーザーのポートレートを分析し、発行者の信頼性を識別すると報告されています。次に、インターネット上のすべての情報源を検索し、関連リンクのドメイン名を分析して通信事業者の信頼性を特定し、最後にテキスト内の主要な議論を絞り込み、ナレッジ グラフ内の権威あるナレッジ ベースと照合して相関関係を確認します。相互に裏付けがあれば信頼性が高く、矛盾があれば信頼性は低くなります。 SemEvalグローバルセマンティックテストでは、このAIテクノロジーの認識精度は81%に達しました。 細部から全体像を見る:感染経路の早期警告 人工知能は、膨大な量の情報をフィルタリングするだけでなく、情報の海に潜む手がかりから危機の発生を予測することもできます。これは、危機的状況に迅速に対応する能力を向上させ、事態の拡大規模を制御する上で重要な役割を果たします。新型コロナウイルスの流行は武漢で発生当初は効果的に封じ込められなかったが、情報収集の不足が原因の一つだった。実際、今年1月には、公衆衛生リスク評価を専門とするカナダの企業BlueDotが、2019年12月下旬に顧客に新型コロナウイルスについて通知していたことが報じられた。 ブルードットの創業者は外国メディアのインタビューで、「同社の早期警報システムはAI(自然言語処理や機械学習を含む)を活用し、毎日65の言語で約10万件の記事を分析し、100以上の感染症の発生を追跡している。このデータは、潜在的な感染症の発生や拡大について顧客にいつ通知すべきかを同社が知るのに役立つ」と説明した。 現在入手可能な情報から判断すると、BlueDot は使用しているアルゴリズムを公開していません。同社は、比較的混乱を招く情報を含むソーシャル メディアを避け、多言語のニュース レポート、公式発表、動物の病気に関するレポートを収集し、世界の航空動向と気象データを統合して、顧客に早期警告を提供します。 BlueDot は、データソースは主に 3 つの側面から来ていると主張しています。1 つは世界的なニュース報道で、キーワードは基本的に伝染病、動物の病気、公衆衛生に関連しています。もう 1 つは航空券データで、世界的な航空券データベースのデータを使用して、感染が疑われる人の流れを追跡し、感染が影響を及ぼし拡大する可能性のある都市を予測し、関連情報を顧客に迅速に通知します。もう 1 つは、一定期間にわたる特定の地域の気候、気温、家畜の変化を監視することです。以前、ブルードットは、ウイルスが最初の出現から数日以内に武漢からタイのバンコク、韓国のソウル、中国の台北、日本の東京に広がると正確に予測していた。 世界を見渡すと、AIは疾病予防において成果を上げており、将来的には公衆衛生計画における信頼できるツールとなる可能性があるものの、現在の疾病予測アルゴリズムは依然として予測モデルの欠陥に直面する必要があります。 2008年にGoogleがリリースしたインフルエンザ流行予測ツール「Flu Trends」がその代表例です。 Flu Trends は、数百万のユーザーの健康データを監視し、数十か国におけるインフルエンザの傾向予測を提供します。しかし、2012年のインフルエンザ流行の際、CDCはさまざまな場所からデータを収集し、 Googleの予測が実際の状況よりもほぼ100%誇張されていることを発見しました。その後の調査で、 Google のエンジニアは検索キーワードとインフルエンザの蔓延の関係を理解しておらず、さまざまな情報の背後にあるつながりを詳細に分析していなかったため、最終的に不合理な結果につながったことが判明しました。その後、エンジニアたちはアルゴリズムの微調整を続けましたが、一つを修正するたびに、別の部分に予期しないエラーが発生していました。疫病との戦いにおける、常に変化する情報戦場において唯一不変なものは、常に変化する「アルゴリズム」であると言える。 光と影の双子:AIがもたらす世論リスク 情報戦の場において、AIは世論を導く上で積極的な役割を果たすことができるが、AIが不適切に使用されると、世論のパニックを引き起こす可能性もあることを無視することはできない。テクノロジー自体には価値はありませんが、テクノロジーのユーザーには価値観があります。 AI テクノロジーは、さまざまな利害関係者の手に渡れば、必然的にさまざまな結果を生み出します。 2019年にソーシャルメディア上でAIによる顔を変えるアプリが人気となり、物議を醸した。顔写真さえあれば、AI 顔変換技術を使って、選択した動画の登場人物にその写真を「移植」することができます。その結果得られる動画は、滑らかな画像と登場人物の自然な表情を持ち、本物とほとんど区別がつかないほどになります。インターネットに溢れる合成画像、合成音声、その他の合成製品は、「見たものが必ずしも聞いたものとは限らない」ということを明らかにしています。 これらの技術は多くのユーザーに興味深い体験をもたらしましたが、AIがパンドラの箱を開け、倫理と法律の限界を超え、著作権、肖像権、個人のプライバシーに関する隠れた危険をもたらし、盗難、詐欺、エロビデオ制作などの「テクノロジーの悪」の混乱を引き起こす可能性があると疑問視する人もいます。 さらに深刻なのは、AI技術が悪意を持ってニュースを捏造し、広く拡散させるのに利用された場合、噂の「発酵とエスカレーション」につながり、世論の方向性にさえ影響を与える可能性が非常に高いことです。 2018年、アメリカの制作会社「モンキーズ・ポー」はAIを使ってオバマ大統領が現アメリカ大統領トランプ氏を厳しく批判するビデオを制作した。しかし実際は、オバマ氏の表情や動きは「猿の手」の創始者であるピール氏から合成されたものである。もっと極端な見方をすれば、権威ある組織の公式ニュースリリースプラットフォームやメディアアカウントがハッカーにコントロールされ、AI合成テキスト、動画、音声が拡散されれば、世論操作や国民感情の煽動、世論の嵐を引き起こすことが容易になるだろう。 また、「ロボット水軍」にも警戒する必要がある。その存在自体が世論の生態系に影響を与えており、すでにいくつかのプラットフォームで規模を形成している。たとえば、オンライン ストアではロボットを使用して良いレビューを投稿します。スパム メッセージを投稿するために人を雇う場合と比べると、機械によって自動的に生成される情報は密度が高く、より腐食性が高く、実際のレビューをかき消す可能性が高くなります。ロボット軍隊が社会的なイベントに導入されれば、世論は必然的に動揺し、真実は隠され、国民は騙され、国家の安全保障さえも危険にさらされる可能性があると考えられる。さらに皮肉なのは、ほとんどの人がこのことに気づいていないかもしれないということです。このままだと、「ブラックスワン」は来なくなっても、「グレーサイ」は突然やってくることになる。 参考:AI疫学者が武漢ウイルスの最初の警告を発した https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/amp [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: 2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない
>>: 人工知能は私たちの仕事を奪うのでしょうか?北京大学の教授2人は次のように解釈した。
6月6日、2021年世界人工知能技術大会の「発展と課題」特別フォーラムが杭州で開催された。快手テク...
人工知能と機械学習は当初は懐疑的な見方に直面していたかもしれないが、新たな報告書によると、パンデミッ...
自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...
[[255991]]継続的な学習と継続的な開発は、主流の IT 業界のプログラマーにとって日常的な...
著者 | 王 睿平今日、大規模言語モデル技術が継続的に成熟するにつれ、専門家はそれを活用してインテリ...
IT Homeは2月27日、2024年のモバイル・ワールド・コングレスでマイクロソフトのブラッド・ス...
[[393199]]画像提供:ロイター/セルジオ・ペレスエマニュエル・ラガリグシュナイダーエレクトリ...
翻訳者 | 陳俊現在、人工知能(AI)はさまざまな企業や業界で広く利用されています。それは産業のトレ...
検索エンジンは誕生以来、基本的な検索エージェントから人工知能 (AI) と機械学習 (ML) に基づ...
30年以上沈黙していた「人工知能」という言葉は、ここ2年で非常に人気が高まり、テクノロジー企業の主...
調査によると、2024年の世界のテクノロジー市場では期待できる出来事がたくさんあることが分かっていま...
ビッグデータダイジェスト制作ディープラーニングの三大巨頭の一人として知られるヤン・ルカン氏は、常に楽...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...