ビッグデータの時代において、データは人類の生産、生活などに多大な利便性をもたらす一方で、多くの問題も引き起こしています。データの悪用に関して言えば、最も典型的な現れは価格操作です。商人はアルゴリズムの不透明性と限界を利用して、「人によって異なる価格」、「ダイナミックプライシング」、「ビッグデータによる古い顧客を殺す」などを実行し、不公平な方法で巨額の利益を上げています。データセキュリティレベルでは、個人情報の収集には多くの問題があります。商人はユーザーのポートレート技術を使用して、個人情報を深く掘り下げます。多くのモバイルインターネットアプリケーションは、デフォルトのチェックボックスとプライバシー条項の不公平な条件を使用してユーザー情報を取得し、許可なくユーザー情報を取得することさえあります。さらに、犯罪者は情報システムの抜け穴やハッキング技術を悪用して個人情報を盗み、深刻な個人情報漏洩を引き起こします。漏洩したデータは闇市場で売買され、「データベース衝突」攻撃が頻繁に発生し、個人情報漏洩の現象がさらに深刻化しています。データ闇産業は成熟した産業チェーンに発展しています。こうしたデータの不正使用やデータセキュリティの問題は、データ価値の解放に影響を及ぼす「障害」となるでしょう。 1. アイデンティティ、偏見、そして同調ビッグデータ時代において、インターネット上のコンテンツは爆発的な成長傾向を示しています。複雑なオンラインコンテンツから必要な情報をどのように選択するかは、多くのインターネットユーザーにとっての関心事となっています。当初、検索エンジンの登場によりこの問題は軽減されました。ただし、検索エンジンでは、検索を通じてターゲットを見つける前に、ユーザーがどのようなコンテンツを取得したいのかを知る必要があることがよくあります。たとえば、映画愛好家は、さらに検索を進める前に、自分がどんなタイプの映画が好きなのかを知る必要がありますが、問題は、多くの場合、私たち自身の好みについてあまり知らないことです。このとき、データマイニングアルゴリズムが誕生しました。関連するアルゴリズムは、ユーザーの履歴データに基づいてユーザーの好みに合ったコンテンツをプッシュするもので、Weibo、Douban、Toutiao などのソーシャルおよび情報アプリケーションで広く使用されています。データマイニングアルゴリズムは、人間から既存のデータを受け取って学習する「人間のような」機械のようなもので、その推論と出力も人間の思考に従って行われます。そのため、出力内容には人間の価値観や好みも反映されます。 データマイニングアルゴリズムは「人間のようなもの」なので、人間の本質における認知的限界の要素も含まれている可能性があります。したがって、私たちはまず、社会心理学の観点から、人間社会に存在する同一化、偏見、同調などの認知的限界について検討する必要があります。 同一化とは、実生活で成功や満足感を達成できないことによって引き起こされるフラストレーションや不安を解消するために、自分よりも高い地位や業績を持つ人々を肯定することを指します。同一視は、個人になかなか得られない満足感をもたらしたり、他人の成功を心理的に共有することで自信を高めたりすることができます。たとえば、「キツネはトラの力を借りて他のキツネをいじめる」や「醜い女は醜い女の真似をする」はどちらも同一視の例です。識別は、組織との同一性を意味する場合もあります。例えば、若くして学校を中退した人が学術研究グループに参加し、グループの名誉会員となり、グループ内での自分の重要性を常に他人に誇示します。 偏見とは、特定の人やグループに対する不公平で、不合理で、否定的で、否定的な態度のことです。偏見とは、客観的な事実に基づいて人々が抱く、人や物事に対する否定的な認識のことです。ほとんどの場合、偏見とは、特定の社会集団のメンバーに対する、その集団の所属に基づく態度であり、多くの場合、誤った否定的または敵対的な態度です。たとえば、人々は性別、肌の色、宗教的信念などに基づいて、他の人やグループに対して偏見や差別を抱きがちです。 同調とは、集団の指導や圧力により、個人の考えや行動が無意識的または不本意に多数派の考えや行動と一致するようになる社会心理現象を指します。通常、多数派の意見は正しい場合が多く、多数派に従うことは一般的に間違いではありませんが、これにより、個人が分析を欠き、独立して考えなくなり、正しいか間違っているかに関係なく多数派に従うようになり、否定的で盲目的な群衆心理が生まれます。フランスの社会心理学者ギュスターヴ・ル・ボンの著書『群衆:大衆心理の研究』は、大衆心理を研究した作品です。この本の中で、ル・ボンは集団の特性と集団心理について詳しく説明し、個人が孤立しているときは独自の明確な個性を持っているが、集団に統合されると、その人の個性はすべて集団に飲み込まれ、その人の考えはすぐに集団の考えに置き換えられると指摘した。 2. 同意できるコンテンツのみを表示する現在、アルゴリズムには非常に明白な特徴があり、それは人々が同意するコンテンツのみを見ることができるという制限でもあります。一般的に使用されているパーソナライズされた推奨アルゴリズムを例にとると、パーソナライズされた推奨アルゴリズムが機能するには 2 つの基盤が必要です。1 つはアルゴリズムのトレーニング データであり、もう 1 つはアルゴリズム モデルの設計です。アルゴリズムのトレーニングデータの観点から、多くのユーザーの個人的な好みのデータを収集する必要があることがよくあります。たとえば、映画、携帯電話、ニュースなどの好み。アルゴリズムモデル設計の観点から見ると、このアルゴリズムの原理は、ユーザーの個人的な好みのデータに基づいて、同様の興味を持つユーザーを見つけ、推奨を行うことです。映画の推薦を例にとると、個人の好みのデータを比較すると、張三と李思は同じ映画を数本見るのが好きで、同じ映画を数本見るのは嫌いだということがわかります。このことから、2 人のユーザーは映画の好みが非常に似ていると判断できます。したがって、張三が好きだが李思が見ていない映画を李思に推奨することができ、パーソナライズされた推奨が実現します。この推奨アルゴリズムは、図 1 に示すように、ユーザーの協調フィルタリングに基づいています。日常生活における「類は友を呼ぶ」という特性を活用し、対象ユーザーの嗜好を判断する必要はなく、対象ユーザーが共感するユーザーグループを発見し、嗜好が似ているグループ内で推薦活動を行うことに重点を置いています。このアルゴリズムは学界やビジネス界で広く認知され、これをベースに改良されたさまざまなアルゴリズムが次々と登場しています。 図1 協調フィルタリングアルゴリズムの概略図 ただし、このようなパーソナライズされた推奨が継続すると、アルゴリズムが悪循環に陥り、ユーザーが同意するコンテンツのみが表示されるようになる可能性があります。たとえば、ユーザーに情報をプッシュするアプリは、ユーザーの好みに合った情報やユーザーが同意する情報を毎日プッシュします。ユーザーがスポーツニュースに細心の注意を払えば、アプリがプッシュするニュースは最終的にスポーツ情報にますます重点を置くようになり、社会生活や国情などのコンテンツに対するユーザーの関心が目に見えない形で低下することになります。そのため、ソーシャル アプリや情報アプリを開くと、プッシュ通知が基本的にすべて同じ種類のコンテンツであることに気付くことがあります。 この意味で、パーソナライズされた推奨アルゴリズムを設計する本来の目的は、ユーザーが情報を発見できるようにすることですが、ユーザーの視野と思考を制限し、ユーザーが自ら特定したサークル内に閉じ込められることにもなります。これは、人間の固有のアイデンティティ、偏見、群集心理、社会的属性に関連しています。人間の認知には本来限界があるため、人間の思考に基づいて作成されたアルゴリズムにも必然的に限界があります。この問題は、コンピュータ学者やエンジニアによって徐々に認識されつつあり、アルゴリズムの評価に多様性指標、新規性指標、カバレッジ指標が追加されています。つまり、アルゴリズムの推奨結果は、1 種類のコンテンツだけに集中することはできないということです。しかし、学術界は現在、正確性指標に重点を置いているのに対し、ビジネス界は利益に駆り立てられ、多様性指標、新規性指標、カバレッジ指標を最適化する動機が欠けています。各指標の簡単な紹介を表 1 に示します。 表2 パーソナライズされた推奨アルゴリズムの評価指標の紹介 それでも、これが個人や社会にどれほどの影響を与えることができるのかと疑問に思う人もいるかもしれません。この影響は小さくありません!パーソナライズされた推奨アルゴリズムは情報アプリでのみ使用されるのではなく、コンテンツ作成に重点を置く一部の業界でもこのアルゴリズムが使用されています。 Netflix は 1997 年に設立され、当初は DVD レンタル事業に重点を置いていました。 1998年3月、同社は当時のDVD映画の在庫のほぼすべてにあたる925本の映画を揃えた世界初のオンラインDVDレンタルストアを開設した。同社は 1999 年に月額サブスクリプション モデルを開始し、業界で急速に評判を確立しました。その後、DVDプレーヤーの価格がどんどん安くなり、一般の人が購入できる製品になったため、ユーザー数も飛躍的に増加しました。同社は2005年にオンラインビデオストリーミングサービスを開始し、その後Netflix Prizeアルゴリズムコンテストを立ち上げ、最適化された映画推奨アルゴリズムを開発した開発者に100万ドルの賞金を提供した。 2012年末までに、Netflix の全世界の加入者数は 2,940 万人に達しました。その年、Netflixは独自のコンテンツ制作の実験を始め、2013年に「ハウス・オブ・カード」を配信開始した。非常に高いコンテンツの質と、1シーズン分のコンテンツを一挙に公開する配信方法により、瞬く間に世界中で人気を博しました。現在、Netflix の時価総額はディズニーを上回り、世界トップ 10 のインターネット企業にランクされています。 過去 20 年間の Netflix の急速な発展を振り返ると、パーソナライズされたおすすめが重要な役割を果たしてきました。 「ハウス・オブ・カード」を例にとると、Netflixはかつて、どのシーンを一時停止するか、どのストーリーを早送りするか、どの分を繰り返し見るかなど、視聴者が番組を視聴する際の関連操作を具体的に記録し、ファンの好きな俳優、人気のストーリー、ストーリー展開への期待を把握し、この一連の「情報」に基づいて、「ハウス・オブ・カード」のその後のストーリーの撮影、俳優の選定、セリフの書き方を指導したことがある。 「ハウス・オブ・カード」の大成功は、パーソナライズされたアルゴリズムによる推奨とビッグデータの応用に基づいていると言えます。 Netflix の推奨アルゴリズムはどれほど強力ですか? Netflixの製品イノベーション担当副社長カルロス・ウリベ・ゴメス氏と最高製品責任者ニール・ハント氏の報告によると、このアルゴリズムによりNetflixは年間10億ドルを節約できる可能性があるという。しかし、視聴者の好みに完全に応えるこのアルゴリズムにより、人々は自分が好きなものや同意するものだけを見るようになり、人々の認知の限界がさらに悪化するという結果も見られるはずです。 3. 不公平さがさらに悪化しているデータ マイニング アルゴリズムが広く適用されるようになったことで、別の大きな問題が浮上しました。それは、アルゴリズムの出力が不公平であったり、差別的であったりする可能性があるということです。 2018年、IGが優勝したという朗報がインターネット上で沸き起こった。その後、IGチームのボスはWeiboで抽選を行い、ランダムに113人のユーザーを選び、各人に賞金として現金1万元を贈呈した。しかし、抽選結果は驚くべきものでした。当選者リストには女性112名、男性1名が含まれていました。女性当選者の数は男性当選者の112倍でした。しかし、公式データによれば、この抽選では参加ユーザー全体の男女比は1:1.2であり、男女比に大きな差はないとのこと。その結果、多くのネットユーザーがWeiboの抽選アルゴリズムに疑問を抱き始めた。一部のユーザーは自ら抽選アルゴリズムをテストし、当選者数を参加者数より多く設定したところ、依然として多数のユーザーが当選できなかったことが判明した。賞品を獲得できないこれらのユーザーは、宝くじのアルゴリズムによって「ロボット」と判断された可能性があり、今後の宝くじ活動で当選するチャンスがない可能性があるため、ネットユーザーは彼らが「ジャンクユーザー」であるかどうかを計算するようになりました。 「微博アルゴリズム事件」は街中に大騒ぎを巻き起こした。 実際、このアルゴリズムの公平性に疑問が投げかけられたのは今回が初めてではない。近年、多くのテクノロジー企業のアルゴリズムが差別的であることが発覚している。Google検索では、男性の方が女性よりも高給の求人広告を目にする機会が多い。マイクロソフトの人工知能チャットボットTayは、性差別と人種差別を組み合わせた「悪い女の子」になるように予期せず「教えられた」...これらの事件は広く注目を集めている。アルゴリズム設計者の本来の意図が、ユーザーに役立つ情報を推奨したり、画像を機械認識したり、チャットボットが人間のコミュニケーション方法を継続的に学習できるようにすることであったとしても、アルゴリズムによる意思決定の「ブラックボックス」に直面して、人々はアルゴリズムの意思決定プロセスを理解できず、最終結果しか理解できないことがよくあります。 ビッグデータ アルゴリズムはなぜ差別を行うのでしょうか?コンピュータ分野には GIGO (Garbage in, Garbage Out) という頭字語があり、これは「入力がガベージ データである場合、出力もガベージ データになる」という意味です。ビッグデータの分野でも同様の格言があります。Nature 誌はかつて、データ品質とアルゴリズム結果の精度の間に強い相関関係があることを表現するために BIBO (Bias In, Bias Out) という言葉を使いました。使用するデータを選択する際に、人々は差別的な考え方を持つ傾向があり、それが出力結果に直接影響を及ぼします。たとえば、ナビゲーション システムが最速のルートを選択する場合、システム設計者は道路に関する情報のみを考慮し、公共交通機関のスケジュールや自転車ルートを考慮しないため、車を持たない人は不利になります。さらに、データ収集時に技術的な厳密さと包括性が欠如している可能性があり、その結果、誤報や漏れが発生し、結果の正確性にも影響を及ぼします。その結果、データとアルゴリズムから推測された結果によって、一部の人々には予期せぬ利点がもたらされ、他の人々は不当に不利な立場に置かれる可能性があります。これは、人々が受け入れるのが難しい不公平です。 アルゴリズムによる差別は不公平を引き起こすだけでなく、消費者の個人資産を搾取し続けることになるでしょう。エコノミスト誌によると、2014 年には最も人気のあるウェブサイト上位 100 のうち 1,300 以上が消費者を追跡しました。アルゴリズム技術を利用することで、企業の利益は大幅に増加しました。しかし、羊毛は羊から得られるものであり、これらの利益は実際には消費者から得られるものです。特に、自動運転、犯罪リスク評価、疾病予測などの分野でアルゴリズムがますます広範かつ詳細に適用されるようになると、アルゴリズムによる差別は個人の生命に潜在的な脅威をもたらす可能性さえあります。 アルゴリズムによる差別は海外でも大きな注目を集めている。 2014年、ホワイトハウスはアルゴリズムによる差別の問題について言及したビッグデータ研究報告書を発表し、アルゴリズムによる差別は意図的でない可能性もあれば、社会的弱者グループに対する意図的な搾取である可能性もあると主張した。 2016年、ホワイトハウスは「ビッグデータ:アルゴリズムシステム、機会、公民権」という特別報告書を発表し、信用、雇用、教育、刑事司法におけるアルゴリズムによる差別の問題に焦点を当て、立法、技術、倫理の観点からこれらの問題を改善するよう人々に呼びかけました。アルゴリズムによる差別の問題に対処するため、ビジネス界と学術界は技術レベルと制度レベルで解決策を模索しています。例えば、技術的なレベルでは、マイクロソフトのプログラマーであるアダム・カライ氏は、ボストン大学の科学者と協力し、アルゴリズムにおける性差別を打破するための「単語埋め込み」と呼ばれる技術を研究した。技術的な側面に加えて、システムやルールも重要です。人間社会では、訴訟や審査などの手続きを通じて、多くの不公平な行為や出来事を是正することができます。同様のルールはアルゴリズムにも不可欠です。事後的にアルゴリズムを見直すのは容易なことではありません。事前に関連するシステムやルールを構築しておくのが最善の方法です。今後は、社会のあらゆるセクターが共同で取り組むべき方向性です。 |
>>: 中国情報通信研究院が2021年最初の「信頼できるAI成果」を発表、百度が5つの賞を受賞
12 月 9 日、Amazon Cloud Service (AWS) が開催する年次イベント AW...
将来の子供たちがどんな風になるか想像したことがありますか?最近、TikTokでReminiというミニ...
[[376593]] 1月18日の光明日報によると、近年、中国の製造業は「機械が人間に取って代わる」...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[396585]]ビッグデータダイジェスト制作編纂者:朱克進DeepShake ネットワークのト...
今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...
18 世紀と 19 世紀の最初の産業革命は社会を完全に作り変え、物の製造方法、人々の働き方、そして生...
[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...
[[329133]] DeepMind は今週、強化学習最適化フレームワーク Acme をリリース...
ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか?...
[51CTO.comより引用]データミドルプラットフォームが確立される以前、企業はデータによっても...
農産物における人工知能の応用人工知能は、次のような農産物のあらゆる段階と側面に適用できます。農業: ...