ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

シュメール王国の時代から、この賢明な王国の人々はデータを記録し、国勢調査を実施し、食糧を配給し始めました。

[[410166]]

世界最古の文明の一つであるシュメールの人口調査記録

シュメール人は、書かれたデータ分析の最も初期の記録を提供しました。

コンピュータの出現により、人々はマシンを使用して大規模なデータセットを分析するようになりましたが、この段階はメインフレームの時代にまで遡ります。

[[410167]]

コンピューターはデータ分析の速度を大幅に加速し、監査や国勢調査で広く使用されています。

大量のデータ分析と社会問題、すなわち計算社会科学を組み合わせたこの研究は、近年大きな進歩を遂げています。

この驚異的な成長により、無制限かつ規制のないデータ収集が実現します。

ここには大きなリスクがあります。監視の欠如と匿名化されたデータからの再識別のリスクです。

関係者の同意を得ずにデータが収集されたらどうなるのかと心配する人もいます。

データのほとんどが少数の大手テクノロジー企業によって独占されていたらどうなるでしょうか?

大手テクノロジー企業がデータをコントロールしているだけでなく、データの使用権も先進国や富裕層に傾いており、このようにしてなされる決定は必然的に偏ったものとなっている。

したがって、今必要なのは、社会科学とさまざまな分野、そして大規模なデータセットを収集して分析するために必要なスキルを組み合わせることであり、そのためには学際的なコラボレーションが必要です。

しかし、学際的なコラボレーションは現在多くの課題に直面しています。

本日、Nature は特別号の形で、計算社会科学が直面している現在の課題と機会について議論しました。

分野を超えた言語の壁を乗り越える

計算社会科学は、社会科学、自然科学、計算科学を統合します。

同じ単語でも、主題によって意味が異なる場合があります。その場合、「話が食い違ってしまう」ことはよくあります。

たとえば、社会科学では、「予測」という言葉は通常「相関関係」を意味しますが、物理科学では、この言葉は「予言」を指します。

「トークン」は分野によって意味が異なります

したがって、同じ用語が異なる意味を持つ可能性がある異なる分野間の言語の壁を乗り越える必要があります。学際的な研究を行う場合、科学者はまずお互いの言語を学び、相互に理解できる用語を見つける必要があります。

しかし、言語の壁よりも難しいのは、データをどのように提示し、分析し、解釈し、最終的に特定の現象を説明するかということです。

たとえば、交通渋滞の原因を理解するために、研究者は交通の流れのデータを収集して予測し、ドライバーが特定のルートを選択する理由を学びます。計算社会科学における分野の補完的な性質により、研究上の質問に効率的に答えることができます。

データ処理における大きなタブー

すべての研究結果は分析戦略と、特にソーシャル データを扱う場合にはデータの品質に依存します。

計算社会科学研究を行うには、まず携帯電話の位置情報などの大量のデータが必要です。しかし、この情報は通常、研究目的で収集されるものではなく、簡単に誤解される可能性があります。

単に数字の傾向やパターンを観察するだけで結論を導き出すことは、大規模なデータセットを扱う研究者にとって大罪です。研究者は結果に影響を与えた可能性のある要因を考慮する必要があります。

データの真の意味を引き出すには、研究者は理論に基づいて測定対象を慎重に定義し、それを適切に検証および解釈する必要があります。

[[410168]]

アルゴリズムの広範な影響も、潜在的なエラーの 1 つです。アルゴリズムは社会全体に浸透しており、さまざまな方法で個人や集団の行動に影響を与えています。つまり、すべての観察結果は人間の行動だけでなく、アルゴリズムが人々の行動に与える影響も表しているということです。

社会科学の理論は、アルゴリズムの影響を認識するために更新される必要があります。これらの理論がなければ、また、利用可能なデータに対するアルゴリズムの影響を明確に理解しなければ、研究者は有意義な結論を導き出すことができません。

データ共有の難しさ

計算社会科学のもう 1 つの複雑な点は、大規模なデータセットが多くの場合、営利企業の私有財産であることです。学術研究者はアクセスを得るために産業界と連携する必要があり、それがさらなる偏見を生み出す可能性がある。

[[410169]]

データは企業にとって貴重なものなので、それを共有すると企業の収益が損なわれます。これが、企業が共有内容を制限する傾向がある理由の 1 つです。

しかし、このデータがもたらす社会的利益を考えると、企業は学術研究者や公的機関とともに協力してこれらの問題に対処し、データの品質、データへのアクセス、データの所有権に関する基準を設定する必要があります。

データ収集の未来

「人間の社会的認識」に関する記事には、有用かつ信頼性の高いデータを取得するためのいくつかの方法がリストされています。これは、個人がソーシャルネットワーク内で他者に関する情報をどのように収集するかを研究するものです。

たとえば、研究者は被験者にインタビューし、友人たちが何について話しているのかを尋ねることで、政治的意見の変化を予測することができます。

他者からデータを収集すると、自己報告データに生じる偏りの一部を回避するのに役立ちます。また、匿名データを生成すると、取得したデータに関する個人情報や機密情報を知る必要がないという追加の利点もあります。

[[410170]]

感染症のモデル化と行動科学の交差点で証明されているように、データの取得方法はより洗練されてきました。

伝染と感染の正確なモデルを構築するには、研究者は病気が発生する集団の文化と行動を理解する必要があります。これらや感染の他の社会的側面を考慮しなければ、病気の進行経路を予測することは困難です。学際的な構造と広範なコラボレーションが鍵となります。

COVID-19パンデミックは、大規模なデータセットを科学に応用することで人命を救えることを示しました。コンピュータサイエンスや応用数学のバックグラウンドを持つ研究者が社会科学者と協力するにつれて、この可能性は現れ始めたばかりです。

<<:  革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

>>:  SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

ブログ    
ブログ    

推薦する

量子コンピューティングの「GPT の瞬間」はもうすぐ来るのでしょうか?企業はどのように準備すべきでしょうか?

科学技術の世界では、大きな技術的進歩が一夜にして起こることはめったになく、多くの場合、何十年にもわた...

マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIは人間の編集者に代わる最初の試みに失敗した。WikipediaはCNET Mediaを信頼できる情報源とみなさなくなった

3月2日のニュースによると、数秒以内にニュース記事を生成することは、メディア業界にとって確かに非常に...

従来の連合学習が異種混在の課題に直面したときは、これらのパーソナライズされた連合学習アルゴリズムを試してみてください。

この記事では、パーソナライズされた連合学習に関する 3 つの記事を厳選して詳細に分析します。従来の機...

...

3.15を利用して、あなたの周りの偽の人工知能を数えましょう

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

Python 転移学習: 機械学習アルゴリズム

機械学習は、非常に幅広い領域をカバーする人工知能の人気のあるサブフィールドです。その人気の理由の 1...

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

テンセントテクノロジーニュース、1月29日、海外メディアの報道によると、グーグルCEOサンダー・ピチ...

中国AIGC広告・マーケティング業界パノラマレポート:5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に

インターネット トラフィックの配当が薄れるにつれ、広告およびマーケティング業界は既存の市場シェアをめ...

Python か Java か? 2020年、優秀なプログラマーが習得すべき7つのプログラミング言語

どのプログラミング言語が最適ですか?この質問には答えがないかもしれません。人によって好みは異なります...