ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

シュメール王国の時代から、この賢明な王国の人々はデータを記録し、国勢調査を実施し、食糧を配給し始めました。

[[410166]]

世界最古の文明の一つであるシュメールの人口調査記録

シュメール人は、書かれたデータ分析の最も初期の記録を提供しました。

コンピュータの出現により、人々はマシンを使用して大規模なデータセットを分析するようになりましたが、この段階はメインフレームの時代にまで遡ります。

[[410167]]

コンピューターはデータ分析の速度を大幅に加速し、監査や国勢調査で広く使用されています。

大量のデータ分析と社会問題、すなわち計算社会科学を組み合わせたこの研究は、近年大きな進歩を遂げています。

この驚異的な成長により、無制限かつ規制のないデータ収集が実現します。

ここには大きなリスクがあります。監視の欠如と匿名化されたデータからの再識別のリスクです。

関係者の同意を得ずにデータが収集されたらどうなるのかと心配する人もいます。

データのほとんどが少数の大手テクノロジー企業によって独占されていたらどうなるでしょうか?

大手テクノロジー企業がデータをコントロールしているだけでなく、データの使用権も先進国や富裕層に傾いており、このようにしてなされる決定は必然的に偏ったものとなっている。

したがって、今必要なのは、社会科学とさまざまな分野、そして大規模なデータセットを収集して分析するために必要なスキルを組み合わせることであり、そのためには学際的なコラボレーションが必要です。

しかし、学際的なコラボレーションは現在多くの課題に直面しています。

本日、Nature は特別号の形で、計算社会科学が直面している現在の課題と機会について議論しました。

分野を超えた言語の壁を乗り越える

計算社会科学は、社会科学、自然科学、計算科学を統合します。

同じ単語でも、主題によって意味が異なる場合があります。その場合、「話が食い違ってしまう」ことはよくあります。

たとえば、社会科学では、「予測」という言葉は通常「相関関係」を意味しますが、物理科学では、この言葉は「予言」を指します。

「トークン」は分野によって意味が異なります

したがって、同じ用語が異なる意味を持つ可能性がある異なる分野間の言語の壁を乗り越える必要があります。学際的な研究を行う場合、科学者はまずお互いの言語を学び、相互に理解できる用語を見つける必要があります。

しかし、言語の壁よりも難しいのは、データをどのように提示し、分析し、解釈し、最終的に特定の現象を説明するかということです。

たとえば、交通渋滞の原因を理解するために、研究者は交通の流れのデータを収集して予測し、ドライバーが特定のルートを選択する理由を学びます。計算社会科学における分野の補完的な性質により、研究上の質問に効率的に答えることができます。

データ処理における大きなタブー

すべての研究結果は分析戦略と、特にソーシャル データを扱う場合にはデータの品質に依存します。

計算社会科学研究を行うには、まず携帯電話の位置情報などの大量のデータが必要です。しかし、この情報は通常、研究目的で収集されるものではなく、簡単に誤解される可能性があります。

単に数字の傾向やパターンを観察するだけで結論を導き出すことは、大規模なデータセットを扱う研究者にとって大罪です。研究者は結果に影響を与えた可能性のある要因を考慮する必要があります。

データの真の意味を引き出すには、研究者は理論に基づいて測定対象を慎重に定義し、それを適切に検証および解釈する必要があります。

[[410168]]

アルゴリズムの広範な影響も、潜在的なエラーの 1 つです。アルゴリズムは社会全体に浸透しており、さまざまな方法で個人や集団の行動に影響を与えています。つまり、すべての観察結果は人間の行動だけでなく、アルゴリズムが人々の行動に与える影響も表しているということです。

社会科学の理論は、アルゴリズムの影響を認識するために更新される必要があります。これらの理論がなければ、また、利用可能なデータに対するアルゴリズムの影響を明確に理解しなければ、研究者は有意義な結論を導き出すことができません。

データ共有の難しさ

計算社会科学のもう 1 つの複雑な点は、大規模なデータセットが多くの場合、営利企業の私有財産であることです。学術研究者はアクセスを得るために産業界と連携する必要があり、それがさらなる偏見を生み出す可能性がある。

[[410169]]

データは企業にとって貴重なものなので、それを共有すると企業の収益が損なわれます。これが、企業が共有内容を制限する傾向がある理由の 1 つです。

しかし、このデータがもたらす社会的利益を考えると、企業は学術研究者や公的機関とともに協力してこれらの問題に対処し、データの品質、データへのアクセス、データの所有権に関する基準を設定する必要があります。

データ収集の未来

「人間の社会的認識」に関する記事には、有用かつ信頼性の高いデータを取得するためのいくつかの方法がリストされています。これは、個人がソーシャルネットワーク内で他者に関する情報をどのように収集するかを研究するものです。

たとえば、研究者は被験者にインタビューし、友人たちが何について話しているのかを尋ねることで、政治的意見の変化を予測することができます。

他者からデータを収集すると、自己報告データに生じる偏りの一部を回避するのに役立ちます。また、匿名データを生成すると、取得したデータに関する個人情報や機密情報を知る必要がないという追加の利点もあります。

[[410170]]

感染症のモデル化と行動科学の交差点で証明されているように、データの取得方法はより洗練されてきました。

伝染と感染の正確なモデルを構築するには、研究者は病気が発生する集団の文化と行動を理解する必要があります。これらや感染の他の社会的側面を考慮しなければ、病気の進行経路を予測することは困難です。学際的な構造と広範なコラボレーションが鍵となります。

COVID-19パンデミックは、大規模なデータセットを科学に応用することで人命を救えることを示しました。コンピュータサイエンスや応用数学のバックグラウンドを持つ研究者が社会科学者と協力するにつれて、この可能性は現れ始めたばかりです。

<<:  革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

>>:  SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

ブログ    

推薦する

大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

業界最先端の大型モデルが一斉に「脱獄」! GPT-4 だけでなく、通常はそれほど間違いを起こさない ...

...

AIが物流業界に革命を起こす5つの方法

人工知能は物流業界に革命を起こす上で重要な役割を果たします。グローバル化により、あらゆるものがデジタ...

私たちはこれらのソートアルゴリズムを本当に理解しているのでしょうか?

[[379394]]おそらく、あなたはすでにこれらの一般的なソートアルゴリズムを学んだことがあるか...

機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能の時代、主役となるのは誰でしょうか?

[[382357]] 1990年代、米国はコンピュータ産業の早期発展の機会をいち早く捉え、デジタル...

シアトル港が機械学習を活用して航空貨物業務を効率化する方法

シアトル港は100年以上の歴史がありますが、非常に新しい技術を導入しています。シアトル港とシアトル・...

人工知能に関するTEDトークトップ10

この一連の講演では、人工知能 (AI) と機械学習に関する興味深い議論やセッションを「全体像」の観点...

米連邦取引委員会は、ChatGPTによるデータ漏洩と回答の捏造を含むOpenAIに対する徹底的な調査を開始した。

ワシントンポスト紙によると、7月13日、米国連邦取引委員会(FTC)はサンフランシスコに拠点を置くO...

Google が使用する 4 つのデータ指標モデル

この目的のために、市場で一般的なデータ モデルを見つけて整理し、分析することができます。主流のデータ...

すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

最近、トロント大学、MIT、Waabi AIの研究者らがCVPR 2023の論文で新しい自動運転シミ...

...

Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

中国・北京(2019年11月21日) – 世界的に有名な知能ロボット企業であるG​​eek+は、今年...

...