人工知能とビッグデータの隠れた危険性とは何でしょうか?

データの不足から現在では大量のデータが存在するまで、近年では利用可能なデータの量が飛躍的に増加し、ビッグデータが遍在するようになりました。これは、データロギングデバイスの数が急増し、モノのインターネットを通じてこれらのデバイスが接続されるようになったためです。ビッグデータを収集し、分析する力は誰もが持っているようです。

しかし、ビッグデータは本当に万能なのでしょうか? ビッグデータがすでに特定の分野に重大な影響を及ぼしていることは間違いありません。たとえば、ほぼすべての成功した AI ソリューションには、ビッグデータ処理の問題が伴います。

まず最初に注目すべき点は、AI は現在、大規模なデータセット内のパターンや関係性を見つけることに非常に優れているものの、まだそれほどインテリジェントではないということです。数字を分析することは、データ内の微妙なパターンを識別して発見するのに効果的ですが、これらの相関関係のどれが実際に意味があるかを直接知ることはできません。

相関関係と因果関係

「相関関係は因果関係を意味しない」ということは誰もが知っています。しかし、人間の脳はパターンを探すようにできており、曲線が一緒に傾斜し、データに明確なパターンが現れると、脳は自動的に結論を導き出します。 ”

しかし、統計的には、私たちはまだこの飛躍を遂げることができていません。『False Correlations』の著者タイラー・ヴィゲン氏は、自身のウェブサイトでこの点を揶揄するとともに、森林火災からサメの襲撃、ポリオの流行まで、アイスクリームがいかに多くの悪影響を引き起こしているかを示す多くの例を挙げている。

これらのエピソードを見ると、アイスクリームはずっと前に禁止されるべきだったと主張する人もいるかもしれない。そして実際、1940年代のポリオの例では、公衆衛生の専門家は「反政治的な食事」の一環として人々にアイスクリームを食べるのをやめるよう推奨しました。幸いなことに、彼らは最終的に、ポリオの発生とアイスクリームの消費との相関関係は「ポリオの発生が夏季に最も多く発生するという事実のみによる」ことに気付きました。

統計学では、疑似関係または疑似相関とは、2 つ以上のイベントまたは変数が関連しているが、何らかの偶然または何らかの第 3 の目に見えない要因 (「共通応答」変数、「交絡因子」または「潜在変数」と呼ばれる) の存在により因果関係がある数学的関係です。このような「潜在変数」の例としては、アイスクリームの売上とサメの攻撃の相関関係が挙げられます (ただし、アイスクリームの売上が増加してもサメが人を攻撃することはありません)。ただし、これら 2 つの数値には共通のリンクがあり、それは気温です。気温が高くなると、アイスクリームを購入する人や泳ぎに行く人が増えます。したがって、この「潜在変数」が、明らかに相関関係の原因です。幸いなことに、私たちは原因と原因を区別する方法を学んできました。そして、暑い夏の日にポリオの発生やサメの攻撃を心配することなく、アイスクリームを楽しむことができます。

相関関係の力と限界

十分なデータがあれば、計算能力と統計アルゴリズムによってパターンが発見されます。しかし、すべてのパターンが意味を持つわけではありません。誤ったパターンの数が意味のあるパターンの数を簡単に上回る可能性があるからです。ビッグデータとアルゴリズムを組み合わせることは、問題解決に正しく適用すれば、非常に便利なツールになります。しかし、データを分析するだけでこの問題を解決できると考える科学者はいません。また、統計分析がいかに強力であっても、解決しようとしている問題に対する基本的な理解に基づいて分析を行う必要があります。

データサイエンスは科学の終焉か?

2008 年 6 月、Wired 誌の元編集長 C. アンダーソンは、「理論の終焉: データが科学的手法を時代遅れにする」という刺激的な記事を書きました。「相関関係が因果関係に取って代わり、首尾一貫したモデルや統一理論がなくても科学は進歩できる。」

このアプローチの強さと汎用性はデータの量に依存します。つまり、データが多いほど、計算によって発見された相関関係に基づくアプローチは強力かつ効果的になります。コンピューターに数字を入力するだけで、統計アルゴリズムが自動的に興味深いパターンや洞察を発見してくれます。

しかし、この単純化された分析アプローチには潜在的な落とし穴もあり、それは John Poppelaars のブログにある例でよく示されています。

ある変数 Y の予測モデルを作成したいとします。例としては、企業の株価、オンライン広告のクリック率、来週の天気などが挙げられます。次に、使用できるすべてのデータを収集し、統計プロセスにかけ、Y に最適な予測モデルを見つけます。一般的な手順としては、まずすべての変数を使用してモデルを推定し、重要でない変数を除外し、次に選択した変数のサブセットを使用してモデルを再推定し、重要なモデルが見つかるまでこのプロセスを繰り返すことです。

しかし、アンダーソンが提案した分析方法にはいくつか重大な欠陥があります。インスタンスを選択し、0 から 1 の間の均一分布から 100 個のサンプルを抽出して Y のデータポイントのセットを作成しました。これはランダムノイズです。次に、0から1の間の均一分布から100個のサンプルを抽出して、50個の説明変数X(I)のセットを作成しました。したがって、50 個の説明変数もすべてランダムノイズです。すべてのX(I)変数を使用して線形回帰モデルを推定し、yを予測します。相関するものが何もないので（すべての変数が均一に分布し、独立しているため）、R²(0) が期待されますが、そうではありません。結果は0.5です。ランダムノイズに基づく回帰としては悪くないですね！幸いなことに、このモデルはそれほど重要ではありません。重要でない変数は徐々に排除され、モデルが再評価されました。有意なモデルが見つかるまでこのプロセスが繰り返されます。いくつかのステップを経て、調整済み R 二乗が 0.4、有意水準が少なくとも 99% の 7 つの変数を持つ有意なモデルが見つかりました。ここでも、まったく関係のないランダムノイズを回帰していますが、それでも 7 つの重要なパラメータを持つ重要なモデルが見つかります。パターンを探すために統計アルゴリズムにデータを単純に入力すると、このような結果になります。

データセットが大きくなればなるほど、ノイズも増える

最近の研究では、データセットが大きくなるにつれて、そこに必然的に任意の相関関係が含まれるようになることが実証されています。これらの相関関係はデータのサイズによってのみ現れるため、相関関係の多くは偽物であることが示唆されます。残念ながら、表面には多くの情報が表示されていますが、実際にはほとんど何も表示されていません。

これは、多次元データを処理するアプリケーションでは大きな問題となります。たとえば、工場内の何千ものセンサーからセンサーデータを収集し、そのデータからパターンを抽出してパフォーマンスを最適化するとします。この場合、実際の運用パフォーマンス指標ではなく、データパフォーマンスの外観に惑わされやすくなります。これは、財政的にも、工場の安全な運営の面でも悪いニュースとなる可能性がある。

データの追加と情報の追加

データサイエンティストとして、私たちは AI モデルを改善するための最善の解決策は「データを追加すること」であるとよく言います。しかし、単に「データを追加する」だけでモデルのパフォーマンスは向上するのでしょうか? 実際にはそうではありません。私たちが注力すべきなのは、「より多くの情報を追加すること」です。「データの追加」と「情報の追加」の区別は重要です。データを追加することは、情報（少なくとも有用で正しい情報）を追加することと同じではありません。逆に、盲目的にデータを追加し続けると、間違った情報を含むデータが追加され、モデルのパフォーマンスが低下するリスクがあります。アクセスされるデータが増え、それを処理するために利用できる計算能力が増えるにつれて、これを考慮することがますます重要になってきます。

結論は

では、上記の課題を理由に、データ主導の意思決定の導入を諦めるべきでしょうか? いいえ、データ主導の意思決定は今後も継続されます。データと情報を最大限に活用してパフォーマンスを向上させる方法についての知識が増えるにつれて、これらはますます価値が高まります。

しかし、ソリューションを成功させるには、ハードウェアと大量のデータだけでなく、ビッグデータと計算能力も必要であることを認識してください。また、データ接続の基本的な仕組みを理解する必要があります。データはすべてを語れるわけではありません。数字に意味を与えるのは人間です。データの量と種類は変更できません。

<<: 5G、自動運転、人工知能はどの段階にあるのでしょうか?一枚の写真でわかる

>>: ファーウェイの孫茂陸氏：今後5年間で10億ドルを投資し、スマートエンタープライズサービスを構築する