チューリング賞受賞者のジュディア・パールが語る「データだけに頼るな」

チューリング賞受賞者のジュディア・パールが語る「データだけに頼るな」

[[412443]]

現在の人工知能研究コミュニティでは、データ中心の方法が絶対的に優勢であり、そのような方法は確かに目覚ましい成果を達成し、音声認識、コンピュータービジョン、自然言語処理などの重要なタスクに画期的な進歩をもたらしています。それでも、この種の方法の欠点や他の方法の重要な価値について考えてきた研究者もいます。最近、チューリング賞受賞者であり、有名なコンピューター科学者であり哲学者であるジュディア・パール氏が、利便性、透明性、説明可能性という3つの観点から、急進的経験主義と機械学習研究についての考えを述べた短い論文を発表しました。

論文リンク: https://ftp.cs.ucla.edu/pub/stat_ser/r502.pdf

この論文では、Judea Pearl が、データ サイエンスで使用される「データ フィッティング」と「データ解釈」の方法を、利便性、透明性、解釈可能性という 3 つの側面に沿って比較しています。 「データフィッティング」アプローチに対する信念は、合理的な意思決定はデータ自体に隠されているという研究者の信念から生まれます。対照的に、データ解釈学派は、データを知識の唯一の源泉とはみなさず、むしろ現実を解釈するための補助的な手段とみなします。ここでの「現実」とは、データを生成するプロセスを指します。この記事では、因果論理に基づいて、タスクの観点からフィッティングと説明の共生関係を探り、データ サイエンスのバランスを回復します。

進化のシミュレーションとデータサイエンス

私は最近、ある講演に出席しました。講演者は機械学習の哲学を次のように要約していました。「すべての知識は観察されたデータから得られます。その一部は感覚的な経験から直接得られ、一部は文化的または遺伝的に私たちに受け継がれた経験から間接的に得られます。」

聴衆にとってこの発言は自明であり、データ内の条件付き確率のパターンを調べることによって「知識」の本質を分析する方法という講演の雰囲気を決定づけました。当然ながら、表面的には「外部世界」「理論」「データ生成プロセス」「因果関係」「行為主体」「精神的構築」などの概念は含まれません。これらの概念も、必要に応じてデータ内に見つかるからです。言い換えれば、人間がデータを解釈するために使用する概念(起源に関する文化的、科学的、または遺伝的概念)は、それらの概念に意味を与えた元の感覚体験にまで遡り、そこから再派生することができます。

AI の観点から見ると、このデータ中心の哲学は、機械学習研究にとって魅力的で、魅惑的な研究展望を提供します。人間レベルのインテリジェント マシンを開発するには、祖先が知性を獲得した方法に従い、収集可能なすべてのデータを入力として使用し、デジタル マシン上で遺伝的進化と文化的進化の両方をシミュレートすればよいのです。極端な場合、このような見通しは、非常に未来的で野心的なシナリオを思い起こさせる可能性があります。つまり、原始的な生物(アメーバなど)に似た単純なニューラル ネットワークから始めて、環境と相互作用させ、変異させて子孫を生み出し、十分な時間を与えれば、最終的にはアインシュタインのレベルの知能を獲得できるというシナリオです。実際、太古の昔から人類に降り注いできた生のデータのストリーム(もちろん、私たちより前に生きていた原始的な生物が得た感覚入力も含む)がなければ、聖典や神の啓示以外で、アインシュタインが知識、才能、知恵をどこから得たというのでしょうか?

この見通しがどれほど現実的であるかを問う前に、まず 2 つの観察結果を見てみましょう。

1. シミュレートされた進化は、どのような形式であれ、実際には、コネクショニズム、ディープラーニング、ニューラル ネットワーク技術を含む、現在のほとんどの機械学習研究を推進する主要なパラダイムです。これらの技術により、モデルフリーで統計に基づいた学習戦略を展開できます。これらの戦略は、コンピューター ビジョン、音声認識、自動運転車などのアプリケーションで目覚ましい成功を収めています。このような成功により、これらの戦略の妥当性と無限の可能性に対する期待が高まる一方で、モデルベースのアプローチに対する関心も薄れています。

2. データ中心の開発方向の思想的基礎は、西洋哲学の経験主義の分野に深く根ざしています。この哲学の分野では、感覚経験が私たちのすべての概念と知識の究極の源であり、「生来の観念」と「理性」は知識の源としてわずかな役割しか果たさないか、まったく役割を果たさないと信じています。経験主義の思想は、アリストテレスの古代の著作にまで遡ることができますが、イギリスの経験主義哲学者であるフランシス・ベーコン、ジョン・ロック、ジョージ・バークリー、デイヴィッド・ヒューム、そしてより最近の哲学者であるチャールズ・サンダース・パースとウィリアム・ジェームズによってさらに発展しました。実際、現代のコネクショニズムは、合理主義に対する急進的経験主義の大きな勝利と見なされてきました。実際、デジタル マシン上で知識獲得のプロセスをシミュレートする機能は、デジタル マシン上で実験を実行することによって、経験主義と生得性のバランスに関する理論を評価するための非常に柔軟なテストの場を提供します。

哲学的理論をテストすることには利点がありますが、機械学習研究において急進的な経験主義の課題を追求するという考えについては、主に 3 つの懸念があります。経験主義がモデルに基づく科学の原則とバランスを取るべき理由について、3 つの議論を挙げます。モデルベース科学では、学習プロセスは、(a) データと (b) データの生成方法に関する人間が設計したモデルという 2 つの主な情報源によって導かれます。

私はこれら3つの議論を(1)利便性、(2)透明性、(3)説明可能性と名付けました。以下、一つずつ説明します。

利便性

進化は極めて遅いプロセスです。なぜなら、ほとんどの突然変異は役に立たないか有害でさえあり、自然淘汰によって有用な突然変異と役に立たない突然変異が区別され、除去されるのを待つことは、多くの場合、法外なコストがかかるからです。多くの機械学習タスクでは、ランダムな突然変異によってフィルタリングするにはまばらすぎる新しいデータに対する迅速な解釈と応答が必要です。 COVID-19 の流行は、その完璧な例です。信頼性が低く多様な情報源から得られるデータがまばらであるため、主にこれまでの流行の拡大とデータ生成のモデルに基づいた迅速な解釈と迅速な対応が必要です。全体として、機械学習技術は、すでに存在する膨大な量の科学的知識と収集可能なデータを組み合わせて、健康、教育、生態学、経済などの分野における主要な社会問題に対処する可能性を秘めています。

さらに重要なのは、科学的知識がデータやデータソースの選択やフィルタリングのプロセスを積極的に導くことで、進化の速度を加速できることです。どのデータを使用するか、またはどの実験を実行するかを選択する前に、それぞれの選択の結果がどうなるか、そしてそれが将来のパフォーマンスを向上させる可能性がどの程度あるかを理論的に検討する必要があります。たとえば、そのような期待を提供するために、仮想的な操作の結果と、事実に反する方法で過去の出来事を元に戻した場合の結果の両方を予測する因果モデルを使用できます。

透明性

最終的に世界知識(生データから自発的に進化した世界知識であっても)を使用できるようにするには、それをコンパイルして何らかの機械形式で表現する必要があります。知識をコンパイルする目的は、多くの推論タスクにわたって発見プロセスを償却し、プロセスを繰り返す必要性を排除することです。コンパイルされた表現は、追加データの収集方法に関する質問を含む、多くの選択的な意思決定の質問に対する回答を効率的に得るのに役立ちます。いくつかの表現ではそのような推論が可能ですが、他の表現ではできません。 『Why: The New Science of Causation』で提案された因果関係の階層は、仮説的介入や説明、反事実的仮定に関する質問に答えるために必要な知識内容の種類を正式に定義しています。

知識の編集には抽象化と再フォーマットが含まれます。前者は情報の損失を許容しますが (画像モデルが数値方程式に簡約される場合など)、後者は情報の内容を保持しますが、情報の一部を暗黙的表現から明示的表現にシフトするだけです。典型的な例として、信号波形のスペクトル表現を見てみましょう。情報の観点から見ると、前者は後者と同等ですが、スペクトルは信号の特定の側面を明示的に表します。

これらの考慮事項には、エンコードする表現の数学的特性、その固有の制限、サポートする推論の種類、および意図した回答を得るための有効性を検討することが必要です。より具体的に言えば、機械学習の研究者は、現在「因果モデリング」と呼ばれているものにも取り組み、因果科学のツールと原則を使用して、データ探索とデータ解釈のプロセスを導く必要があります。

説明可能性

因果関係の知識がどのように蓄積、発見、または保存されるかに関係なく、その知識によって可能になる推論は人間のユーザーに提供され、そのユーザーに利益をもたらす必要があります。今日、これらの用途には、政策の評価、個人的な決定、説明の生成、功績と責任の割り当て、または一般的に私たちの周りの世界を理解することなどが含まれます。したがって、すべての推論は、人々自身が世界についての知識を体系化する方法と一致する言語、つまり因果関係の言語で記述されなければなりません。したがって、機械学習の研究者がデータを適合させるためにどのような方法を使用するかに関係なく、このユーザーフレンドリーな言語、その構文、普遍的なルール、そして機械学習アルゴリズムによって発見された特徴を人々が解釈または誤解する方法を習得する必要があります。

結論は

人間の知識の内容をその源である感覚データと同一視するのは間違いです。知識の特徴づけにおいては、知識が心(またはコンピュータ)に保存される形式、そして(特に)暗黙的要素と明示的要素のバランスが、その内容や情報源と同じくらい重要です。

急進的な経験主義は進化のプロセスの有効なモデルかもしれませんが、機械学習の研究にとっては適切な戦略ではありません。これにより、現在統計と機械学習の文化を支配しているデータ中心の考え方が普及しました。この学派は、合理的な意思決定の秘訣はデータだけにあると信じています。

「データフィッティング」と「データ解釈」のバランスをとるハイブリッド戦略により、進化のプロセスに必要な知識の蓄積のさまざまな段階をより適切に把握できるようになります。

<<:  人工知能は商業ディスプレイの将来の発展の傾向を混乱させる可能性がある

>>:  115,000 個のスターを持つ GitHub オープンソース プロジェクトを推奨します。アルゴリズムを取得することは問題ありません。

ブログ    
ブログ    

推薦する

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

[51CTO.com からのオリジナル記事] インターネットビジネスの発展に伴い、大量のデータが生...

ML モデルに魂を吹き込む: MVP に基づく超シンプルなデプロイメント ソリューション

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

AI医薬品製造はここにあります!新薬開発は「10年間の努力」に別れを告げるかもしれない

[[385336]] AI顔認識技術は人気歌手のコンサートから逃亡した犯人を捕まえるのに役立ち、AI...

2021年の産業用ロボットの6つの主要トレンド

産業情報ウェブサイトReportlinkerが2020年11月に発表したレポートによると、産業用ロボ...

Apple、Google Play ランキングアルゴリズム

すべてのアプリにおいて、製品自体が登場する前、アイデアが生まれた時点で、すでに製品マーケティングの問...

今後10年間でAIはどのように発展するでしょうか? iFLYTEKの劉清鋒氏はこう語った。

[[379731]] iFLYTEKは、流行病によって大きな影響を受けているにもかかわらず、人工知...

...

...

自動化によって、採用担当者が大規模な適格な人材を特定する方法

AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...

AIがクラウドコンピューティングを再定義し、ビジネス効率を向上させる方法

長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...

...