深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である、機械学習と因果推論を組み合わせた因果表現学習について詳しく述べています。研究者らは因果推論の基本概念を包括的に検討しただけでなく、機械学習との統合と機械学習への大きな影響についても説明しました。この論文はIEEEのProceedingsに受理されました。

機械学習と因果推論は常に比較的独立した 2 つの研究方向であり、それぞれに長所と短所があります。

しかし、ここ数年、両者は互いに学び合い、互いの発展を促進し始めました。たとえば、急成長している機械学習の分野は因果推論の分野の発展を促進しました。決定木、アンサンブル法、ディープニューラルネットワークなどの強力な機械学習手法を使用することで、潜在的な結果をより正確に推定できます。 2018年にMachine Heartが発表したレポートでは、チューリング賞受賞者であり因果モデルの提唱者の一人であるJudea Pearl氏が、現在の機械学習理論の限界と因果推論から得た7つのインスピレーションについても論じました。

そのため、近年では両者を組み合わせた因果表現学習がますます注目を集めており、人間が人間レベルのAIに向かうための潜在的な方向性となっています。

Synced は 2020 年の初めに、因果表現学習の分野における最新の論文をいくつか選択し、さまざまな方法の基本的なアーキテクチャを慎重に分析して、関心のある読者が因果学習と機械学習を組み合わせる方向性と可能性を理解できるようにしました。 (参考: 反事実的推論、特徴分離、「因果表現学習」に関する最新の研究では何が語られているか?)

本日は、因果表現学習に関する別の論文「Towards Causal Representation Learning」を推奨します。これは、Yoshua Bengio 氏のチームが発表したものです。この論文は、ジャーナル「Proceedings of the IEEE」に受理されています。

ベンジオ氏は2020年末の講演で、これが彼らの現在の研究プロジェクトの中核であると語った。

論文リンク: https://arxiv.org/pdf/2102.11107.pdf

この論文では、Yoshua Bengio らが因果推論の基本概念をレビューし、それを転移や一般化などの機械学習における主要な未解決問題に関連付け、因果推論が機械学習研究にどのように貢献できるかを分析します。逆もまた真なりで、ほとんどの因果研究の前提は因果変数です。したがって、AI と因果関係の分野における中核的な問題は因果表現学習、つまり低レベルの観察に基づいて高レベルの因果変数を発見することです。最後に、本論文では因果関係が機械学習に与える影響について説明し、この学際的な分野における中核的な研究の方向性を提案します。

この論文の主な貢献は次のとおりです。

論文の第 2 章では、物理システムにおける因果モデリングのさまざまなレベルを紹介し、第 3 章では因果モデルと統計モデルの違いを示します。ここでは、モデリング機能だけでなく、関連する仮定や課題についても説明します。
論文の第 4 章では、独立因果メカニズム (ICM) 原理を、データに基づいて因果関係を推定するためのコアコンポーネントに拡張します。つまり、ICM 原理の結果としてスパースメカニズムシフト仮説を採用し、因果モデルの学習への影響について検討します。
論文の第 5 章では、適切な記述子 (または特徴) に基づいて因果関係を学習する既存の方法をレビューし、古典的な方法とディープニューラルネットワークに基づく最新の方法を取り上げ、主に因果関係の発見を可能にする基本原理に焦点を当てています。
論文の第 6 章では、因果表現データに基づいて有用なモデルを学習し、機械学習の問題を因果の観点から見る方法について説明します。
論文の第 7 章では、因果関係が実用的な機械学習に与える影響を分析します。研究者らは、因果関係の言語を使用して、堅牢性と一般化、および半教師あり学習、自己教師あり学習、データ拡張、事前トレーニングなどの一般的な手法を再解釈しました。研究者らはまた、科学的応用における因果関係と機械学習の交差点を調査し、両者の利点を組み合わせてより汎用的な人工知能を作り出す方法を検討した。

因果モデリングのレベル

独立かつ同一分布の設定での予測

統計モデルは相関関係のみをモデル化する必要があるため、現実を浅く記述したものになります。入力サンプル X とターゲットラベル Y が与えられた場合、「この画像に犬が含まれている確率はどれくらいですか?」や「血圧などの診断指標を考慮すると、患者が心不全である確率はどれくらいですか?」などの質問に答えるために、P(Y |X) を近似したい場合があります。適切な仮定の下では、P(X, Y) 上の十分な独立かつ同一に分布する (iid) データを観察することによって、これらの質問に答えることができます。

分布の変化による予測

介入の質問は、統計学習の独立した同一分布の設定を超えた行動を伴うため、予測よりも困難です。介入は、原因変数のサブセットの値とそれらの関係に影響を及ぼす可能性があります。たとえば、「国内のコウノトリの数を増やすと人間の出生率も上がるのか？」や「タバコが社会的にもっと非難されれば喫煙者は減るのか？」などです。

反事実的質問に答える

反事実的質問では、何かが起こった理由を推論し、それが起こった後のさまざまな行動の結果を想像し、どの行動が望ましい結果を達成したかを判断する必要があります。反事実的な質問に答えるのは、介入主義的な質問に答えるよりも困難です。しかし、これは AI にとって重要な課題となる可能性があります。なぜなら、インテリジェントエージェントは、自分の行動の結果を想像し、どの行動が特定の結果につながるかを理解することでメリットを得ることができるからです。

データの性質: 観察的、介入的、(非)構造化

データの形式は、関係の種類を推測する上で重要な役割を果たします。データモダリティには、観察されたデータと介入されたデータ、および手動で設計されたデータと生の (構造化されていない) 感覚入力という 2 つの軸を識別できます。

観察データと介入データ: 頻繁に想定されるものの、厳密に得られることはめったにない極端なデータ形式は、独立した同一分布のデータが観察されることです。この場合、各データポイントは同じ分布から独立してサンプリングされます。

手動でエンジニアリングされたデータと生データ: 従来の AI では、データは高レベルで意味的に意味のある変数に構造化されていると想定されることが多く、これらの変数は基礎となるグラフの因果変数に部分的に対応している場合があります。

因果モデルと推論

このセクションでは、主に統計モデリングと因果モデリングの違いを紹介し、形式言語を使用して介入と分布の変更を紹介します。

独立かつ同一に分散されたデータ駆動型アプローチ

独立かつ同一に分散されたデータの場合、強力な普遍的一貫性により、学習アルゴリズムが最低のリスクに収束することが保証されます。最近傍分類器、サポートベクターマシン、ニューラルネットワークなどのアルゴリズムは存在します。しかし、現在の機械学習手法は、独立かつ同一に分布するという仮定を満たさない問題、つまり人間にとっては簡単に解決できる問題に対しては、パフォーマンスが低下することがよくあります。

ライヘンバッハの原理: 統計から因果関係へ

ライヘンバッハ[198]は因果関係と統計的相関関係の関係を明確に説明しています。

X と Y が同一の場合は特別なケースです。追加の仮定がなければ、観察データを使用してこれらのケースを区別することはできません。この場合、因果モデルには統計モデルよりも多くの情報が含まれます。

因果構造を発見するのは、観察が 2 回だけでは困難ですが、観察が増えると簡単になります。その理由は、この場合、因果構造によって伝えられる複数の重要な条件付き独立性が存在するためです。これらはライヘンバッハの原理を一般化したもので、確率的グラフィカルモデルと介入概念を融合した因果グラフまたは構造的因果モデルの言語で記述できます。

構造因果モデル (SCM)

SCM は、有向非巡回グラフ (DAG) の頂点に関連付けられた観測値 (または変数) X_1、...、X_n のセットを考慮します。この研究では、各観測値が次の式に従って導き出されたものと仮定します。

数学的な観点から見ると、観測値もランダムな値です。直感的には、独立したノイズはグラフ全体に広がる「情報プローブ」（ソーシャルネットワーク上で広がる噂の独立した要素のような）と考えることができます。もちろん、これは単なる 2 つの観察ではありません。なぜなら、重要な条件付き独立性ステートメントには少なくとも 3 つの変数が必要だからです。

統計モデル、因果図モデル、SCMの違い

下の図 1 は、統計モデルと因果モデルの違いを示しています。

統計モデルは、グラフィカルモデル、つまりグラフ付きの確率分布を使用して定義できます。グラフのエッジが因果関係にある場合、グラフモデルは因果関係モデルです (この場合、グラフは「因果関係グラフ」です)。構造因果モデルは、ノイズ変数 U_i の分布に基づく一連の因果変数と一連の構造方程式で構成されます。

独立した因果メカニズム

独立の概念には、影響力に関連する側面と情報に関連する側面の 2 つがあります。因果研究の歴史においては、不変、自律、独立のメカニズムがさまざまな形で現れます。例えば、ハーヴェルモ[99]による初期の研究では、構造割り当ての1つの側面を変更しても、他の側面は変化しないと仮定しました。フーバー[111]は不変性基準を導入しました。真の因果秩序とは、適切な介入の下で変化しないものです。アルドリッチ[4]は、経済学におけるこれらのアイデアの歴史的発展を調査しました。パール[183]は、因果メカニズムは変化しないままである可能性があるが、他のメカニズムは外部の影響を受けるという考えである自律性を詳細に調査しました。

この研究では、任意の現実世界の分布を因果メカニズムの産物として考察します。このような分布の変化は通常、少なくとも 1 つの原因メカニズムの変化によって引き起こされます。 ICM の原則に基づいて、研究者たちは次のような仮説を立てました。

ICM の原則では、研究者は、2 つのメカニズムの独立性 (正式には条件付き分布として表現される) は、2 つの条件付き分布が互いに影響を及ぼさないことを意味すると述べています。後者は独立した介入の要請として理解することができます。

因果発見と機械学習

SMS 仮説によれば、多くの因果構造は一定のままである必要があると考えられています。したがって、分布の変化（異なる「環境またはコンテキスト」でのシステムの観察など）は、因果構造を決定する上で非常に役立ちます。これらのコンテキストは、介入、不安定な時系列、または複数のビューから発生する可能性があります。同様に、これらのコンテキストは異なるタスクとして解釈できるため、メタ学習に関連しています。

従来の因果発見と推論では、単位は因果グラフによって接続されたランダム変数であると想定されます。ただし、現実世界の観察は、画像内のオブジェクトなど、最初はこれらの単位に構造化されていないことがよくあります。したがって、シンボリック AI を超える機械学習では、アルゴリズムが動作するシンボルを事前に与える必要がないのと同様に、データからこれらの変数を学習しようとする因果表現学習が登場しました。これに基づいて、研究者はランダム変数 S_1、…、S_n を観測値と関連付けようとしました。式は次のようになります。

ここで、G は非線形関数です。下の図 2 は、因果システムの状態を調べた結果である高次元の観測値の例を示しています。この観測値はその後、ニューラルネットワークを使用して処理され、さまざまなタスクに役立つ高レベルの変数が抽出されます。

構造的因果モデリングと表現学習を組み合わせるには、入力と出力が高次元で構造化されていない可能性があるが、内部の動作が少なくとも部分的に SCM (ニューラルネットワークを使用してパラメーター化できる) によって制御される、より大規模な機械学習モデルに SCM を埋め込むように努める必要があります。

研究者らは、以下の図 3 に視覚化の例を示しています。ここでは、適切な因果変数の変化はまばら (指を動かすと、指と四角形の位置が変化する) ですが、ピクセル空間などの他の表現の変化は密です (指と四角形の動きによって、多くのピクセル値が変化する)。

研究者らは、因果表現学習の観点から、現代の機械学習が直面している 3 つの問題、すなわち、分離された表現学習、転移可能なメカニズム学習、介入する世界モデルと推論学習について議論しました。

因果推論が機械学習に与える影響

上記のすべての議論には、共通の iid 仮定に依存しない学習パラダイムが必要です。研究者は、より弱い仮定を立てたいと考えています。つまり、モデルが適用されるデータは異なる分布から来ている可能性があるが、関係する因果メカニズムは（ほとんど）同じである、という仮定です。

半教師あり学習 (SSL)

基礎となる因果グラフが X → Y であり、マッピング X → Y も学習したいと仮定すると、この場合の因果分解は次のようになります。

SSL の観点から見ると、その後の開発にはさらなる理論的分析と条件付き SSL が含まれます。 SSL を限界 P(X) と非因果条件 P(Y |X) 間の依存関係を利用するものと見なすことは、SSL を正当化する一般的な仮定と一致しています。

さらに、SSL コミュニティにおけるいくつかの理論的結果では、因果グラフからのよく知られた仮定が使用されています (これらの仮定では因果関係について言及されていない場合でも)。共トレーニング理論では、ラベルなしデータの学習可能性を述べており、ラベルが与えられた場合、予測子は条件付きで独立しているという仮定に依存しています。通常、予測子は特定のラベルによってのみ発生する、つまり因果関係のない設定であると予想されます。

脆弱性との戦い

ここで、因果的な設定であると仮定します。因果的な設定では、因果生成モデルを独立したコンポーネントに分解でき、そのうちの 1 つが (本質的に) 分類関数です。したがって、予測子が本質的に転送可能かつ堅牢な方法で因果メカニズムを近似する場合、敵対的例を見つけるのが難しくなると予想されます。

最近の研究はこの見解を支持しています。敵対的攻撃に対する潜在的な防御は、因果生成方向をモデル化することで反因果分類問題に対処します。これは、視覚分野では合成による分析として知られているアプローチです。

堅牢性と強力な一般化

堅牢な予測子を学習するためには、環境分布のサブセットが必要である。

、そして解決する

実際には、式(18)を解くには、介入依存関係の集合を持つ因果モデルを指定する必要があります。観測された環境の集合 ε が、可能性のある環境の集合 Ρ_ɡ と一致しない場合、追加の推定誤差が発生し、最悪の場合には、その誤差は任意に大きくなる可能性があります。

事前トレーニング、データ拡張、自己監督

（18）最小最大最適化問題を解決するための予測モデルを学習することは困難である。この研究では、機械学習におけるいくつかの一般的な手法を近似法として説明しています(18)。最初の方法は、トレーニングセットの分布を充実させることです。2 番目の方法は通常、前の方法と組み合わせて使用され、データの多様性を高めるためにデータ強化に依存します。3 番目の方法は、自己教師あり学習 P(X) に依存することです。

興味深い研究の方向性は、複数のシミュレートされた環境からのデータに基づく大規模なトレーニング、データ拡張、自己監督、堅牢な微調整など、これらすべての手法を組み合わせることです。

強化学習

主流の機械学習研究と比較すると、強化学習 (RL) は実行確率を直接効率的に推定できるため、因果研究に近いと言えます。ただし、オフポリシー学習設定、特にバッチ（または観察）設定では、因果関係の問題は微妙になります。強化学習に適用される因果学習は、因果帰納法と因果推論という 2 つの側面に分けられます。

強化学習環境における因果誘導の課題は、因果変数が通常は与えられているため、古典的な因果学習環境における課題とは大きく異なります。しかし、環境を適切に構造化した表現の有効性を示す証拠は増えてきています。例えば：

世界モデル;
一般化、堅牢性、高速転送。
反事実的仮定;
オフライン強化学習

科学的応用

機械学習を自然科学に適用する場合、根本的な疑問は、機械学習をどの程度まで使用して物理システムに対する理解を補完できるかということです。興味深い方向性としては、物理シミュレーションにニューラルネットワークを使用することです。これは、手動で設計されたシミュレータよりもはるかに効率的です。一方、体系的な実験条件の欠如は、医療などの応用分野では課題となる可能性があります。

因果関係は医学的現象を理解する上で大きな可能性を秘めています。 COVID-19パンデミックの間、因果関係の媒介分析は、シンプソンのパラドックスの教科書的な例を観察する際に、さまざまな要因が死亡率に与える影響を真に分離するのに役立ちました。

科学的応用のもう 1 つの例は天文学です。研究者は、機器の混乱にもかかわらず因果モデルを使用して太陽系外惑星を特定します。

マルチタスク学習と継続学習

マルチタスク学習とは、異なる環境で複数のタスクを解決できるシステムを構築することを指します。これらのタスクには、多くの場合、いくつかの共通の特徴があります。タスク間の類似性を学習することにより、システムは新しいタスクに遭遇したときに以前のタスクから得た知識をより効果的に活用できるようになります。

この点に関しては、マルチタスクの問題を因果関係の問題として明確に捉えることなく、私たちは明らかに長い道のりを歩んできました。膨大なデータと計算能力を活用して、人工知能は幅広い応用分野で目覚ましい進歩を遂げてきました。ここで、「なぜ、あらゆる介入を網羅する環境のダイナミクスを学習する巨大なモデルをトレーニングできないのか（強化学習の設定のように）」という疑問が生じます。結局のところ、分散表現は目に見えないサンプルに一般化されるため、多数の介入をトレーニングすれば、多数の介入にわたって適切に一般化される大規模なニューラルネットワークが得られる可能性があります。

これを行うには、まず、データの多様性が十分でない場合、最悪の場合、目に見えない分布の変化によって生じる誤差が依然として高くなる可能性があります。さらに、特定の設定ですべての介入に正常に応答するモデルがある場合、必ずしも同一ではないが、同様のダイナミクスを持つ別の設定でそのモデルを使用したい場合があります。

本質的に、iid パターン認識は単なる数学的な抽象化であり、因果関係はおそらくほとんどの形式の生物学習にとって不可欠です。しかし、これまで機械学習では因果関係の完全な統合が軽視されてきたが、この研究では因果概念を統合することで機械学習にメリットがもたらされると主張している。研究者たちは、現在のディープラーニング手法と因果関係からのツールやアイデアを組み合わせることが、汎用 AI システムへの道となる可能性があると考えています。

<<: 公式論文コードが公開されました。OpenAIはGPT-3のイメージ版をどのように実装したのでしょうか？

>>: データが人工知能の基盤となる理由