著者 | 真実を追求する実践主義者 人工知能が発展し続けるにつれて、セキュリティとコンプライアンスの問題がますます重要になります。現在の機械学習の主な制限は、学習モデルがすべて関連フレームワークに基づいていることです。これはサンプル選択バイアスの影響を受け、安定性が低くなります。因果推論モデルの出現により、機械学習への新たなアプローチが生まれました。 最近、美団技術チームは清華大学コンピュータサイエンス学院の終身在職権を持つ准教授である崔鵬氏を特別に招待し、因果推論技術の最新の開発動向と現段階で達成された成果の一部を美団の社内学生に紹介しました。この記事は、Cui Peng 先生がシェアした内容をテキストで記録したものです。皆様のお役に立てたり、刺激になったりすることを願っています。 清華大学コンピュータサイエンス学部准教授兼博士課程指導者、崔鵬氏 彼の研究の関心は、ビッグデータ駆動型の因果推論と安定した予測、大規模ネットワーク表現学習などに焦点を当てています。データマイニングと人工知能の分野でトップクラスの国際会議で100本以上の論文を発表し、トップクラスの国際会議またはジャーナル論文賞を5回受賞し、データマイニング分野のトップクラスの国際会議であるKDDのベストペーパー特集号に2度選ばれました。彼は、IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD などのトップクラスの国際ジャーナルの編集委員を務めています。彼は、国家自然科学賞第2位、教育部自然科学賞第1位、電子工学研究所自然科学賞第1位、北京科学技術進歩賞第1位、中国コンピューター学会若手科学者賞、および計算機協会(ACM)優秀科学者賞を受賞しています。 背景人工知能は、インターネット、医療、司法、生産、金融技術など、リスクに敏感な多くの分野でますます広く利用されています。リスクはシナリオ自体から生じるだけでなく、ますます厳しくなる法律や規制からも生じます。したがって、人工知能技術がもたらすリスクには注意を払う必要があります。人工知能に関連するリスクの予防と管理に関しては、「事実はわかっているが、その背後にある理由はわかっていない」と言えます。予測の仕方は誰でも知っていますが、なぜそのような決定をすべきなのかといった「なぜ」に答えるのは難しいです。システムの判断を信頼できるのはいつでしょうか?多くの問題のモデルに対して、比較的正確な答えを出すことはできません。これにより一連の問題が発生することになります。 1つ目は説明不可能なことであり、これもまた「人間と機械の協働」モデルを現実世界に実装することを困難にしています。たとえば、人工知能技術は、医師がシステムの判断の根拠を知らないため、医療業界への応用が困難です。そのため、人工知能技術は、実装に関して現在大きな制限があります。第二に、現在主流の人工知能手法は、独立かつ同一の分布という仮定に基づいており、モデルのトレーニング セット データとテスト セット データが同じ分布から取得されることが求められます。実際のアプリケーションでは、モデルの最終的なパフォーマンスはトレーニング セットとテスト セットの分布がどれだけ適合しているかに依存するため、モデルがどのようなデータに適用されるかを保証することは困難です。第三に、人工知能技術を社会問題に適用すると、公平性のリスクが生じます。例えば、米国では、収入や教育などの面でまったく同じ背景を持つ2人の場合、システムは黒人の犯罪率が白人の10倍であると判断する可能性があります。最後に、非遡及性があります。推論と予測のプロセスは非遡及的であるため、入力を調整しても目的の出力を得ることは不可能です。 図1 上記の問題の主な原因は、現在の人工知能が連想フレームワークに基づいていることです。関連性に基づく枠組みでは、収入と犯罪率、および肌の色と犯罪率の両方が強く相関していると結論付けることができます。因果フレームワークでは、変数 T が出力 Y に因果効果をもたらすかどうかを判断する必要がある場合、T と Y の相関関係を直接測定するのではなく、X を制御しながら T と Y の相関関係を調べます。たとえば、2 つのコントロール グループでは、X (所得レベル) の分布は同じ (全員が金持ちか全員が貧乏) であり、T (肌の色) を調整して 2 つのグループ間で Y (犯罪率) に有意な差があるかどうかを観察すると、黒人と白人の犯罪率に有意な差がないことがわかります。では、なぜ関連性に基づく枠組みでは肌の色と犯罪率に強い相関関係があることが示されるのでしょうか?これは、黒人のほとんどが収入が低く、全体的な犯罪率が高くなるためですが、これは肌の色が原因ではありません。 図2 本質的には、問題は関連付けモデルではなく、機械学習の使用方法にあります。一般的に言えば、関連性を生成する方法は 3 つあります。1 つ目は因果関係が安定し、説明可能で、追跡可能な因果メカニズムです。 2 つ目は交絡効果です。X が T と Y の両方の原因である場合、T と Y の間に誤った相関関係が作成されます。 3 つ目はサンプル選択バイアスです。例えば、犬と草の場合、ビーチの環境が変わると、モデルは犬を認識できなくなります。これは、草の環境にいる犬を大量にサンプルとして選択したため、モデルは犬と草の間に相関関係があると信じてしまいますが、これも誤った相関関係です。 上記の 3 つの方法のうち、因果関係によって生成された相関関係を除いて、他の 2 つの方法によって生成された相関関係はあまり信頼できません。しかし、現在の機械学習の分野では、これら 3 つの関連付け生成方法を区別しておらず、誤った関連付けが多く発生しています。これにより、モデルの解釈可能性、安定性、公平性、追跡可能性に問題が生じます。現在の機械学習の限界を根本的に打破したいのであれば、元の相関統計の代わりに因果統計を使用するなど、より厳密な統計ロジックを使用する必要があります。 図3 因果推論の機械学習への応用には多くの課題があります。因果推論の本来の研究範囲は主に統計学(哲学を含む)の分野であるためです。これらの分野が直面している環境は、少量データの制御された環境であり、データ生成プロセス全体が制御可能です。たとえば、ワクチンが有効かどうかをテストする行動実験では、誰がワクチン接種を受けるか、誰が受けないかを制御することができます。しかし、機械学習では、データ生成プロセスは制御できません。ビッグデータの観察研究では、ビッグデータの高次元、高ノイズ、弱い事前確率などの要因を考慮する必要があります。データ生成プロセスは不明であり、従来の因果推論フレームワークに大きな課題をもたらします。さらに、因果推論と機械学習の目標には大きな違いがあります。因果推論ではデータ生成のメカニズムを理解することが求められますが、機械学習(インターネット分野での多くのアプリケーションを含む)は主に将来どのような変化が起こるかを予測することです。 図4 では、因果推論と機械学習の間のギャップをどのように埋めるのでしょうか?私たちは因果関係に基づいた学習推論と意思決定評価のための一連の方法を提案します。解決すべき最初の問題は、大規模データ内の因果構造をどのように識別するかということです。解決すべき 2 番目の問題は、因果構造を機械学習とどのように統合するかです。現在の因果構造に着想を得た安定した学習モデルと公平で偏りのない学習モデルはすべて、この目標を目指しています。解決すべき 3 番目の問題は、予測問題から意思決定メカニズムの設計へと進み、これらの因果構造をどのように使用して意思決定を最適化するか、つまり反事実的推論と意思決定最適化メカニズムです。 因果推論の2つの基本的なパラダイム構造的因果モデル図5 因果推論には 2 つの基本的なパラダイムがあります。最初のパラダイムは構造因果モデルです。このフレームワークの中核は、既知の因果グラフでどのように推論するかです。たとえば、変数を識別する方法と、この変数が別の変数にどの程度影響を与えるかなどです。現在では、Do-Calculus法によって混乱を排除し因果推定(Causal Estimation)を行うためのバックドア基準(Back Door)やフロントドア基準(Front Door)などの比較的成熟した判断基準が存在する。現在この方法が直面している主な問題は、観察研究を行う際に因果グラフを定義できないことです。因果グラフは、一部の分野 (考古学など) の専門知識を通じて定義できますが、これでは「エキスパート システム」という古い道に戻ってしまいます。一般的に、中心的な問題は因果構造をどのように発見するかということです。 図6 ここでの派生技術は因果発見であり、条件付き独立性テストと既存のデータに基づいて因果グラフを定義できます。既存の変数を使用して、条件付き独立性などの一連の独立性判断を頻繁に実行し、因果グラフを定義します。これは NP 問題であり、組み合わせ爆発を引き起こす可能性があります。これは、構造因果モデルを大規模データに適用する際に直面するボトルネックです。最近では、微分可能な因果発見を利用してこの問題を解決するなどの研究が行われています。 潜在的成果フレームワーク2 番目のパラダイムは、潜在的アウトカム フレームワークです。このフレームワークの核心は、すべての変数の因果構造を知る必要はなく、変数の 1 つが出力に因果的な影響を与えるかどうかを知るだけでよいということです。他の変数間の影響は重要ではありませんが、この変数と出力の間にどのような干渉要因 (交絡因子) が存在するかを知る必要があり、干渉要因がすべて観察されていると想定する必要があります。 図7 上記は背景知識と理論的な紹介です。次に、主に私たちの最近の考えや試みについて、またこれら 2 つのパラダイムを特定の問題にどのように組み合わせるかについてお話しします。 微分可能な因果発見とレコメンデーションシステムへの応用原因の発見と問題の定義因果発見の定義は、それぞれがいくつかの変数によって特徴付けられる特定のサンプル セットに対して、観測可能なデータを通じてこれらの変数間の因果構造を見つけることです。見つかった因果グラフは、グラフィカル モデルとして考えることができます。生成モデルの観点からは、因果構造に従ってサンプル セットを生成でき、このサンプル セットの尤度が最も高い因果グラフを見つけることを期待しています。 図8 ここで、機能的因果モデル (FCM) と呼ばれる概念を紹介します。いわゆる FCM は、特定のタイプの変数 X の場合、因果グラフが有向非巡回グラフ (DAG) であるため、この変数には親ノードが必要であり、その値は関数とノイズのアクションを通じてすべての親ノードによって生成される必要があることを意味します。たとえば、線形フレームワークでは、問題は、X の再構築が最適になるような W のセットをどのように見つけるかになります。有向非巡回グラフの最適化は常に未解決の問題でした。2018年の論文[1]では、最適化手法が提案されました。勾配最適化は、空間全体の有向非巡回グラフで実行できます。DAG制約とスパース制約(l1またはl2正則化)を追加することで、最終的なXの再構築誤差を最小限に抑えることができます。 図9 図10 このフレームワークを実装する際に、いくつかの問題が見つかりました。このフレームワークの基本的な前提は、すべての変数のノイズがガウス分布で、ノイズのスケールが類似している必要があるということです。この前提が満たされない場合、いくつかの問題が発生します。たとえば、再構築エラーが最小の構造が真の値 (Ground Truth) ではない可能性があり、これは微分可能な因果発見方法の制限です。この問題は、独立性制約を課し、独立性判断基準を最適化可能な形式に変換することで解決できます。具体的な実装の詳細はここでは繰り返さない。興味のある学生は論文[2]を読むことができる。 推奨システムにおける微分可能な因果発見の応用推薦システム全体は IID (独立かつ同一に分布) 仮定に基づいており、ユーザーとアイテムのトレーニング セットとテスト セットは同じ分布から取得される必要があります。ただし、実際には推薦システムにはさまざまな OOD (Out Of Distribution) 問題があります。 1 つ目は自然な変化です。たとえば、北京と上海のデータに基づいてトレーニングされたモデルは、重慶のユーザーには効果がない可能性があります。 2 つ目は、推奨システムのメカニズムによって引き起こされる人為的なシフトです。私たちは、推奨システムの推奨アルゴリズムにおけるさまざまな OOD 問題やバイアス問題に対抗するための、より一般的な方法を提案したいと考えています。私たちもこの問題についていくつかの研究を行ってきました[3]。 OOD 推奨システムには不変性の仮定があり、人が製品を見た後にそれを購入するかどうかは環境の変化によって変化しません。したがって、ユーザーのアイテムに対する嗜好が変化しない限り、この不変性の仮定は有効となり、より合理的な推奨結果が得られます。これが OOD 問題を解決する核心です。 図11 ユーザー設定が変更されないようにするにはどうすればよいですか?不変性と因果関係の間には、一定の等価変換関係があるという基本的な合意があります。ある構造がさまざまな環境で同じ予測効果を持つことが保証できる場合、その構造は因果構造であるはずであり、さまざまな環境における因果構造のパフォーマンスは比較的安定しています。したがって、不変のユーザー設定を見つけることは、因果的な設定学習の問題になります。推奨システムには二部グラフと呼ばれる特殊な構造があります。この特殊な構造に基づいて因果発見方法を設計する必要があります。この最終的に学習されたモデルでは、ユーザーがどのようなアイテムを好むかを知るために、ユーザーの表現を入力するだけで済みます。 図12 図13 明らかに、この方法は、推奨システムの解釈可能性、透明性、安定性の向上に一定のメリットをもたらします。また、多くの方法と比較したところ、パフォーマンスが比較的明らかに向上していることがわかりました。 OOD の一般化と安定した学習に関する考察OOD 問題は機械学習における非常に基本的な問題です。これまで、ほとんどの作業は IID 仮定に基づいていました。転移学習は適応されてきましたが、転移学習ではテスト セットが既知であると想定されるため、その主体は依然として IID の理論的枠組みです。私たちは2018年からOODの方向で研究を行ってきました。まず、OODの定義は、トレーニング セットとテスト セットが同じ分布からのものではないということです。トレーニング セットとテスト セットが同じ分布からのものであれば、それはIIDです。 OOD は 2 つのケースに分けられます。テスト セットの分布が既知または部分的に既知の場合は、OOD 適応、つまり転移学習/ドメイン適応です。テスト セットの分布が不明な場合、それは実際の OOD 一般化問題になります。ここでの「一般化」の概念は機械学習におけるそれとは異なります。機械学習における「一般化」は、補間の問題に関するものです。トレーニング データ内の補間の問題はすべて「補間」の問題です。補間領域を超える X を予測する場合は、「外挿」の問題です。 「外部挿入」は比較的危険な行為ですが、どのような状況であれば可能ですか?不変性を見つけることができれば、「外挿」を行うことができます。これまで、機械学習を行う際には、IID、つまりデータフィッティングを行っていました。過剰適合/不足適合を防ぐことだけが必要でした。さて、OOD 問題を解決するには、不変性を見つけなければなりません。不変性を見つけるには 2 つの道があります。1 つ目の道は因果推論です。因果性と不変性は同等であり、因果構造が見つかれば不変性が保証されます。実際、因果推論自体が不変性の科学です。安定した学習とは、ある程度、学習と予測を行う際にモデルが因果推論に基づいていることを期待することを意味します。サンプルの重み付けを変更することで、すべての変数が独立し、相関ベースのモデルが因果ベースのモデルに変わることがわかりました。ご興味があれば、関連論文をお読みください。 2 番目の道は、多様性から不変性を見つけることです。統計学には異質性という概念があります。例えば、犬の分布には2つのピークがあり、1つのピークは浜辺にいる犬で、もう1つのピークは芝生にいる犬です。この2つのピークは犬を表しているため、それらの間には不変性があり、変化しない部分にはOOD一般化能力があります。データの異質性は事前に定義できません。データ駆動型のアプローチを通じて暗黙の異質性を見つけ、暗黙の異質性の不変性を見つけたいと考えています。これら 2 つの学習は相互に強化し合います。 図14 いわゆる安定学習では、分散トレーニング セットと、異なる未知の分布を持つ複数のテスト セットを使用します。最適化の目標は、精度の分散を最小限に抑えることです。つまり、ある程度の内部異質性を持つトレーニング分布があるが、その異質性が人為的に分割されていないとします。この場合、さまざまな未知の分布の下で優れたパフォーマンスを発揮できるモデルを学習することが期待されます。昨年、私たちはOOD一般化に関する調査[4]を書き、この問題について比較的体系的な分析を行いました。興味のある学生はそれを参照することができます。 |
>>: 2022年スタンフォードAIインデックス発表:中国がAIジャーナルの出版と引用で1位、TFオープンソースライブラリが最も人気
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[227297]]注: この記事は、Keras の作者である François Chollet に...
[51CTO.comからのオリジナル記事] 5G+AIoTを中核とするさまざまなインテリジェント技術...
負荷分散とは負荷分散(英語名は Load Balance)とは、複数のサーバーを対称的に構成したサー...
6月21日、Intel ResearchはBlockade Labsと提携してLDM3D(Laten...
[[433235]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
人工知能の台頭は、ホームセキュリティを含む多くの業界に大きな影響を与えています。人工知能は、監視カメ...
「AIは多くのリソースを消費し、強力なコンピューティング能力を必要とし、規模の経済性を反映する技術...
機械学習の分野が発展し続けるにつれて、機械学習を扱うチームが単一のマシンでモデルをトレーニングするこ...
[[389342]] 10年以上前であれば、おそらく多くの人が、将来中国が日本や米国と同じくらい発...
核酸レポートの手動検証は時間がかかり、面倒で、エラーが発生しやすくなります。どうすればよいでしょうか...
トレードオフを最もよく反映するコンピュータ システムのテクノロジといえば、それはキャッシュです。高速...