2021年パターン認識と機械知能フロンティアシンポジウムが10月29日午前にオンラインで開催されました。この会議は、中国オートメーション協会のパターン認識と機械知能(PRMI)が主催し、パターン認識と人工知能のさまざまな分野のトップクラスの学者と研究者を集めて技術を共有し、関連分野で交流と協力を行うことを目的としています。セミナーでは、中山大学の林静教授が「視覚的意味理解における新たな動向:表現学習から知識と因果の融合へ」というテーマで報告しました。表現学習と知識推論は、常にパターン認識とコンピュータービジョンの中心的な研究内容であり、この2つを効果的に組み合わせることが、現代の汎用人工知能への第一歩となるでしょう。しかし、マシンビジョンの分野では、認知推論、知識表現、機械学習などの複数の分野の技術をどのように統合するかが、依然として非常に困難で緊急の問題となっています。 林静教授は報告の中で、まず伝統から現代までのコンピュータビジョン分野の研究開発動向を簡単に振り返り、次に表現学習と知識融合における一連の代表的な研究成果を共有しました。林静教授は、現在の知識融合表現学習作業のほとんどは、両者の有効な統合をまだ十分に達成できていないと考えています。主な理由は、高次元の視覚ビッグデータにはさまざまな混乱要因が必然的に混ざり合っており、ディープラーニングモデルがこれらのデータから偏りのない表現と因果関係の知識を抽出することが困難になっているためです。そこで、林静教授は因果関係の理解を取り入れた知識表現学習の新たな視点と方法を提案しました。固定された低次元の統計的特徴に基づいて動作する既存の因果推論方法とは異なり、因果理解を統合する表現学習では、複雑なマルチモーダル構造知識を組み合わせ、因果関係に基づいて表現学習をガイドし、学習した表現を使用して因果関係を推論する必要があることがよくあります。最後に、林静教授は、中山大学が主導する人間・コンピューター・客観融合実験室(以下、HCP実験室)の因果表現学習分野の最近の研究の進捗状況を共有し、因果表現学習とマルチモーダル構造知識を統合して、データフリーの解釈可能性と優れたモデル性能を実現する方法を実証しました。 以下は、Machine IntelligenceによるLin Jing教授の講演の要約です。 コンピュータビジョンによる意味理解:過去から現在まで図 1. David Marr 氏は最初に、コンピューター ビジョン システムが何をすべきかについての見解を述べました。 コンピュータビジョンの創始者の一人であるデイビッド・マーは、彼の著書「ビジョン」[1](図1参照)の中で、視覚理解研究の中核となる問題を提唱しました。それは、視覚システムは、環境と対話できるように、環境の2次元または3次元表現を構築する必要があるというものです(ここでの対話とは、学習、理解、推論を意味します)。デビッド・マーは、計算による視覚表現を、単純な 2 次元視覚イメージから、エッジ構造と輪郭情報を表すプリミティブスケッチ、ある程度の奥行き情報を含むモーダル 2.5 次元スケッチ、そして最終的な完全な 3 次元表現まで、いくつかのレベルに分類しています。長い間、コンピュータービジョンの分野では、この文脈を中心に研究が行われてきました。 図 2. 研究が進むにつれて、ニューラル ネットワーク アーキテクチャはより複雑になります。 その後の視覚研究は、機械学習、特にディープラーニングに関連することが多くなりました。 2010年には、HOG[2]やLBP[3]などの特徴エンジニアリングを使用して画像の統計的特徴を抽出し、それを特徴ピラミッドなどのいくつかの特徴強化手法と組み合わせ、最後にサポートベクターマシンなどの識別器を使用して認識タスクを完了するというアプローチが主流でした。 2012年以来、深層畳み込みニューラルネットワークはImageNET画像認識コンテストで輝いています。この技術の本質は、人工的に特徴を構築することで生じる情報損失を放棄し、代わりに画像から直接学習して、より識別力のある視覚表現を抽出することです。その結果、より強力なディープモデルを使用して視覚表現の学習能力を向上させる方法に焦点を当てる研究者が増えています。残差ネットワークから今日のVisual Transformerアーキテクチャ[4、5]まで、過去10年間のコンピュータービジョン研究は、強力な表現学習モデルを構築する方法というテーマを中心に展開してきました。ディープラーニングの急速な発展により、さまざまな視覚タスク(物体認識、検出、画像セグメンテーションなど)のパフォーマンスが継続的に向上しています。しかし、この研究ルートは徐々にボトルネックに遭遇してきました。これは、コンピュータービジョンの理解に関する多くの問題が、ニューラルネットワークモデルを設計するだけでは根本的に解決できないためです。 図3. コンピュータビジョン研究への2つの新しいアプローチ:効率的な視覚表現学習と視覚知識推論 これらの問題は、2つの主要な側面にまとめることができます (図 3)。 1つ目は、効率的な表現学習の「費用対効果の高い」トレーニングを重視することです。 3年前の神経情報処理システムに関する会議での特別報告で、チューリング賞受賞者のヤン・ルカン氏はケーキを比喩として使いました。彼の報告の要点は、ラベル付けされていないデータをどのように使用するか、またはラベル付けされていない情報をいかにマイニングするかが、人工知能における最も注目すべき研究方向であるというものでした。この方向には、教師なし学習、転移学習、自己教師あり学習が含まれます[6、7]。その技術的な核心は、画像や動画データ内のいくつかの固有の属性と事前情報を発見し、事前トレーニング方法を通じて帰納的バイアスを取得し、それを下流のタスクに拡張することで、ディープニューラルネットワークモデル全体のトレーニング効率を向上させることです。このタイプの方法は、自然言語理解、コンピュータービジョンなどの分野で多くの成功したアプリケーションがあり、最近では主流の研究およびエンジニアリング実践方法と見なされています。第二に、視覚表現学習の枠組みから抜け出してマクロな視点でデータフィッティングを見てみると、多くの分野で多くの問題があることがわかります。データは完全な知識をうまく提示していないため、データフィッティングによって得られたモデルは、データによってもたらされるバイアスを排除できないことがよくあります。したがって、畳み込みニューラル ネットワーク、グラフ ニューラル ネットワーク、または最近人気の Transformer モデルのいずれを使用しても、モデルによって学習された知識が間違っていたり、説明できない可能性があります。そのため、2018 年以降、多くの研究で、知識グラフや常識ベースなどの構造化された記号的な知識表現を表現学習と組み合わせ、より高い理解レベルでの視覚的知識推論研究へと移行することが試みられています。これらの知識ルールには 2 つの主要な機能があります。まず、ラベル付けされたサンプルが不足している場合には、この知識ルールを使用してモデルの学習能力を向上させることができます。第二に、知識ルールに基づく学習により、トレーニングされたディープニューラルモデルを人間の認知とある程度一致させることができ、その解釈可能性が向上します。 効率的な表現学習と視覚的知識推論上記 2 つの問題に基づいて、私たちの研究室の最近の研究成果をいくつか紹介したいと思います。 最初の質問に関しては、今年、オックスフォード大学のフィリップ・トール氏[9]と共同でICCVの研究を実施し、効率的な自己教師あり表現学習を達成するためにトレーニングサンプルの組み合わせを効果的に構築し、モデルのトレーニングを容易にする方法に焦点を当てました(図4を参照)。より具体的には、既存の研究によると、自己教師あり対照学習によって事前トレーニング済みモデルが完全教師あり事前トレーニング済みモデルに近い、あるいはそれを上回る結果を達成できるとしても、それには 10 倍以上のトレーニング量が必要になることが示されています。私たちの研究は、対照学習における 2 つの矛盾する現象を明らかにしました。私たちはこれを、アンダークラスタリング問題とオーバークラスタリング問題と呼んでいます。アンダークラスタリングとは、対照学習に使用される負のサンプル ペアが実際のオブジェクト クラスをすべて区別するのに十分でない場合、モデルがクラス間サンプル間の違いを効果的に学習して発見できないことを意味します。オーバークラスタリングとは、モデルが負のサンプル ペアが多すぎると特徴を効果的に学習できず、モデルが同じカテゴリのサンプルを異なるクラスターに過剰にクラスタリングすることを意味します。クラスタリング不足とクラスタリング過剰は、自己教師あり学習の非効率性の主な原因です。私たちは、切り捨てられたトリプレット サンプル ペアの効率的な組み合わせ方法を提案します。この方法では、トリプレット損失を使用して正のペアと負のペア間の相対距離を最大化し、クラスタリング不足の問題を解決します。また、負のペアを構成するためにすべての負のサンプルから負のサンプル プロキシを選択して、クラスタリング過剰を回避します。実験結果から、私たちの方法は基本的に、完全教師ありトレーニングの 2 倍の量で事前トレーニング済みモデルのレベルに到達でき、これは既存の自己教師ありトレーニング方法よりも 5 倍効率的です。その後、物体検出や歩行者再識別などの下流タスクへの移行において、この方法の効率性が主流の大規模データセットで検証されました。この方法でトレーニングされたモデルのパフォーマンスは、一部の完全教師あり方式よりも優れています。 図 4. 中山大学 HCP 研究室の効率的な自己教師あり表現学習に関する最新の研究結果では、トレーニング量を 80% 節約しながら、同じモデル パフォーマンスを達成できます。 図5. 中山大学HCP研究室の視覚推論分野における代表的な研究:一般的な画像解析 視覚理解における知識推論の課題については、当研究室では2017年から研究を開始し、多くの成果を上げています。まず、知識推論を使用して高レベルの視覚的意味理解を支援する私たちのチームの 2 つの研究を紹介します。最初の研究は、一般的な画像解析(洗練されたセマンティックセグメンテーションタスクと見ることができる)モデル[10]をどのように実装するかに関するものである(図5参照)。通常、ある分野で画像解析を実現するには、その分野の大量の画像データを使用してモデルのトレーニングに参加する必要があります。一方で、これは効率的な表現学習の設定に適合しないことがよくあります。一方、別の分野で画像解析を実現するには、新しい分野の画像分布とカテゴリが古い分野とは異なるため、モデルを再トレーニングする必要があります。これらの制限を取り除くために、私たちの研究では、ドメイン間の知識の共通性を橋渡しとして利用し、人間の知識とラベル分類をグラフ畳み込みネットワークに組み込んで新しい転移学習クロスドメイン推論アルゴリズムを構築し、意味を考慮したグラフ推論と伝送を通じて複数のドメインで一貫性を維持し、クロスドメイン画像解析の意味的包含と補完性を実現します。私たちの方法は、有名な人間解析データセット LIP で優れたクロスドメイン人間解析結果を示しました (ちなみに、このデータセットも 2017 年の CVPR 作業で私たちのチームによって初めて提案されました。いくつかのセミナーや特別なコンテストで使用された後、人間解析の分野でよく知られたベンチマーク データセットになりました)。さらに、パノプティックセグメンテーションタスクでは、私たちの方法は、クロスドメイン転送の場合にも現在の最先端のパフォーマンスを達成します。 図6. 中山大学HCP研究室の視覚推論分野における代表的な研究:知識推論による視覚的質問応答 2番目の研究は、視覚的な質問応答タスクを完了するために外部の知識をどのように統合するかについての研究である[11](図6参照)。具体的には、視覚的な質問応答タスクの技術的な本質は、画像とそれに対応する言語を同時に理解することを必要とし、完全な知識空間での推論を必要とします。しかし、既存の視覚的な質問応答推論のほとんどは、閉じたドメインで質問応答データを組み合わせることによって実現されています。トレーニングされたモデルはエラーが発生しやすく、オープンワールドでの質問応答シナリオに一般化することは困難です。私たちの研究では、実際の質問応答状況から導き出された外部知識を組み込んだマルチセグメント推論用の最初のデータセットを提案し、データドメインから知識グラフまでの推論パスのラベルを提供します。これは、視覚的な質問応答プロセスにおけるモデル推論の解釈可能性を測定するのに役立ち、これまでに尋ねられたことのない質問にも対処しやすくなります。この問題に対して、我々はツリー階層に基づくモジュール式の視覚推論質問応答ネットワークを提案します。このネットワークは、視覚表現学習のための構造知識ベースを柔軟に組み合わせ、質問に対する答えを効率的に推論することができます。 高レベルの視覚的意味理解に加えて、知識ベースの視覚的推論をいくつかの従来の視覚タスクに適用して、既存モデルのパフォーマンスのボトルネックを打破することもできます。次に、この点に関して私たちのチームが取り組んでいる 4 つのタスクについて簡単に紹介します。 図7. 中山大学HCP研究室は、視覚推論技術を使用して、複雑なシーンでの大規模な物体検出のパフォーマンスを向上させています。 1つ目は、CVPR-19で提案したRCNNシリーズの派生モデルであるReasoning-RCNNです。知識グラフに基づく常識推論技術をニューラルシンボリックモデルに統合し、物体検出ネットワークがあらゆる物体領域で適応的なグローバル推論機能を持つようにし、大規模な物体検出問題におけるロングテールデータ分布、深刻な遮蔽、カテゴリの曖昧さなどの課題に効果的に対処できます。推論 RCNN は視覚レベルで情報を伝播するだけでなく、グローバルな知識のコンテキスト内ですべてのカテゴリの高レベルの意味表現も学習します。検出ネットワークの特徴表現に基づいて、Reasoning-RCNN はまず各カテゴリの以前の分類層の重みを収集してグローバル セマンティック プールを生成し、次にグローバル セマンティック プール内のコンテキストの異なるセマンティクスを接続することで各オブジェクト特徴の情報を適応的に強化します。これにより、Reasoning-RCNN はあらゆる知識をスケーラブルに統合できるようになります。 3 つの大規模なオブジェクト検出ベンチマーク データセット (オブジェクト タイプの数は数千に及ぶ可能性があります) では、Reasoning-RCNN は最先端のパフォーマンスを 15% ~ 37% 向上させます。この研究は、世界的な人工知能産業の戦略研究会社であるTOPBOTSによって、2019年のコンピュータービジョン分野における10の最も最先端の研究の1つにも選ばれました。 図 8. 中山大学 HCP 研究室では、視覚推論技術を使用して、多数のカテゴリにおける小規模サンプルの単一分類および複数分類の視覚オブジェクト認識問題を解決しています。 私たちの 2 番目の研究は、外部知識推論を活用して小規模サンプルの分類のモデル化を支援することに焦点を当てています。既存のメタ学習ベースのソリューションでは、異なる少数サンプル カテゴリのサブタスク間で大きな偏差がありますが、私たちの研究では、外部知識を通じて少数サンプル カテゴリと多数カテゴリの間にグローバルな接続を構築します。その利点は、少数サンプル分類モデルのトレーニングを安定させ、分類の堅牢性を向上させることです。具体的には、まず構造化された知識グラフを構築し、さまざまなカテゴリの共起確率を推測してすべてのカテゴリのグローバル接続をモデル化し、次にラベル セマンティクスを導入して、意味的に特定の機能初期化ラベルの学習をガイドします。知識グラフ内の各ノードを特定のカテゴリの単一カテゴリ モデルと見なし、グラフ ニューラル ネットワーク推論を通じてメッセージ伝播メカニズムを実装して、意味的関連モデルのトレーニングを実行します。この方法は、超大規模カテゴリにおける単一カテゴリの小サンプルオブジェクト認識の問題を効果的に解決でき、マルチラベルの小サンプル分類問題にも簡単に拡張できます。 図9. 中山大学HCP研究所は、視覚的推論技術を使用して、視覚的関係分類におけるロングテール問題を解決します。 3 番目の研究では、オブジェクトと関係のラベルを区別する目的で、ロングテールの視覚的関係の分類を研究します。現在のほとんどの方法では、通常、{主語、目的語} の固定された推論パスに従って、低頻度の関係トリプレットを識別します。しかし、この固定された依存パスの知識統合では、常識的な知識と実際のシーンの間の意味上のギャップが無視されることが多く、オブジェクトと関係のラベルのデータセットのバイアスの影響を受けやすくなります。この状況を緩和するために、我々は、視覚的関係の推論パスを分解し、外部知識を組み合わせて、各画像内の各関係タイプに対して構成可能な知識選択とパーソナライズされたグラフ推論を実現する、構成可能なグラフ推論を提案します。常識的な知識グラフが与えられると、構成可能なグラフ推論ネットワークは、さまざまなサブパスから知識を一致させて取得することを学習し、知識ルーティング パスを選択的に組み合わせて、常識的な知識と現実世界のシナリオの間の意味的ギャップを埋めます。広範囲にわたる実験により、構成可能なグラフ推論ネットワークは、いくつかの一般的なベンチマークにおいて、一貫して従来の最先端の方法よりも優れていることが実証されています。 4 番目の研究では、画像キャプションのセグメンテーションの問題に焦点を当てます。このタスクの本質は、与えられた自然言語記述に関連する画像セグメンテーションを実行することであり、難しさは抽象的な言語記述で洗練されたセグメンテーション結果をどのように達成するかにあります。与えられた言語表現の依存関係ツリー構造を解析することで、マルチモーダル推論結果を達成しようとします。技術的に言えば、意味的ガイダンスを通じて低レベルの特徴を高レベルの特徴に融合し、ボトムアップの意味的一貫性を実装する、ツリー構造のマルチモーダル再帰型ニューラル ネットワーク モジュールを提案しました。実験により、私たちの方法は、言語記述の粗粒度セマンティクスとピクセルレベルの微細セマンティクス間の対応を効果的に学習し、このタスクでマルチモーダル推論を実行して優れたセグメンテーション結果を達成できることが証明されました。 図10. 中山大学HCP研究室は、視覚推論技術を使用して、記述的画像セグメンテーションにおけるマルチモーダル推論を実現しています。 図11. 補助タスクの構築に基づく数学的推論問題の解決 最後に、効率的な自己教師学習と知識推論に基づく私たちの研究アイデアは、自然言語処理のいくつかの分野にも拡張できることを言及する価値があります。今年の ACL (図 11) では、数学の文章問題を推論して解くための自己教師あり補助タスク学習に基づく方法を提案しました。各補助タスクは、応用問題における条件の具体的な説明を解決しますが、この種の情報を正しく把握することは、実際には推論プロセスにおける中間結果であり、最終的な解決において重要な役割を果たします。ニューラル シンボリック モデルを使用して、補助タスク情報とツリー構造の推論モデルを組み合わせ、最終モデルは既存の 4 つのベンチマーク データセットで現在最高の結果を達成しました。 因果推論と因果表現学習図12. 因果推論の2つの主要な専門学派:ジューディア・パールが主導する構造因果モデルとドナルド・ルービンが主導する潜在的結果フレームワーク 知識と推論表現学習を組み合わせることで、視覚理解を低レベルの知覚から高レベルの認知に移行させ、パターン認識と人工知能の発展を大きく促進しました。しかし、認知知能の限界に到達するには、知識と表現の学習だけに頼るだけではまだまだ不十分です。一方、既存のディープラーニング技術のほとんどに避けられない問題は、主に相関関係に焦点を当て、因果関係を無視していることです。そのため、トレーニングしたモデルには、堅牢性と解釈可能性の点で多くの問題があります。一方、高次元のビジュアルビッグデータは複雑であるため、モデルのトレーニングにおいてさまざまな交絡因子の影響を回避することが困難になることが多く、最終的に学習された表現や知識に予測できないデータエラーが含まれることになります。そのため、関連する研究では、視覚理解のプロセスにおける「反射」のメカニズムを考慮し始めました。その本質は、因果推論の考え方を表現学習に統合し、「それが何であるか、なぜそれがそうであるかを知る」という真の目的を達成することです。 因果関係の発見と推論「原因と結果」という言葉の定義は、多くの場合、古代のさまざまな哲学学派の議論にまで遡ることができ、現代でも多くの学問分野が独自の見解を持つ一連の研究を独自に提唱しています。統計学習と人工知能の分野には、よく知られた 2 つの技術派閥があります。第一の派閥は、ジェルジ・ネイマン教授とドナルド・ルービン教授が独立して提唱した潜在的アウトカムフレームワーク[12]を主な分析ツールとして用いています。異なるランダム化比較試験群を研究対象として、異なる変数間に因果関係があるかどうかを判断するための主な根拠として、条件付き個別治療効果を検討します。 2番目の派閥は、2010年のチューリング賞受賞者であるジュディア・パール教授が率いており、世界における変数間の因果関係を3段階の因果関係の階段の観点から理解することを提唱しています[13]。はしごの最初のレベルである「関連付け」は、物事の変数が同時に発生する結合確率を指し、これはディープラーニングが現在説明できる変数の深い統計的関係でもあります。ライヘンバッハ教授[14]は、統計的相関関係に含まれる情報は因果関係に含まれる情報よりも明らかに少ないと指摘しています。したがって、より深い因果関係情報を得るためには、因果関係の理解を「介入」という第2レベルにまで高める必要があります。つまり、私たちが関心を持っている世界の物事に何らかの変化を加えることです。そうすれば、さまざまな可能性が生まれ、異なる変化は異なる結果をもたらすため、それらをフィードバックさせてより多くの情報を得ることができます。最後に、現実の世界では任意の相互作用や変更を行うことはできないため、典型的な例としては、時間変数が固定されている場合、介入と観察は 1 回しか行えないことがよくあります。したがって、因果関係の理解を「反事実」の第 3 レベルにまで高める必要があります。つまり、あらゆる介入に対して、人間の「反省」に似たプロセスを使用して、介入の有無による結果の違いを比較できるということです。ジュディア・パール教授は、因果関係に対する深い理解に基づき、因果関係を研究するための理論的枠組みと因果推論を実装するためのツールとして、因果図モデルと Do 演算子をさらに提案しました。彼は著書「Why」の中で、潜在的結果フレームワークと因果グラフモデルの共通性を説明し、真実が異なる形で表現されても、その結論は常に同じであることを証明しました。 因果表現学習図13. ジョシュア・ベンジオ教授による因果推論と表現学習に関する新たな理解 因果推論に関するアルゴリズム研究は広範に行われているものの、複雑な視覚理解タスクを導くためにそれをディープラーニング モデルと組み合わせるには依然として多くの課題が残っていることは注目に値します。一方では、このタイプのアルゴリズムによって想定される因果グラフは、多くの場合固定されており、比較的複雑性が低いです。他方では、因果想定と推論の変数単位は低次元変数であることが多く、含まれる情報は非常に少ないです。しかし、現実世界の推論単位は、豊富な意味情報を持つ高次元変数(オブジェクトなど)であることが多く、観察結果は最初は推論用に構造化されていないことがよくあります。こうした状況を踏まえ、チューリング賞受賞者であり、ディープラーニング研究の第一人者であるジョシュア・ベンジオ教授は最近、ディープラーニングと因果関係に関する独自の知見を発表しました[15]。彼は、ディープラーニングは単一のデータ分布に適合する、つまり観測世界は 1 つしか存在せず、一般的なディープラーニングはこの世界の固有の分布に適合することだと考えています。しかし、私たちの世界は動的に変化し、複数の未来に分裂しているため、既存のディープラーニングは実際には観察された世界に過剰適合しており、将来の変化に対処する力がないことを意味しています。そこで、ベンジオ教授はさらに「因果表現学習」という概念を提唱し、異なる世界や異なる可能性における分布状況を学習し適合させながら、データからこれらの変数表現を学習し構造関係を確立しようと試みました。このプロセスは、因果関係の理解における介入と思考に対応し、それによってさまざまな下流のタスクとの関係を構築します。ベンジオ教授の「因果表現学習」の概念は、弱教師付きセマンティックセグメンテーション、ビジュアルダイアログ、ゼロショット学習など、コンピュータービジョンの分野における最近の研究に大きな影響を与えています(図14を参照)。 図14. 因果表現学習と組み合わせたコンピュータビジョンに関する最近の研究 因果学習と知識の融合最後に、因果表現学習に関する私たちの研究室の最近の研究の進捗状況について、2 つの研究を含めて共有したいと思います。 1 つ目はコンピューター ビジョンの研究で、画像合成のために因果グラフを組み合わせる方法を研究します。2 つ目はコンピューター ビジョンの限界を超えて、医療診断および治療データにおける偏りのない推論の問題、つまり複数ラウンドの対話による自動医療相談を研究します。因果表現学習に関する既存の研究のほとんどとは異なり、私たちの 2 つの研究は、因果表現学習がより複雑なタスクを完了するのを支援するために外部知識またはデータ内の既存の構造情報をどのように使用するかということに重点を置いており、これは因果表現学習の分野における将来の研究に一定のインスピレーションを与えます。 図15. 表現学習生成モデルと因果グラフ推論を組み合わせた中山大学HCP研究所の研究 最初の研究では、セマンティックシーングラフを与えられた場合に、高レベルの抽象セマンティクスから低レベルの視覚データへの画像生成を実現する方法を研究します。これは、シーングラフ予測の逆問題として考えることができます。実装プロセスには 2 つの困難があります。1 つは、生成された画像に含まれるセマンティック情報が、指定されたシーン グラフのセマンティック情報と一致するようにする方法です。もう 1 つは、生成された画像のレイアウトを分離する方法です。つまり、レイアウトの一部のセマンティクスを変更しても、画像全体が歪まないようにする方法です。この構造レイアウトの分離を実現するために、実際には、関連する変数を交絡因子として扱い、因果表現学習を行うプロセスが行われます。したがって、外部知識と組み合わせた因果グラフを使用して、シーングラフから合成画像への生成プロセスを表現できることがわかります。我々は、生成的敵対学習ネットワークアーキテクチャを利用してリアルな画像生成を実現し、変分オートエンコーダの特性を利用して潜在空間表現を学習し、生成された画像内の対応する要素が分離されるようにします。生成学習の目的は、構造的因果関係の制約下で内部セマンティクスと外部知識の一貫性を維持しながら、生成された画像セマンティクスを可能な限りリアルにすることです。実験結果では、私たちの方法がシーングラフから意味的に一貫した画像を生成できるだけでなく、編集された画像の外側の画像の意味を妨げず、変更せずに、その中の構造的な意味情報を動的に削除および追加できることも確認されました。 図16. 中山大学HCP研究所は因果推論技術を使用して解釈可能な医療自動診断研究を実現している 2 番目の研究では、自動医療診断を研究しています。これは、エージェント モデルをトレーニングして、患者との動的な対話型診察を実施し、診察を終了して、正確性を維持しながらできるだけ早く病気を診断することです。これは本質的に、データマイニングモデリングと機械学習を組み合わせる問題です。既存の方法は基本的に、観察データを使用して患者シミュレーターを構築し、対話型の診察プロセスをシミュレートして診断エージェントモデルをトレーニングします。しかし、この医療会話のシミュレーション プロセスでは、実際には観察された受動的なデータが使用されるため、2 つの大きな因果バイアスの問題が発生します。最初の状況は、患者の医療記録に医師が特定の症状について一度も質問していないことが示されている場合、医療相談戦略が対話型トレーニングのために患者の記録にアクセスすると、患者シミュレーターは「わかりません」という空の回答のみを返すため、プロキシモデルはこの症状に対する医療相談戦略を構築できないというものです。これは、この症状に関する患者の会話データが反事実世界にのみ存在し、現実世界には現れたことがないためです。この問題はデフォルトの回答バイアスを呼び出します。多くの場合、医学的診断データで発生します。実世界の医師は、試行錯誤のプロセスなしで、事前の知識に基づいて最短の相談ルートを検索します。別の問題は、既存の患者シミュレーターは因果関係の推論の観点から、純粋な経験に基づいているため、それらが表すデータはしばしば過去の特定の観察を反映することができることです。これらの観察に基づいて訓練された協議エージェントモデルの戦略は、この観察された世界にのみ過剰になります。この分布バイアス問題は致命的です。 私たちの仕事は、因果構造図を使用してさまざまな症状と疾患因子を分析し、それらを潜在的な結果フレームワークと組み合わせてこれらの2つのタイプのバイアスを排除し、最終的には偏りやすい医療自動診断を実現します。潜在的な結果モデリングの傾向スコアマッチング手法に触発された私たちは、最初に傾向スコアベースの患者シミュレーターを提案します。これは、データバイアスの影響を受ける観測データ患者シミュレーターを置き換え、他のレコードから知識を抽出することで未記録のクエリに効果的に回答することを目的としています(図16の左サブ設定)。より具体的には、私たちの方法は、因果関係図を最初に使用して、各観察データで調査された症状と疾患の関係に基づいて、各レコードの傾向スコアとクラスターの異なる調査記録を計算するために使用されます。次に、観察記録に存在しない各症状の調査について、クラスター内の他の観察記録を通じて同様の回答を探すことができ、調査結果は潜在的な結果フレームワークの下での公平な推定を満たします。さらに、この方法は、すべてのインタラクティブな自動医療相談エージェントモデルのトレーニングで使用でき、不適切な相互作用方法によって引き起こされる医療相談の回答の逸脱を克服できるようにします。さらに、ディストリビューションクエリバイアスを克服するために、傾向スコアに基づいて患者シミュレーターを利用して、戦略を2つの部分に分解しながら、症状のクエリと疾患診断を2つに分解しながら、プログレッシブエージェントネットワークモデルを提案しました(図16の右サブグラフ)。調査プロセスは、患者の症状の未知の側面について尋ねることで介入するために、診断プロセスによってトップダウンの方法で推進されます。介入結果は、将来発生する可能性のある複数のインタラクティブなシナリオをさらに推測できます。相互作用に基づいてさまざまな将来の開発軌跡をクラスタリングすることにより、さまざまなクラスタリング結果に基づいて異なる疾患の判断を対応できます。したがって、相互作用を完了した後の各軌道は、異なる疾患の診断に対応し、異なるクラスター間の距離を最大化すると、会話が終了すると疾患診断の信頼を高めることができます。この診断プロセスは、実際には神経科学からの発散モデルと見なすことができます。患者を心理的および確率的に描写し、想像上の質問(「患者の咳の場合」など)を介入することにより、この精神的表現の理由をさらに説明します。上記の介入により、提案されたエージェントは、分布の調査バイアスを排除するために症状の有無に基づいて診断を行うことができます。 図17。因果推論に基づく医療自動診断の特定の実装フレームワーク 実際のシーンからサンプリングされた2つのデータセットを採用して、作業を評価します。傾向スコア患者シミュレーターの場合、実際のシーンのテストデータも観測データであるため、反事実的推論から導き出された評価注釈に基づいて反事実的推論を効果的に実装できるかどうかを測定します。さらに、シミュレーターが「私は知らない」などの意味のない答えに陥ることを避けることができるかどうかを測定するために、症状密度を導入します。最後に、Sun Yat-Sen University School of Medicineの学生グループを雇い、さまざまなインテリジェントエージェントの疾患診断パフォーマンスを評価しました。私たちの実験結果は、観測データに基づいてインタラクティブなトレーニングを受けた既存のインテリジェントエージェントの診断結果が、既存の相互作用記録データの影響を容易にし、実際のシナリオで信頼できる相談モデルをトレーニングすることを困難にしていることを示しています。提案した患者シミュレーターは、この変更に適応できます。同時に、観察されたテストデータまたは専門的な評価の精度に基づいていても、プロキシ戦略モデルは、より良い疾患診断結果も示しています。 要約するコンピュータービジョンから始めて、David Marrの視覚的理解の単純な概念から、深いニューラルネットワークモデルと表現学習を中心とした今日の研究への人工知能の急速な発展を目撃しました。同時に、ルートが徐々に特異性に達することもわかりました。表現力豊かな学習は高レベルの認知を学ぶことは困難であると信じているいくつかの考え方とは異なり、現在の表現学習を知識の推論と因果モデルと組み合わせて技術の跳躍の次の段階を達成する必要があります。知識の推論は人間の知識から機械認知への一貫した移転を達成し、因果モデルはマシンの推論を理解するための厳格な技術的手段を提供するためです。知識の推論と因果モデルに関する私たちの研究室の一連の作業も、間接的に私たちの視点を検証します。 |
<<: AR/AIバーチャル試着室は社会的距離の確保対策への対応
>>: 地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります
新たな住宅消費トレンドが出現[[342344]] 90年代以降の世代である荘さんは、仕事から帰宅...
10月26日に開催された第2回全国経済捜査フォーラムで、公安部経済犯罪捜査局局長のガオ・フェン氏は、...
CCTVの報道によると、中国は世界最大のロボット市場となっている。今年1月から10月まで、中国の産...
今後数年間で、初めて医療用人工知能 (AI) システムとやり取りすることになるかもしれません。自動運...
確かに、人工知能はさまざまな面で人々の生活を楽にしてきました。 Google アシスタント、Siri...
本日、上海で人工知能フレームワークエコシステムサミットが開催されました。サミットでは、MindSpo...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
国内メディアの報道によると、12月17日に開催された2019年中国スマート企業発展フォーラムで、工業...
米国のオークリッジ国立研究所の一部専門家は、2040年までにAI技術がプログラマーに取って代わるほど...
近年、急速に進化する生成型AI技術が広く注目を集めており、多方面に大きな影響を与えると期待されていま...
19 世紀頃、イギリスの実証主義哲学者で社会学者の H. スペンサーは、「教育論」の中で、イギリスの...
1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...