人間と魚の写真で訓練された AI は、初めて人魚の写真を見たときにどのように反応するでしょうか?人間の顔や魚の体には慣れていたが、見たことのないものを想像することはできなかった。最近、アリババDAMOアカデミーはコンピュータービジョンの分野に因果推論法を導入し、機械学習法の欠点を克服し、AIがこれまで見たことのないものを想像できるようにしようとしています。関連論文は、トップコンピュータービジョンカンファレンスCVPR 2021に掲載されています。 論文リンク: コードリンク: コンピュータ ビジョン (CV) は、機械に「見る」方法を研究する科学です。構造化されていない画像やビデオ データを構造化された特徴として表現することで、AI が視覚情報を理解できるようになります。ディープラーニングの登場以降、AIはCV分野の多くのタスクで人間を上回る能力を発揮しています。しかし、人間の視覚理解能力と比較すると、AIはまだ非常に「低次元」です。 人間は人間と魚のイメージを通して人魚を想像するのは簡単ですが、AIは人魚を「人間」か「魚」のどちらかに分類する可能性が非常に高いです。なぜなら、彼らには「想像力」という高度な認知能力が欠けているからです。現在の機械学習技術の本質は、観察を通じてデータを適合させることであり、これにより AI は学習したものだけを認識するようになります。トレーニング データを超えるオブジェクトに遭遇すると、多くの場合、「人工知能」になりがちです。 チューリング賞受賞者であり因果アルゴリズムの考案者であるジュディ・パール氏は、人間の想像力は因果推論能力を備えた脳から生まれると考えています。人間は「なぜ」と尋ねることが得意であり、それは物事の因果関係を探すことを意味します。この認知システムの助けを借りて、「小さなデータ」を使用して、現実世界で無制限の「大きなタスク」を処理することができます。しかし、AIは「ビッグデータ」を使って「小さなタスク」を処理することしかできません。AIが因果推論を学習できれば、「IQの天井」を破り、強力な人工知能につながる可能性もあります。 因果推論の理論は研究者に大きな刺激を与えており、機械学習との組み合わせはますます注目を集めています。業界では、DAMO Academy の City Brain Laboratory が初めて CV 分野に因果推論手法を導入し、機械学習モデルに因果推論モデルを追加して、ビジュアル AI をよりスマートにしました。今年、チームは南洋理工大学と共同で、「反事実的ゼロショットおよびオープンセット視覚認識」を含む因果推論手法を使用した3つの論文を発表し、そのすべてがCVPR 2021に収録されました。 左は既存手法によるAI「想像」結果、中央はDAMOアカデミー論文で提案されたコアアルゴリズム、右はDAMOアカデミーフレームワークに基づいて完成した想像結果です。左と右の図では、赤はトレーニング セット内のサンプル、青は AI がこれまで見たことのないカテゴリのサンプル、緑は AI がこれまで見たことのないカテゴリの想像を表しています。 ゼロショット学習とは、機械がこれまで見たことのない物体のカテゴリーを分類することを指し、オープンセット認識では、機械が見たことのない物体のカテゴリーを「未認識」としてラベル付けする必要があります。どちらのタスクも想像力に依存しています。 「ゼロ次およびオープンセット認識のための反事実」では、反事実に基づくアルゴリズム フレームワークを提案します。このフレームワークでは、サンプルの特徴 (オブジェクトの姿勢など) とカテゴリの特徴 (羽毛があるかどうかなど) を切り離し、サンプルの特徴に基づいて反事実を生成します。一般的に使用されるデータセットでは、アルゴリズムの精度は既存のトップメソッドを 2.2% ~ 4.3% 上回ります。論文の著者である岳中奇氏は、AI認知知能の進化はまだ始まったばかりであり、業界の探求はまだ初期段階にあると指摘した。今後、関連アルゴリズムの改善と最適化を継続していく予定だ。 Urban Brain Labによると、データ駆動型機械学習モデルは一般的にデータの不均衡という問題に直面している。「都市を例に挙げてみましょう。都市の情報はロングテール状に分布しています。膨大な量の通常情報と比較すると、交通事故、車両違反、突発的な災害などの異常情報の確率は非常に小さく、サンプルも乏しいです。希少サンプルの数を増やすことでこの問題は部分的に解決できますが、コストがかかり非効率的です。」 AI は独自に開発したアルゴリズムに基づいて、正常な情報サンプルのみを使用して偏りのない異常検出結果を得ることができます。車両と歩行者との異常な相互作用などの緊急事態が発生すると、都市脳は理解したふりをしたり、見て見ぬふりをしたりする必要はなく、情報をリアルタイムで識別してフィードバックすることができます。 「今後、この技術は、都市の基本的な視覚アルゴリズムシステムの最適化、非常に少ないサンプルで都市の異常な出来事を感知する能力の最適化、さらにはマルチモーダルなセマンティック検索やインテリジェントな画像やテキストの生成に応用されることが期待されています。」 CVPR は、コンピューター ビジョン分野のトップ 3 カンファレンスの 1 つです。CVPR 2021 カンファレンスは、6 月 19 日から 25 日までオンラインで開催されます。今年の会議には 1,663 件の論文が提出され、採択率は 27% でした。アリババグループからは41件の論文が選出され、2020年の2.6倍となった。 以下では、論文「ゼロ次およびオープンセットの反事実の識別」の第一著者である Yue Zhongqi 氏が論文を分析します。 論文「反事実的仮定のゼロ次および開集合識別」の分析既存のゼロショット学習とオープンセット認識では、既知カテゴリと未知カテゴリの認識率に重大な不均衡があります。この不均衡は、未知カテゴリのサンプルの歪んだ想像によるものであることがわかりました。そこで、サンプルの特徴に基づいて忠実度の高い反事実を生成することで、さまざまな評価データセットで安定した改善を実現する反事実フレームワークを提案しました。この作業の主な利点は次のとおりです。 私たちが提案した GCM-CF は、見える/見えないカテゴリのバイナリ分類器です。バイナリ分類の後、任意の教師あり学習 (見えるカテゴリ) とゼロショット学習アルゴリズム (見えないカテゴリ) を適用できます。 私たちが提案する反事実的生成フレームワークは、VAE、GAN、Flow に基づくものなど、さまざまな生成モデルに適用できます。 2 つの概念セットを切り離すための、実装が簡単なアルゴリズムを提供します。 次に、私たちが対象とするタスク、提案するフレームワーク、および対応するアルゴリズムについて詳しく紹介します。 ゼロショット学習とオープンセット認識多くの人は、カモシカとバクという 2 つの動物 (上の写真参照) をよく知っていますが、バクのような鼻を持つカモシカはどのような姿をしているのでしょうか。おそらく、右側の動物に似た動物を想像できるでしょう(サイガと呼ばれます)。上記のプロセスでは、ゼロショット学習 (ZSL)を行っています。サイガアンテロープを見たことはありませんが、アンテロープとバクに関する既存の知識を通じて、この目に見えないカテゴリがどのようなものか想像することができ、これはこの動物を知っていることと同じです。実際、既存の知識を前例のない事柄に一般化するこの能力は、人々が素早く学習できる重要な理由です。 道路標識の別の例を見てみましょう。左側の 2 つの道路標識は見慣れたもので、以前に見たことがありますが、右側の道路標識はこれまで見たことのない非常に奇妙な道路標識であることが簡単にわかります。人間は、これまで見てきたサンプルに精通しているだけでなく、見たことと見たことのないものの境界を知ることができる未知の世界を認識する能力も備えているため、このようなオープンセット認識 (OSR) を簡単に完了できます。 機械学習では、これら 2 つのタスクの定義は上の図に示されています。ゼロショット学習トレーニング セットは、カテゴリ セット S を提供します。上記の写真の場合、各写真のカテゴリ ラベルに加えて、各カテゴリには、そのクラスの特性 (翼、丸い顔など) を説明する追加属性もあります。テストには 2 つの設定があります。従来の ZSL では、すべての画像は未知のカテゴリ U (S∩U=∅) からのものであり、テスト中にカテゴリ U の密なラベルも与えられます。一般化 ZSL では、テスト セットには S と U の両方の画像が含まれます。オープン セット認識のトレーニング セットは、テスト中にトレーニングでは見られなかったカテゴリのサンプルが存在することを除いて、通常の教師あり学習のトレーニング セットと変わりません。分類器は、認識したクラスを正しく識別するだけでなく、認識していないクラスを「不明」としてラベル付けする必要もあります。 既存の主な ZSL および OSR 手法は生成ベースです。たとえば、ZSL では、画像は未知のカテゴリの属性機能を使用して生成され、画像空間で比較されます。ただし、生成モデルは当然、これまでに確認されたトレーニング セットに偏るため、確認されていないカテゴリの想像が歪んでしまいます(これは実際には属性機能の絡み合いによるもので、ここでは詳しく説明しません。論文を参照してください)。例えば、訓練中に象の長い鼻を見たことがある人は、今まで見たことのないバクの長い鼻を想像すると、それを象の鼻として想像するでしょう。左の図はこの歪みを示しています。赤はトレーニング セット内のサンプル、青は未知のカテゴリの真のサンプル、緑は未知のカテゴリに関する既存の方法の想像です。これらの想像はサンプル空間から逸脱しており、既知のクラスにも未知のクラスにも似ていません (緑の点は青と赤の点から逸脱しています)。これは、見えるクラスと見えないクラスの認識率が不均衡になる理由を説明しています。緑と赤のサンプル (黒の破線) を使用して学習された分類器は、見えるクラスのリコールを向上させるために、見えないクラスのリコールを犠牲にします。 反事実生成フレームワークでは、想像するときにどうやって真実性を維持するのでしょうか?人間がどのように想像するか考えてみましょう。古代の生物がどのような姿をしていたかを想像するときは、その化石の骨格を参考にします (左)。アニメの世界のシーンを想像するときは、現実世界を参考にします (右)。こうした想像の本質は、実は一種の反事実的推論です。そのような化石(事実)があったとしたら、それがまだ生きているとしたら(反事実)どうなるでしょうか?現実世界のシーンをアニメーションの世界に持ち込んだらどうなるでしょうか?私たちの想像力は、事実に基づいて構築されることにより、空想的なものではなく、合理的なものになります。 では、反事実的仮定は ZSL と OSR でもっともらしい想像を生成するために使用できるのでしょうか?まず、これら 2 つのタスクの因果生成モデル (GCM)を構築しました。観測画像 X は、サンプル特徴 Z (オブジェクトのポーズなど、カテゴリに依存しない) とカテゴリ特徴 Y (羽、丸い顔など) によって生成されると仮定しました。既存の生成ベースの方法は、実際に P(X|Z,Y) を学習し、Y の値を特定のクラスの特徴 (ZSL の密なラベルなど) に設定し、Z をガウスノイズに設定して、このクラスのサンプルを多数生成することができます。 反事実生成と既存の生成モデルの最大の違いは、ガウスノイズではなく特定のサンプル特徴 Z=z(fact) に基づいて生成されることです。具体的なプロセスは上の図に示されています。画像 x の場合、エンコーダー z(⋅) を使用して、この画像のサンプル特徴 Z = z(x) (正面図、歩行中など) を取得します。このサンプル特徴 Z (事実) とさまざまなカテゴリ特徴 Y (反事実) に基づいて、さまざまなカテゴリの反事実画像 x̃ (正面図、歩行中の猫、羊、鶏など) を生成できます。直感的には、反事実的に生成された猫、羊、鶏の画像が x に似ていないため、x はこれら 3 つのカテゴリに属していないことがわかります。この直感は、実際には理論によって裏付けられており、反事実的一貫性規則と呼ばれています。簡単に説明すると、反事実と事実が一致する場合、得られた結果は事実の結果です。たとえば、事実が昨日アイスクリームを食べた後下痢になった場合、「昨日アイスクリームを食べていたとしたらどうなっていただろうか」という反事実的質問に対する答えは下痢です。では、一貫性ルールを通じて ZSL と OSR をどのように解決するのでしょうか? GCM-CFアルゴリズムGCM-CF アルゴリズムのプロセスは、上の図に示されています。これは本質的に、サンプルが既知クラスに属するか未知クラスに属するかを判断する一貫性ルールに基づくバイナリ分類器です。 トレーニング中に GCM を学習します。テスト中、各サンプル X=x に対して、前のセクションで紹介した手順を使用して反事実を生成します。つまり、サンプル自体の Z=z(x) を使用し、異なるカテゴリ機能を連結し、Y=y を連結してから、P(X|Z=z(x),Y=y) を使用して x̃ を生成します。このようにして生成されたサンプルは、「反事実的に忠実」であることが証明できます。つまり、サンプル空間では、サンプル空間での測定値を使用して x と生成された x̃ を比較し、一貫性ルールを使用して x が既知のクラスに属するか未知のクラスに属するかを判断できます。 特にこのタスクでは、ZSL では、見えないクラスの属性 (図の Y_U) を使用して反事実サンプルを生成し、トレーニング セットのサンプル (見えるクラス) と生成されたサンプル (見えないクラス) を使用して線形分類器をトレーニングします。入力サンプル X=x を分類した後、見えるクラスと見えないクラスの確率の上位 K 平均を取得します。未観測クラスの平均値の方が小さい場合、サンプル X=x は未観測クラスと似ていない (一貫性がない) とみなし、このサンプルを観測クラスに属するものとしてマークし、観測クラスのサンプルで学習によって管理された分類器を使用して分類します (これは実際には一貫性規則に基づく置換推論であり、詳細については論文を参照してください)。逆に、一貫性がある場合は、観測クラスに属するものとしてマークし、従来の ZSL アルゴリズムを使用して分類します。 OSR では、未知のカテゴリに関する情報がないため、既知クラスのワンホット ラベル (図の Y_S) を Y として使用して、反事実サンプルを生成します。 x と生成されたサンプルがユークリッド距離で非常に離れている (一貫性がない) 場合、x は未知のクラスに属していると見なし、「不明」というラベルを付けます。それ以外の場合は、教師あり学習分類器を使用できます。 ご覧のとおり、アルゴリズムの中心的な要件は、一貫性ルールを推論に使用できるように忠実なサンプルを生成することです。この特性は、反事実的忠実性定理によって保証されます。簡単に言えば、忠実な生成のための必要かつ十分な条件は、サンプル特徴とカテゴリ特徴の分離です。私たちは、3 つの損失を通じてこれを実現します。 β-VAE 損失: この損失では、エンコードされた Z=z(x) とサンプル自体の Y=y がサンプル X=x を再構築できることが必要であり、エンコードされた Z は等方性ガウス分布と非常に一致している必要があります。これにより、Z の分布を Y から独立させることで分離が実現されます。 対照的損失: 対事実的に生成されたサンプルでは、x は自身のカテゴリ機能によって生成されたサンプルにのみ類似しており、他のカテゴリ機能によって生成されたサンプルとはかけ離れています。これにより、生成モデルが生成に Z の情報のみを使用し、Y を無視する状況を回避し、Y の情報と Z の情報の分離をさらに実現します。 GAN 損失: この損失は、反事実的に生成されたサンプルが識別器によって本物であるとみなされることを直接的に要求し、必要十分な条件と忠実度の保存を通じてそれらをさらに分離します。 実験実験を紹介する前に、ZSL でよく使用される Proposed Split の公式データセットには、以前はデータ漏洩のバグがあり、一部のメソッドが特に「seen」カテゴリ (S) で優れたパフォーマンスを発揮していたことに注目する価値があります。昨年、このバグを解決するために、Proposed Split V2 が公式サイトでリリースされました。以下の実験はすべて、変更されたデータセットで実行されます。 既知カテゴリーと未知カテゴリーの認識率の不均衡を軽減する 下の図は、反事実生成の結果を示しています。条件サンプルの特徴 (青い星は未確認クラスのサンプル、赤い星は確認済みサンプル) により、未確認カテゴリの生成されたサンプルが確かに忠実であり (青い点の中央)、得られた決定境界 (黒い線) もバランスが取れていることがわかります。これは、ZSL でよく使用される 4 つのデータセットにも反映されています。私たちの方法は、未知のカテゴリ (U) の精度を大幅に向上させ、それによって全体的な精度 H (調和平均) を向上させ、SOTA パフォーマンスを達成します。既存の方法には、実際に不均衡を解決する簡単な方法があり、それは、見えるカテゴリのロジットを直接調整することです。調整範囲を変更することで、見えるカテゴリと見えないカテゴリの曲線を得ることができます。私たちの方法 (赤い線) は各調整範囲で高くなっていることがわかります。これは、不均衡を根本的に減らすことができることを示し、これは単純な調整では達成できないことです。 見える/見えないカテゴリーの強力な分類器 私たちの方法は、従来の ZSL アルゴリズムに適用できます。推論ベースの RelationNet と、異なる生成ネットワークに基づく 3 つの生成ベースの方法をテストした結果、私たちの方法が改善され、現在の SOTA TF-VAEGAN を既知/未知分類器として使用した場合のパフォーマンスを上回ることがわかりました。 強力なオープンセット分類器 私たちは、一般的に使用されるいくつかのデータセット(F1 インジケーターを使用)に対してオープン セット認識実験を実施し、SOTA パフォーマンスを達成しました。オープンセット認識における未知のカテゴリの数は不明であるため、優れた分類器は小規模なケースでも大規模なケースでも優れたものでなければなりません。右の図では、F1 スコアと未知のカテゴリの数 (少数から多数まで) をプロットしています。私たちの方法 (青) はあらゆるケースで最適であり、未知のカテゴリ テストでは、多くの場合 F1 スコアがそれほど低下せず (青い曲線の終わり)、強力な堅牢性を示しています。 結論この研究は、分離表現の探求と探究です。達成困難なすべての要素の完全な分離を、2 つの概念セット (サンプル機能とカテゴリ機能) 間の分離に緩和します。分離によってもたらされる忠実性プロパティを活用することで、提案した反事実生成フレームワークを可能にします。これは、ある側面から見ると、分離が因果推論の重要な前提条件であることも反映しています。異なる概念が区別されている場合 (分離された表現など)、それらの間の因果関係に基づいて推論し、堅牢で安定した一般化可能な結論を得ることができます。 デカップリングについては悲観論や疑念も見られます。実際、デカップリングの定義さえもまだ確定しておらず、方法や評価などはまだ確定していません。しかし、これらの困難も予見可能です。分離により、機械は、観測データのパターンの学習から、これらのデータが生成される理由の探究まで、あるレベルを超えることができます。これは、太陽が毎日昇ることは人間にとって簡単にわかりますが、太陽が昇る理由を理解するには何千年もかかりました。また、デカップリングの分野にもっと注目し、探求することを皆さんに奨励します。もしかしたら、次のブレークスルーをもたらすのはあなたかもしれません。 |
<<: Google の FLoC アルゴリズムは、プライバシー保護の向上か、広告テクノロジーの向上か?
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
製造業からの温室効果ガス排出を削減する方法は複数あります。 製造業におけるデジタルデータの使用による...
[[440377]]はじめに12月7日、英国のドローン戦争ウェブサイトは、人工知能が各国の軍事部門に...
12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...
ケンブリッジ大学の「AIパノラマレポート」2020年版がこのほど正式に発表された。ケンブリッジ大学の...
人工知能の概念は何年も前から存在しています。SF映画に出てくるような高度なロボットはまだ登場していま...
人類はもはや人工知能(AI)の波から逃れることはできない。彼らが行くところすべてで、最新の AI ソ...
今日、デジタル変革はビジネス存続の基盤となっています。自動化された工場から人工知能 (AI) 品質管...
[[422303]]人工知能(AI)は、かなり長い間、世界中のビジネスにおいて安定した存在となってい...
背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...
企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...
スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、 Google DeepMindも最...