ICLR 2022: AI が「目に見えないもの」を認識する方法

ICLR 2022: AI が「目に見えないもの」を認識する方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今回、領域外物体検出の分野で新しいモデルVOSが発表されました。協力チームはウィスコンシン大学マディソン校で、論文はICLR 2022に掲載されています。

このモデルは、ターゲット検出と画像分類の両方で最高のパフォーマンスを達成し、FPR95 インデックスは以前の最高結果よりも 7.87% 低くなっています。

ディープネットワークにとって、未知の状況に対処することは常に難しい問題であったことを知っておくことは重要です。

たとえば、自動運転では、既知の物体(車、一時停止標識など)を認識する検出モデルが、馬をシマウマと間違えて、領域外(OOD)物体について高い信頼度の予測を行うことがよくあります。

たとえば、下の写真のヘラジカは、Faster-RCNN モデルによって 89% の信頼度で歩行者として識別されました。

したがって、ドメイン外オブジェクトの検出は、間違いなく AI セキュリティにおける非常に重要なトピックとなっています。

このモデルがドメイン外のオブジェクトについてどのように判断するかを見てみましょう。

VOSがドメイン外オブジェクトを検出する方法

VOS を理解する前に、ドメイン外オブジェクトの検出が難しい理由について説明する必要があります。

実際、それは理解しやすいことです。結局のところ、ニューラル ネットワークはトレーニングとテスト中にデータを学習するだけで、これまで見たことのないものに遭遇したときには当然それを認識することはないのです。

この問題を解決するには、ネットワークに「未知の」ものを認識させる方法を見つける必要があります。これについてどうすればいいでしょうか?

VOS が考え出した解決策は、モデルが学習するためのドメイン外のオブジェクトをシミュレートすることです。

たとえば、下の図の検出状況では、3 つの灰色の点がターゲットです。領域外のオブジェクトがシミュレートされていない場合(左) 、モデルは広い領域内でのみターゲットを囲むことができます。

シミュレートされたドメイン外オブジェクト(右)を使用してトレーニングした後、モデルはターゲットをコンパクトかつ正確にロックし、より合理的な決定境界を形成できます。

ターゲットがより正確にロックされると、この範囲外の他のオブジェクトはドメイン外オブジェクトとして判断できます。

この考えに基づいて、VOS チームは次のフレームワークを構築しました。

Faster-RCNN ネットワークに基づいて、シミュレートされたドメイン外オブジェクトのデータの一部が分類ヘッドに追加され、トレーニング セットのデータと組み合わせられ、標準化された不確実性損失関数が共同で構築されます。

これらのシミュレートされたドメイン外オブジェクトのデータはどこから来るのでしょうか?構造図を見ると、これらの点はすべて、可能性の低い領域であるターゲット領域(青い点、黄色の四角い点、緑の三角の点) の周囲からのものであることがわかります。

最後に、信頼度の計算に基づいて、青はターゲット検出データを表し、緑はドメイン外のオブジェクトを表します。

このようにして、画像内の車とヘラジカを識別できます。

他の多くの領域外オブジェクト検出方法と比較すると、VOS の利点がわかります。

各指標において、下向き矢印はデータが小さいほど良いことを意味し、逆に下向き矢印はデータが大きいほど良いことを意味します。

その中で最も有名なのは FPR95 で、OOD サンプルの分類精度が 95% の場合に OOD サンプルが ID サンプルに誤分類される確率を表します。

この結果は、これまでの最高結果から 7.87% 低下したものです。

他の既存の方法と比較しても、VOS には利点があります。

一般的な学習フレームワークとして、オブジェクト検出と画像分類の両方のタスクに適用できます。これまでの方法は主に画像分類によって行われていました。

このモデルは現在、GitHub でオープンソース化されています。

著者について

このモデルは主にDu Xuefeng、Cai Muらによって提案されました。

Du Xuefeng 氏は西安交通大学で学士号を取得し、現在はウィスコンシン大学マディソン校でコンピューターサイエンスの博士号取得を目指しています。

主な研究方向は、ドメイン外オブジェクトの検出、敵対的堅牢性、ノイズラベル学習などを含む信頼できる機械学習です。

蔡穆氏も西安交通大学を卒業し、学士号を取得しており、現在はウィスコンシン大学マディソン校でコンピューターサイエンスの博士課程2年目に在籍しています。

彼の研究の関心は、ディープラーニング、コンピュータービジョン、特に 3D シーン理解(ポイントクラウド検出)と自己教師あり学習に焦点を当てています。

この論文の責任著者は、現在ウィスコンシン大学マディソン校のコンピューターサイエンスの助教授であり、以前はFacebook AIの研究員であったSharon Yixuan Li氏です。

<<:  ICLRは深層生成モデルに関する大きな議論を開催し、ウェリングとAAAIの百万ドル賞受賞者が来場する。

>>:  機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

ブログ    

推薦する

EUがAIを活用して社会イノベーションを推進する方法

2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となることは間違いないだろう。...

...

自己注意メカニズムとは何ですか?

[[241487]]著者: キオン・キムマシンハートが編集参加者: Geek AI、Liu Xia...

なぜ人工知能は技術的な問題ではなく、社会的な研究の問題なのでしょうか?

[[252833]]無人スーパーで買い物をすることに慣れている人なら、ある日のある瞬間、他のスーパ...

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違...

AIは「気質」に基づいて赤ちゃんの年齢と性別を正確に識別できる

PLOS ONE に掲載された新しい研究では、機械学習を使用して 4,438 人の乳児の「気質」デー...

テクノロジー統合によるバーチャルキャラクターの創造と実践

著者 | 崔昊レビュー | Chonglouまとめこの記事では、パーソナライズされた仮想キャラクター...

CCTV、春節に初めてバーチャル司会者サ・ベイニン氏を迎える

AIブロックチェーン企業の技術が中国の重要な国家夜会で正式に使用された。 2019年のオンライン春節...

九張雲吉DataCanvasマルチモーダル大規模モデルプラットフォームの実践と思考

1. マルチモーダル大規模モデルの歴史的発展上の写真は、1956年にアメリカのダートマス大学で開催さ...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、Ne...

音声分析:自動運転車の鍵となる技術

サプライチェーン管理、製造業務、モビリティサービス、画像およびビデオ分析、音声分析の進歩により、次世...

人工知能の時代においても、人間同士の交流は依然として重要である

実際、AI はほとんどの人間同士のやり取りに取って代わっています。デジタルアシスタントや AI ベー...