マイクロソフト コンピュータ ビジョン イノベーション & リサーチ フォーラム 1 日目: 3 つの最先端検出テクノロジの解説

マイクロソフト コンピュータ ビジョン イノベーション & リサーチ フォーラム 1 日目: 3 つの最先端検出テクノロジの解説

昨日5月15日午前9時、Microsoft Research Asia Innovation ForumのCVPR 2020論文共有セッションがオンラインで開始されました。会議では、コンピューター ビジョン (CV) 分野の 19 人の学者が、検出、マルチモダリティ、基礎となるビジョン、画像生成、機械学習という 5 つの主要方向にわたる最新の研究成果を共有しました。

14日午前には、コンピュータービジョン検出分野の研究者3名が講演し、それぞれ先進的な顔認識技術、動き検出技術、ターゲット検出技術を紹介しました。 Zhidongxi はこれら 3 つの高度なテクノロジーを解釈します。

Microsoft Research Asia Innovation Forum の CVPR 2020 論文共有セッションは、コンピューター ビジョン (CV) 分野で最も重要なカンファレンスの 1 つです。このセッションでは、CV 分野の最先端技術約 20 件が共有されました。

1. X線検出アルゴリズムは95.4%の精度で偽造画像を識別します

ディープフェイク技術の悪用は、少なくとも虚偽情報の問題を引き起こす可能性があり、さらには金融セキュリティリスクや侵害問題などを引き起こす可能性もあります。ディープフェイク画像の中には、非常にリアルなものもあり、人間の目には違いを見分けるのが難しいものもあります。この場合、顔認識技術が識別に役立ちます。

既存の顔認識ツールのほとんどは、特定のディープフェイク技術向けにトレーニングされており、偽の顔画像を入力として使用します。つまり、顔認識技術は、特定の方法で合成された偽の画像しか認識できないのです。ディープフェイク技術が進化したり、他のディープフェイク技術に置き換えられたりすると、顔認識モデルが無効になる可能性があります。

マイクロソフトリサーチアジアの研究員、バオ・ジェンミン氏は、実際の顔画像を使って訓練された顔X線認識技術について説明した。ディープフェイク技術が進化しても、X線顔検出アルゴリズムは高いレベルの精度を維持できます。

偽造画像の作り方は、2つの画像を重ね合わせる、つまり背景画像(背景)に加工した顔画像(前景)を合成するというものです。研究者らは、各画像の撮影や制作過程では異なるハードウェア(センサー、レンズなど)やソフトウェア(圧縮、合成アルゴリズムなど)が使用されるため、前景画像と背景画像の特徴がまったく同じになることはできず、顔画像と背景画像の間に「境界」が存在すると指摘した。

顔X線技術は上記の機能を活用し、顔のグレースケール画像を入力として使用します。顔 X 線モデルは、さまざまなグレースケール画像間の違いを識別できるため、顔画像が本物か偽物かを示すだけでなく、偽画像のブレンド境界の位置を特定することもできます。

▲左から1枚目が本物、他は偽物です。顔X線モデルは偽物の混在境界位置を検出します。

研究者らは、顔X線モデルのパフォーマンスを従来の顔認識ツールと比較した。結果は、モデルが以前のバイナリ分類方法よりも多くの偽の顔フレームを検出でき、認識精度が最大 95.4% に達することを示しています。

鮑建民氏は、このアルゴリズムにはまだ一定の限界があると指摘した。たとえば、Face X-ray は主に顔画像データベース FF++ を使用してトレーニングされます。 FF++ の画像のほとんどは正面画像であるため、横顔を認識するモデルの精度は低くなります。

DAGMモデル: アクションとコンテキストを区別し、アクションを正確に識別する

マイクロソフトリサーチアジアの研究員Qi Dai氏は、動画から動作を識別できるモーション検出技術について説明した。現在のモーション検出技術は、完全教師あり方式と弱教師あり方式に分けられることが分かっています。

完全教師あり方式のアクション検出モデルでは、トレーニング中にアクション間隔の時間的な注釈が必要であり、これは非常にコストがかかり、時間がかかります。そのため、既存のアクション検出ツールでは、主に弱教師付きアクションローカリゼーション (WSAL) テクノロジが使用されています。

WSAL 技術には 2 つのタイプがあります。最初のタイプは、ビデオ レベルの分類子を学習し、生成された時間クラス アクティベーション マップ (TACM) をチェックしてフレーム アテンションを取得するトップダウン パイプラインを構築します。 2 番目のカテゴリはボトムアップであり、生データから直接時間的注意を予測し、ビデオレベルの監督からビデオ分類のタスクを最適化します。

どちらのアプローチもビデオレベルの分類モデルに依存しており、アクションとコンテキストの混乱という問題が発生します。例えば、走り幅跳びの動画では、走り幅跳びの動作(アクション)には助走、ジャンプ、着地の 3 つの段階しかありませんが、動作検出モデルでは準備段階や終了段階(コンテキスト)も選択されることが多いです。

研究者たちは、この問題を解決する鍵は、行動と文脈の違いを見つけることにあると考えている。彼らは、識別的注意モデル (DAM) と生成的注意モデル (GAM) を使用して検出ツールを最適化し、識別的および生成的注意モデル (DAGM) を提案しました。

研究者らは、DAGM モデルのパフォーマンスを他の弱く監視されたアクション ツールと比較しました。結果は、DAGM モデルのパフォーマンスが良好で、最高の平均精度が 41 に達したことを示しています。

3. TSDアルゴリズム:検出ツールの精度を3~5%向上

ターゲット認識アルゴリズムは、通常、分類と位置特定という 2 つの次元からオブジェクトを検出します。前者はオブジェクトのプロパティを識別することを指し、後者はオブジェクトの場所を特定することを指します。

従来の検出方法では、通常、分類と回帰を一緒に学習し、オブジェクトが存在する可能性のある領域ボックス (提案) と特徴抽出器 (兄弟ヘッド) を共有します。

この検出方法の制限は、最終出力画像フレームの分類信頼性が検出フレームの精度と一致しず、認識精度が低いことです。

研究者らは、これは分類タスクと回帰タスクの間に違いがあるためだと結論付けました。分類タスクは意味情報が豊富な領域に重点を置いているのに対し、回帰タスクはオブジェクトの境界に重点を置いています。したがって、共有オブジェクトの潜在的な領域ボックス (提案) と特徴抽出器 (兄弟ヘッド) が検出結果に影響します。

SenseTime X-Lab の研究者である Song Guanglu 氏は、タスク認識空間分離 (TSD) に基づく検出アルゴリズムを発表しました。このアルゴリズムは、特別に設計されたオフセット生成戦略を検出ヘッドに適用し、共同で漸進的損失をトレーニングして最適化します。結果は、TSD アルゴリズムと組み合わせた検出ツールの検出精度が 3 ~ 5% 向上することを示しています。

結論: CV研究は意味論と堅牢性において課題に直面している

3人の研究者の発表が終わった後、ロチェスター大学のロジャー・ルオ教授、カリフォルニア大学バークレー校のイー・マー教授、カリフォルニア大学サンディエゴ校のチューウェン・トゥ教授、カリフォルニア大学のミンシュアン・ヤン教授、Wormpex AI Researchのガン・ホア教授が円卓討論会を開催した。これら 5 人の教授はいずれも CVPR 会議の議長を務めています。

トピックの選択と執筆スキルの面では、5人の教授はCV研究者に多くの提案をしました。たとえば、研究者は研究のホットスポットを盲目的に追求する必要はなく、興味のあるトピックを選択すべきであり、駆け出しの研究者は熟練した研究者の論文構成から学ぶことができると彼らは信じていました。彼らは、プレプリントウェブサイトarXivに掲載される論文の質は大きく異なるため、研究者はそれらを参照する際には注意深く見極める必要があると強調した。

さらに、5 人の教授は、現在 CV 研究が直面している 2 つの主な課題はセマンティクスと堅牢性であると指摘しました。セマンティクスの理解は、モデルがより高いレベルのタスクを完了できるかどうかに関係します。医療、ドローン、航空宇宙などの分野では、CV モデルの堅牢性が安全性に直接影響します。

したがって、その後の CV 研究では、CV モデルの意味理解と堅牢性の向上に重点が置かれています。

<<:  AIチャットボットがコロナウイルスによる人員不足の問題を緩和する方法

>>:  モノのインターネット – インド国防軍にとっての可能性

ブログ    
ブログ    

推薦する

2020年の人工知能レビュー:AIが時代に知性をもたらす

2020年は人工知能(AI)にとって節目の年です。今年、新型コロナウイルス感染症のパンデミックが世界...

CNN 推論エンジンを使用して IoT デバイスにディープラーニングを実装するにはどうすればよいですか?

[[212457]]ディープラーニング技術により、モノのインターネット (IoT) デバイスは非構...

意見:AI主導のテクノロジーが新たな道を切り開く

AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?練習チェックリストはこちら

[[198324]]導入この記事は、自然言語処理 (NLP) にニューラル ネットワークを使用する方...

火山エンジンは大型モデル用の大きなベースを作ります! MiniMax、Zhipu AIなどが上陸

Volcano Engine は、大規模モデルのトレンドに関する解答用紙を提出しました。大型モデルサ...

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...

DeepMind: ビッグモデルのもう一つの大きな欠陥は、正しい答えが事前にわかっていなければ推論を自己修正できないことだ。

大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...

異常分析のための技術的ソリューション - 異常帰属の指標分析

著者 | イー・リアン1. はじめに唯一不変なのは変化です。変化を受け入れる前に、調査し、属性を特定...

トヨタがAIを活用して融資判断をスピードアップする方法

[[431125]]自動車金融サービスの分野では、ディーラーと顧客が意思決定のスピードを追求していま...

...

NTU Yu Yangによる徹底分析:「世界モデル」とは何か?

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」...

アリババが自社開発の音声認識モデルDFSMNをオープンソース化、精度は最大96.04%

[[232541]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDF...

今後10年間で、人工知能とロボットは雇用に7つの影響を与える

[[202532]]編集者注: この記事はNetEase Intelligenceからのもので、著者...

機械プログラミングが次に投資すべきテクノロジーである理由は何ですか?

[[413321]] [51CTO.com クイック翻訳]一連の新しいツールは、機械学習やその他の...