Transformer はコンピューター ビジョンの分野でどこまで進歩したのでしょうか?

Transformer はコンピューター ビジョンの分野でどこまで進歩したのでしょうか?

[[400862]]

Transformer モデルは、自然言語処理 (NLP) の分野における新しいパラダイムとなっています。現在、Transformer モデルの強力なモデリング機能をコンピューター ビジョン (CV) の分野に適用しようとする研究がますます増えています。では、将来、Transformer は NLP 分野と同様に CV 分野にも革命を起こすのでしょうか?今後の研究の構想は何ですか? Microsoft Research Asia のマルチメディア検索およびマイニング グループの研究者による、Vision Transformer モデルに基づく画像およびビデオ理解の分野での最新の研究により、新たな洞察が得られるかもしれません。

Transformerは、自己注意機構で構成されたネットワーク構造として、強力なスケーラビリティや長距離依存関係を学習する能力などの利点により、登場するや否や畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)などのネットワーク構造に取って代わり、自然言語処理(NLP)分野の理解と生成のタスクを「席巻」しました。

しかし、Transformer はそこで止まりませんでした。2020 年に、Transformer モデルは初めて画像分類タスクに適用され、CNN モデルよりも優れた結果を達成しました。それ以来、Transformer モデルの強力なモデリング機能をコンピューター ビジョンの分野に適用しようとする多くの研究が始まりました。現在、Transformer は分類、検出、セグメンテーションという 3 つの主要な画像問題において優れた結果を達成しています。視覚と言語の事前トレーニング、画像の超解像、ビデオの復元、ビデオターゲットの追跡などのタスクも、Transformer の国境を越えた人気のある方向性になりつつあります。Transformer 構造に基づくアプリケーションと設計も良好な結果を達成しています。

[[400863]]

トランスフォーマー「国境を越えた」イメージタスク

近年、Transformer ベースの事前トレーニング済みモデルが NLP の分野で驚異的な機能を発揮し続けているため、画像や関連するクロスモーダル分野に Transformer を導入する研究が増えています。Transformer の自己注意メカニズムは、ドメイン独立性と効率的なコンピューティングにより、画像関連タスクの開発を大きく促進しました。

エンドツーエンドの視覚と言語のクロスモーダル事前トレーニングモデル

視覚言語事前トレーニングタスクは画像分野に属します。その目標は、事前トレーニングタスクを設計することで、大規模な画像と言語に対応するデータセットを使用して、より堅牢で代表的なクロスモーダル機能を学習し、下流の視覚言語タスクのパフォーマンスを向上させることです。

既存の視覚言語事前トレーニング作業のほとんどは、従来の視覚言語タスクの視覚特徴表現、つまりオブジェクト検出ネットワークによってオフラインで抽出された局所的な視覚特徴に基づいており、視覚言語 (VL) の特徴融合と事前トレーニングに重点を置いていますが、クロスモーダル モデルの視覚特徴最適化の重要性は無視されています。この従来の視覚機能には、VL タスクの学習に関して主に 2 つの問題があります。

1) 視覚的特徴は、元の視覚検出タスクの対象カテゴリに限定される

2) 対象領域外の文脈理解に重要な情報を無視する

VL モデルの視覚的特徴を最適化するために、Microsoft Research Asia のマルチメディア検索およびマイニング グループの研究者は、エンドツーエンドの VL 事前トレーニング ネットワーク SOHO を提案しました。これは、VL トレーニング モデルに新しい探索パスを提供します。 この作品の関連論文「Seeing Out of tThe bOx: End-to-End Pre-training for Vision-Language Representation Learning」がCVPR 2021 Oralに掲載されました。

論文リンク: https://arxiv.org/abs/2104.03135

GitHub アドレス: https://github.com/researchmm/soho

SOHOモデルの主なアイデアは、ビジュアルエンコーダーをVLトレーニングネットワークに統合し、VL事前トレーニングタスクに依存してネットワーク全体を最適化することで、トレーニングプロセスを簡素化し、手動でラベル付けされたデータに依存する問題を軽減することです。同時に、ビジュアルエンコーダーは、VL事前トレーニングタスクのガイダンスの下でオンラインで更新され、より優れた視覚表現を提供できます。

SOHO モデルは、手動で注釈を付けられたデータの必要性を減らすだけでなく、複数の下流の視覚言語タスク (視覚的な質問応答、画像言語検索、自然言語画像推論など) の公平な比較において SOTA 結果を達成することが証明されています。

図1: エンドツーエンドの視覚言語事前トレーニングネットワークSOHO

図 1 に示すように、SOHO は 3 つの部分で構成されています。1) 畳み込みネットワークに基づくビジュアル エンコーダー (オンラインで更新可能)、2) ビジュアル ディクショナリに基づくビジュアル エンベディング レイヤー、3) 複数のレイヤーのトランスフォーマーで構成される VL フュージョン ネットワークです。 3 つの部分にはそれぞれ「独自の役割」があります。畳み込みネットワークは、画像をベクトルのセットとして表現し、ビジュアル ディクショナリを使用して画像内の類似した特徴ベクトルを表現する役割を担います。最後に、Transformer ネットワークを使用して、辞書埋め込みに基づくビジュアル特徴とテキスト特徴を融合します。

視覚エンコーダーについては、研究者らは入力画像をエンコードするための基本ネットワーク構造としてResNet-101を使用しました。ターゲット検出モデルに基づく画像エンコーダーと比較して、この方法の利点は操作を簡素化できることです。画像内の類似した特徴を統一された特徴表現で表し、MVM (マスク視覚モデリング) のカテゴリ ラベルを提供するために、研究者は視覚辞書を使用しました。ネットワーク学習プロセス中に、モメンタム更新を使用して辞書全体を学習します。変換ベースの特徴融合ネットワークは、BERT と同じネットワーク構造を使用します。

ネットワーク全体を最適化するために、研究者は 3 つの事前トレーニング タスク、MVM、MLM (マスク言語モデリング)、ITM (画像テキスト マッチング) を使用してモデルをトレーニングし、取得したパラメーターを 4 つの関連する VL ダウンストリーム タスクに適用しました。その結果、すべて良好な結果が得られました (表 1 ~ 4 を参照)。

表1: MSCOCOデータセットにおけるテキスト検索(TR)と画像検索(IR)におけるSOHOと他の手法のパフォーマンス比較

表2: VQA 2.0データセットにおけるSOHOのVQAパフォーマンス

表3: NLVR2データセットにおけるSOHOの視覚的推論パフォーマンス

表4: SNLI-VEデータセットにおけるSOHOの視覚的含意のパフォーマンス

最後に、視覚辞書内のいくつかの ID に対応する画像コンテンツを視覚化することにより (図 2 を参照)、研究者は、強力な教師付き視覚カテゴリ注釈がなくても、SOHO は同様の意味を持つ視覚コンテンツを同じ辞書項目にクラスタリングできることを発見しました。オブジェクト検出に基づく視覚言語モデルと比較すると、SOHO では画像フレーム回帰の必要性がなくなり、推論時間も 10 倍高速化されるため、実際のアプリケーションでより実用的かつ便利になります。

図2: いくつかのIDに対応する画像コンテンツのビジュアル辞書視覚化

テクスチャトランスフォーマーモデルに基づく画像超解像技術

古代のフィルムカメラから今日のデジタル時代まで、人類は大量​​の画像情報を撮影して保存してきましたが、これらの画像には必然的にさまざまな程度の欠陥があります。画像をより鮮明かつ鮮明にすることは、コンピューター ビジョンの分野では常に重要なテーマとなっています。画像超解像の問題に対処するため、Microsoft Research Asia の研究者は、Transformer 構造を画像生成分野に革新的に応用し、テクスチャ Transformer モデルに基づく画像超解像法 TTSR を提案しました。

このモデルは、高解像度のテクスチャ情報を効果的に検索および転送し、参照画像情報を最大限に活用し、生成された超解像結果に高解像度のテクスチャを正確に転送することで、テクスチャのぼやけやテクスチャの歪みの問題を解決します。 この研究「画像超解像のためのテクスチャトランスフォーマーネットワークの学習」は、CVPR 2020 に掲載されました。

論文リンク: https://arxiv.org/pdf/2006.04139.pdf

GitHub アドレス: https://github.com/researchmm/TTSR

画像の詳細を盲目的に推測する従来の方法とは異なり、研究者らは超解像プロセス全体をガイドする高解像度の参照画像を導入しました。高解像度の参照画像を導入すると、画像の超解像の問題が、より困難なテクスチャの復元/生成から比較的単純なテクスチャの検索と移行へと変わり、指標と視覚効果の点で超解像の結果が大幅に改善されます。図 3 に示すように、TTSR モデルには、学習可能なテクスチャ抽出モジュール、関連性埋め込みモジュール、ハード アテンション モジュール、およびソフト アテンション モジュールが含まれています。

図3: テクスチャトランスフォーマーモデル

従来のTransformerは、スタッキングによってモデルの表現力を高めます。ただし、画像生成の問題では、単純なスタッキングでは良い結果が得られない可能性があります。モデルによる参照画像情報の抽出と利用をさらに改善するために、研究者らはクロスレベル特徴融合メカニズムを提案しました。これは、提案されたテクスチャ トランスフォーマーを 3 つの異なるレベル (x1、x2、x4) に適用し、アップサンプリングまたはストライド畳み込みによって異なるレベル間で特徴をクロス融合するものです。したがって、異なる粒度の参照画像情報がさまざまなレベルに浸透し、ネットワークの特徴表現能力が向上し、生成される画像の品質が向上します。

図4: 複数テクスチャトランスフォーマーのクロスレベルスタッキングモデル

研究者らは、表5に示すように、CUFED5、Sun80、Urban100、Manga109データセットでTTSR法の定量的比較を実施しました。図 5 は、異なるデータセットにおける TTSR と既存の方法の視覚的な比較結果を示しています。TTSR が他の方法の結果を大幅に上回っていることがわかります。

表5: 異なるデータセットにおけるTTSRと既存の手法の定量的比較結果

図5: 異なるデータセットにおけるTTSRと既存の手法の視覚的比較

[[400863]]

トランスフォーマー「国境を越えた」ビデオタスク

画像の空間情報と比較すると、ビデオは時間的な次元の情報も追加します。 Transformer は時空間次元で適切にモデル化できるため、画像と特徴間の長距離依存関係をより適切に学習でき、ビデオ関連のタスクの強化と改善に役立ちます。

ビデオインペインティング: Transformer を使った最初の試み

ビデオ修復は、ビデオ内の既知のコンテンツから欠落しているコンテンツを推測して埋めることを目的とした古典的なタスクです。古いビデオの修復や透かしの除去など、ビデオ編集に広く使用されています。ビデオ復元技術は大きな応用価値を持っていますが、複雑な変化を伴う複数のビデオ フレーム内で関連情報を見つけ、画像空間とタイミングにおいて調和がとれ一貫性のあるコンテンツを生成することは、依然として大きな課題に直面しています。

この問題を解決するために、Microsoft Research Asia の研究者は、Transformer 構造を活用して再設計し、Spatial-Temporal Transformer Network (STTN) を提案しました。 関連論文「ビデオ修復のための空間的・時間的結合変換の学習」がECCV 2020に掲載されました。

論文リンク: https://arxiv.org/abs/2007.10247

GitHub アドレス: https://github.com/researchmm/STTN

STTN モデルの入力は、欠落したコンテンツを含むビデオ フレームと各フレームのマスクであり、出力は対応する修復されたビデオ フレームです。図 6 に示すように、STTN モデルの入力は、コンテンツが欠落しているビデオ フレームと各フレームのマスクであり、出力は対応する修復されたビデオ フレームです。図6に示すように、STTNモデルはCNN-Transformerのハイブリッド構造を採用しています。このうち、フレームレベル エンコーダーとフレームレベル デコーダーは、CNN を使用して各ビデオ フレームをピクセルから特徴にエンコードし、特徴をビデオ フレームにデコードします。 Transformer はモデルのバックボーンとして機能します。入力ビデオ フレームの特徴をブロックに分割し、ブロックのシーケンスをモデル化します。次に、複数の時空間 Transformer レイヤーを通じて入力フレーム内の既知の情報をマイニングし、不足しているコンテンツを推測します。

図6: 時空間トランスフォーマーネットワーク(STTN)モデル構造図

時空間 Transformer レイヤーは、従来の Transformer レイヤーの強力なアテンション メカニズムを継承しており、欠落しているコンテンツに関連する情報に焦点を当て、多層スタッキングを通じて予測コンテンツを継続的に更新および最適化できます。 同時に、各ヘッドが固定のブロック サイズを使用する従来の Transformer レイヤーとは異なり、STTN は、可能な限り多くのコンテキスト情報を取得するために、異なるヘッドで異なるサイズのブロック カットを使用します。 したがって、欠損領域の特徴が十分に豊富でない場合は、大きなブロックに基づく注意メカニズムによって、より多くの既知の情報を効果的に活用できます。欠損領域の特徴が豊富な場合は、小さなブロックに基づく注意メカニズムによって、モデルがより微妙な変化に焦点を当てることができます。 図 7 に示すように、STTN の Transformer の最後のレイヤーの注意マップを視覚化すると、ターゲット フレームの犬の欠落領域を埋めるために、STTN が他のフレームの情報を「正確に追跡」して欠落領域を修復できることがわかります。

図 7: 注意マップの視覚化 (注意部分は黄色で強調表示されています)。動画内の犬は走っているため、フレームごとに形や位置が異なりますが、対象フレームの犬の欠けている部分を埋めるために、STTN は関連フレームで走っている犬を「正確に追跡」することができます。

この論文では、STTN モデルに加えて、実際のアプリケーションをシミュレートするために、動的と静的の 2 つの異なるビデオ マスクを使用することも提案しています。 動的マスクは、ビデオの各フレームのマスクが連続的に変化することを意味し、動くオブジェクトの削除をシミュレートするために使用されます。静的マスクはビデオとともに変化せず、透かしの削除をシミュレートするために使用されます。 この論文では、DAVIS および Youtube-VOS データセットの定性的および定量的分析を通じて、ビデオ復元タスクにおける STTN の優位性を検証しています。 ビデオ 1 に示すように、STTN は視覚的にさらにリアルな修復結果を生成できます。 同時に、STTN の強力な並列モデリング機能により、実行速度も向上します (24.10 fps VS. 3.84 fps)。

オブジェクト追跡の新しいパラダイム: 時空間トランスフォーマーに基づく

ビデオ オブジェクト追跡は、コンピューター ビジョンの分野における基本的かつ困難なタスクです。過去数年間、畳み込みニューラル ネットワークに基づくオブジェクト追跡は急速な発展を遂げてきました。しかし、畳み込みニューラル ネットワークは、画像と特徴間の長距離依存関係をモデル化するのに適していません。同時に、既存のターゲット トラッカーは空間情報のみを使用するか、時間と空間の関係を考慮していないため、複雑なシナリオではトラッカーのパフォーマンスが低下します。

上記の問題をどのように解決すればよいでしょうか? Microsoft Research Asia の研究者は、STARK と呼ばれる時空間 Transformer ベースのターゲット トラッカーの新しいパラダイムを提案しました。これは、ターゲット追跡をエンドツーエンドの境界ボックス予測問題としてモデル化し、従来のトラッカーで使用されていたハイパーパラメータに敏感な後処理を完全に排除します。この方法は、複数の短期および長期の追跡データセットで現在最高のパフォーマンスを達成しています。

関連論文「視覚追跡のための時空間変換器の学習」

リンク: https://arxiv.org/abs/2103.17154

GitHub アドレス: https://github.com/researchmm/stark

STARK には、空間のみのバージョンと空間と時間の 2 つのバージョンがあります。空間のみのバージョンでは空間情報のみが使用され、空間と時間の両方の情報が使用されます。

空間のみのバージョンのフレームワーク図を図 8 に示します。まず、最初のフレームのテンプレートと現在のフレームの検索領域がバックボーンネットワークに送信され、視覚的な特徴が抽出されます。次に、特徴マップが拡張され、空間次元に沿って接合されて、特徴シーケンスが得られます。その後、Transformer エンコーダーはシーケンス要素間のグローバル相関をモデル化し、学習したグローバル情報を使用して元の特徴を強化し、新しい特徴シーケンスがターゲットに対してより識別力を持つようにします。 DETR にヒントを得て、研究者たちはデコーダーとターゲット クエリを使用してエンコーダーの出力をデコードしました。ターゲット クエリは、上記のエンコーダーによって出力された特徴シーケンスと対話して、ターゲットに関連する重要な情報を学習します。最後に、エンコーダーによって出力された特徴シーケンスとデコーダーによって出力された新しいターゲット クエリ特徴が一緒にバウンディング ボックス予測モジュールに送信され、最終的なバウンディング ボックス座標が取得されます。

図8: 空間のみのバージョンフレームワーク

バウンディングボックス予測モジュールの構造を図9に示します。まず、エンコーダの出力シーケンスから検索領域に関連する特徴を抽出し、デコーダが出力した特徴シーケンスとターゲットクエリ特徴を使用してアテンションメカニズムを1回計算し、ターゲット領域の特徴を強化し、非ターゲット領域の特徴を弱めます。次に、注意機構によって強化された探索領域の特徴シーケンスの空間構造を復元し、単純な完全畳み込みネットワークを通じて、ターゲットの左上隅と右下隅にある一対のコーナーのヒートマップを予測します。最終的なコーナー座標は、コーナー座標の数学的期待値を計算することによって得られます。これまでの Siamese 法や DCF 法とは異なり、このフレームワークはターゲット追跡を直接境界ボックス予測問題としてモデル化します。この問題では、境界ボックスの座標をハイパーパラメータに敏感な後処理なしでフレームごとに直接予測できます。

図9: 境界ボックス予測モジュールの構造

時空間バージョンのフレームワーク図を図 10 に示します。ピンク色の領域は、タイミング情報を活用するために新しく追加された構造を示しています。新しいフレームワークでは、新しい入力として「動的テンプレート」が追加されます。動的テンプレートは、中間フレームの追跡結果に基づいて切り取られ、追跡の進行に応じて動的に更新され、フレームワーク全体に、以前は欠落していたタイミング情報が補完されます。最初のフレーム テンプレート、現在のフレーム検索領域、および動的テンプレートを Transformer エンコーダーの入力として同時に使用することで、エンコーダーはグローバルな観点から時空間情報を抽出し、堅牢な時空間結合表現を学習できます。研究者らは、動的テンプレートに加えて、動的テンプレートを更新するための多層パーセプトロンで実装された更新コントローラも導入しました。この更新コントローラは、バウンディングボックス予測ヘッドと並列に接続され、現在のフレームの信頼性の信頼スコアを予測します。

図10: 時空間バージョンフレームワーク図

STARK は、複数の短期および長期追跡データセットで最先端のパフォーマンスを実現し、30FPS から 40FPS の速度で実行できます。そのうち、LaSOT、GOT-10K、TrackingNetという3つの大規模ターゲット追跡データセットの結果を以下に示します。

図11: LaSOTデータセットの結果の比較

表6: GOT-10Kデータセットの結果の比較

表7: TrackingNetデータセットの結果の比較

上記の 4 つの研究では、Transformer 構造を画像コンテンツの強化とビデオ コンテンツの分析にうまく適用し、Transformer の利点と可能性を十分に実証しました。研究者たちはすでに、Transformer が画像分類、物体検出、セグメンテーションなどの基本的な視覚タスクだけでなく、3D ポイント クラウド分析や画像およびビデオ コンテンツ生成などの新しいトピックでも優れていることを確認しています。将来的には、視覚的なトランスフォーマー構造の設計と自動検索が非常に有望な研究テーマになるでしょう。 Transformer 構造は、コンピューター ビジョンの分野でその強力なモデルの可能性を今後も発揮し続けると信じています。

<<:  Transformer を画像セマンティックセグメンテーションに使用し、最先端の畳み込み手法を上回るパフォーマンスを実現

>>:  GPU ベースの AI を使用して、わずか 36 分で実際の宇宙をシミュレートする

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Redis に基づく分散ロックと Redlock アルゴリズム

[[403381]]この記事はWeChatの公開アカウント「UP Technology Contro...

FPSからRTSまで、ゲーム人工知能におけるディープラーニングアルゴリズムの概要記事

この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

国境を越えた大企業よ、安易に「自社開発チップ」を主張しないでほしい

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI の創造性を解き放つ: Replicate プラットフォーム上のトップ AI プロジェクト!

Replicate は、ユーザーがさまざまな人工知能タスクを達成できるようにすることを目的として、...

アリババAIはダブル11ショッピングフェスティバルの衣料品工場で運用され、欠陥認識の精度は人間を上回った。

AI がダブル 11 の生産と製造をスピードアップします。 10月29日、記者は、アリババのAIア...

AIは採用に何をもたらすのでしょうか?

人工知能は、次のような採用活動に大きく貢献しています。 [[433895]] 1. 候補者の自動ソー...

AI 主導のビジネス変革を通じてデジタル成熟を達成するにはどうすればよいでしょうか?

[[388979]]デジタル時代においては、情報の流れがあらゆるものの中心となります。すべてが感知...

工業情報化部:チップやオペレーティングシステムなどのトップレベルの基盤にブレークスルーがなければ、AI業界は空中楼閣になるだろう

12月17日、浙江省徳清国際会議センターで2019年中国スマート企業発展フォーラムが開催され、工業情...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

構造化データのためのテキスト生成技術の研究

1. テキスト生成入門まず、現段階で人気のテキスト生成について紹介します。 1.人工知能の発展段階人...

SIZEアルゴリズム: データストレージセキュリティの革命

スケンダーさん、あなたの発明の本質から始めましょう。 SIZEアルゴリズム開発とは何ですか?このアル...

「顔認識」に関する法的問題

[[403922]]漫画 孟賢東インターネットの急速な発展に伴い、顔認識技術は生活のあらゆる場所に応...

Siriは中国で禁止されるのでしょうか?国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...