少し前に、He Kaiming 氏らによる論文がコンピューター ビジョン界で注目を集めました。この論文は、シンプルなアイデア(マスクオートエンコーダ、MAE)だけで非常に理想的なパフォーマンスを実現し、Transformerを大規模なCVモデルに拡張する明るい展望を人々に示し、この分野の研究者に大きな励ましをもたらしました(「偉大な道はシンプル、何開明の新論文はヒット:マスクオートエンコーダがコンピュータービジョンを大規模モデルに導く」を参照)。 では、MAE は大規模視覚モデルの事前トレーニング方法の最高峰なのでしょうか?もちろんそうではない。バイトダンス、ジョンズ・ホプキンス大学、その他の機関が結成した共同チームなど、すでに大勢の挑戦者がやって来ている。 最近の論文では、彼らは視覚タスクのための大規模な事前トレーニング方法であるiBOTを提案しました。これは、オンライントークナイザーを使用して画像に対してBERT [1]スタイルの事前トレーニングを実行し、CVモデルが一般的かつ広範な特徴表現能力を獲得できるようにするものです。この方法は、12を超えるタスクとデータセットで新しいSOTA結果を達成し、いくつかの指標ではMAE [2]を上回りました。 論文リンク: https://arxiv.org/abs/2111.07832 方法の紹介NLP の大規模モデルトレーニングでは、MLM (マスク言語モデル) が非常に重要なトレーニング目標です。テキストの一部をマスクし、モデルを使用してこれらのマスクされた部分の意味情報を予測するという考え方です。このプロセスを通じて、モデルは一般化された機能を学習できます。 NLP の古典的な手法である BERT は、MLM 事前トレーニング パラダイムを採用しています。MLM でトレーニングされたモデルは、大規模なモデルやビッグ データに対して優れた一般化機能を備えていることが証明されており、NLP タスクの標準となっています。 この研究では、研究者らは主に、NLPで主流となっているマスクモデリングが大規模なVision Transformerの事前トレーニングに適用できるかどうかを調査しました。著者は肯定的な答えを出し、問題の鍵はビジュアルトークナイザーの設計にあると信じていました。オフラインの単語頻度分析を通じてコーパスを意味的に非常に意味のある単語にエンコードできる NLP のトークン化とは異なり、画像パッチは継続的に分散され、大量の冗長な基礎詳細情報が含まれています。著者らは、画像パッチから高レベルのセマンティクスを抽出できるトークナイザーが、モデルが冗長な詳細を学習するのを回避するのに役立つと考えています。著者らは、ビジュアルトークナイザーには、(a) 連続画像の内容を完全に表現する機能と、(b) NLP のトークナイザーのような高レベルのセマンティクスという 2 つの特性が必要であると考えています。 上記のすべての特性を備えたトークナイザーをどのように設計すればよいでしょうか?著者はまず、マスクされた画像シーケンスを Transformer に入力し、それを知識蒸留のプロセスとして予測するプロセスをモデル化します。 著者らは、オンライントークナイザーを使用して MIM プロセスを監視する、つまりトークナイザーとターゲット ネットワークを同期的に学習することで、セマンティクスをより確実にし、画像コンテンツを連続的な特徴分布に変換できることを発見しました。具体的には、トークナイザーとターゲット ネットワークはネットワーク構造を共有し、オンラインとは、トークナイザーのパラメーターがターゲット ネットワークの履歴パラメーターのスライド平均によって取得されることを意味します。この定式化は最近DINO [3]で自己蒸留として提案され、同じ画像の2つの異なるビューの[CLS]ラベルを最適化するために使用されました。 この損失関数に基づいて、著者は自己蒸留の考え方を使用して MIM を最適化します。ここで、オンライン トークナイザーのパラメーターは、ターゲット ネットワークの履歴パラメーターの平均です。このプロセスは次のように表現できます。 上記のトレーニング目標に基づいて、著者らは新しい自己教師型事前トレーニング フレームワーク iBOT を提案しました。 iBOT は上記の 2 つの損失関数を同時に最適化します。その中で、[CLS]ラベルの自己蒸留は、オンライントークナイザーが高意味的特徴を学習し、その意味をMIM最適化プロセスに転送することを保証します。一方、パッチラベルの自己蒸留は、オンライントークナイザーによって表されるパッチの連続分布をターゲットとして使用し、マスクされたパッチの復元を監視します。この方法では、モデルが高度な意味的特徴を学習することを確実にしながら、MIM を通じて画像の内部構造を明示的にモデル化します。一方、オンライン トークナイザーと MIM の目標は、追加のトークナイザー トレーニング ステージを必要とせずに、エンドツーエンドで一緒に学習できます。 事前トレーニングにはツイン ネットワーク構造が使用され、オンライン トークナイザーは教師ブランチの一部と見なすことができます。教師ブランチと生徒ブランチには、同じ構造を持つバックボーン ネットワークと投影ネットワークが含まれます。著者らは、Vision Transformer (ViT-S/16、ViT-B/16、ViT-L/16) や Swin Transformer (Swin-T/7、Swin-T/14) などのさまざまなトランスフォーマーをバックボーンとして使用して、iBOT アプローチを広範囲に検証しました。著者らは、[CLS] ラベルとパッチ ラベルを共有する投影ネットワークが、下流のタスクにおけるモデルの移行パフォーマンスを効果的に向上できることを発見しました。著者はランダム MIM トレーニング メカニズムも採用しました。各画像に対して、マスクしない確率が 0.5 あり、マスクする比率を区間 [0.1, 0.5] からランダムに選択する確率が 0.5 あります。実験により、ランダム MIM メカニズムは、マルチ作物データ拡張を使用する iBOT にとって重要であることが示されました。 実験結果iBOT 事前トレーニング方法の有効性を検証するために、著者らは多数の下流タスクでそれを検証し、付録ではさまざまなタスクハイパーパラメータが最終結果に与える影響をより詳細に示しました。 線形プローブとk-NN分類の結果から判断すると、iBOTはViT-B/16を使用して79.5%の線形分類精度を達成し、DINOの78.2%を上回りました。また、Swin-T/14を使用して79.3%の精度を達成し、EsViTの78.7%を上回りました。さらに、ViT-L/16とImageNet-22Kを事前トレーニングデータとして使用して81.6%の精度を達成し、これは現在ImageNet-1K線形分類ベンチマークで最高の結果です。 微調整の結果、ImageNet-1Kを事前学習データとして使用し、ViT-B/16を使用した場合、iBOTは83.8%の精度を達成でき、これはDINOとMAEの83.6%よりも高い。また、ImageNet-22Kを事前学習データとして使用し、ViT-L/16を使用した場合、iBOTは86.3%に達し、これはBEiTの86.0%よりも高い[4]。 半教師ありおよび教師なし分類結果に関しても、iBOT は MIM トレーニング目標のない DINO よりも大幅に優れています。半教師ありベンチマークでは、微調整データが少ないほど、iBOT の利点がより明らかになることが著者らによって発見されました。教師なしベースラインでは、iBOT は 43.4% の精度と 78.6% の NMI を達成します。 さらに、MIM は画像の内部構造を明示的にモデル化するため、著者らは iBOT が高密度の下流タスクでも非常に優れた転送結果をもたらすことを発見しました。その中で、iBOT は ViT-B/16 と Cascade Mask R-CNN を使用したオブジェクト検出で 51.2 APb を達成でき、ViT-B/16 と UperNet を使用したセマンティック セグメンテーションでは 50.0 mAP を達成でき、これは MAE が達成した 48.1 mAP よりも高い値です。 同時に、著者らは、MIM トレーニング目標によってもたらされる特性をさらに調査し、iBOT がグローバル画像タスクと高密度画像タスクで優れたパフォーマンスを発揮する理由を分析しました。著者は、ImageNet 検証セット内のすべての画像パッチの確率分布に基づいて、いくつかのカテゴリ センターによって表されるパターンを視覚化しました。筆者は、多数の視覚化結果の中で、iBOT がローカル セマンティクスの視覚化結果が非常に優れていることを発見しました。たとえば、以下の左から 1 番目と 2 番目の図に示されている車のライトと犬の耳は、異なるローカル カテゴリ セマンティクスの出現を示しており、左から 3 番目と 4 番目の図は、異なるローカル テクスチャ セマンティクスの出現を示しています。 多数の堅牢性分析と評価において、著者らは、MIM トレーニング目標がない場合でも iBOT が DINO よりも優れたパフォーマンスを発揮することを発見しました。これは、ローカル セマンティクスの出現により、モデルがオクルージョンやぼかしなどの一連の干渉を伴う画像認識タスクでより高い精度を達成できることを示しています。 方法の比較マスクされたオートエンコーディングのアイデアは、最近視覚分野で非常に人気が高まっています。最近のいくつかの研究と比較すると、BEiT は事前トレーニング済みの DALL-E エンコーダーをトークナイザーとして使用し、各パッチ ラベルのワンホット エンコーディングをターゲット モデルのラベルとして離散化します。 MPP[5]と最近人気のMAEはトークナイザーを恒等変換とみなすことができ、つまり分類ではなくピクセル空間で直接回帰を実行します。 iBOT は、上記方法のトークナイザーは低レベルの情報に過度に注意を払うという問題を抱えていると指摘しており、これは上記方法の線形分類のパフォーマンスがそれほど高くないという事実からもわかります。しかし、MAE は最近、画像内のマスクされた領域の割合が十分に大きい場合、ネットワークは類似のパッチからの情報を補間することができず、グローバル情報を学習せざるを得なくなると指摘しました。また、MAE は、線形分類は特徴表現能力を評価するための唯一のベンチマークではなく、下流の転移学習のパフォーマンスと十分に相関することはできないと指摘しました。 |
<<: Amap、ADAS警告ナビゲーション機能を発表:視覚AI技術を使用して車両と歩行者の衝突をインテリジェントに警告
>>: メタは触覚手袋を開発し、メタバースで猫を撫でたい人もいれば、大胆なアイデアを持つ人もいる
ドローンは無人航空機であり、センサー、インテリジェント制御、情報処理、電力システムなどの技術を統合し...
最近、第51回国際コンシューマー・エレクトロニクス・ショーが米国ラスベガスで開催され、世界中の人工知...
2018年6月27日、Xunzhong Holdingsの完全子会社であるYunxun Techno...
[[284375]] UnsplashのDhruv Deshmukhによる写真損失関数を使用して、...
[[286697]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
【51CTO北京ニュース】2017年6月6日、北京で第1回世界インテリジェンス大会の記者会見が開催...
[[255272]]ビッグデータダイジェスト制作編集者: ゴウ・シャオバイ、チャン・チウユエ、アイリ...
[[285099]]ご存知のとおり、ブロックチェーンの主要な技術コンポーネントは、主に P2P ネッ...
映画「トンネル戦争」修復前と修復後の比較。画像はインタビュー対象者より提供新華社北京1月1日(記者フ...
AirPods は脳の信号を監視できますか? !それともアルツハイマー病やパーキンソン病を予測できる...
日常生活における新しい技術の普及により、個人情報の漏洩に対する国民の懸念が生じている。顔認識アプリケ...
ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...
Google の復讐キラー Gemini が深夜に突然オンラインになりました! Googleは、1年...