トランスフォーマーベースのビジュアルベースモデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に優れたパフォーマンスを発揮し、DINO などのモデルは自己教師ありトレーニング後にセマンティックセグメンテーションプロパティを備えて登場しました。 しかし驚くべきことに、教師あり分類用にトレーニングされた視覚的な Transformer モデルには、同様の新たな機能は現れません。 最近、Ma Yi教授のチームは、Transformerアーキテクチャに基づくモデルにおけるセグメンテーション能力の出現が、単に複雑な自己教師あり学習メカニズムの結果なのか、それともモデルアーキテクチャの適切な設計を通じてより一般的な条件下で同じ出現が達成できるのかを調査しました。 コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE 論文リンク: https://arxiv.org/abs/2308.16271 広範囲にわたる実験を通じて、データ分布の低次元構造を明示的にモデル化して追求する設計のホワイトボックス Transformer モデル CRATE を使用すると、最小限の教師ありトレーニング レシピで全体的および部分レベルのセグメンテーション プロパティがすでに出現することを実証しました。 階層的な細分化された分析により、出現する特性がホワイトボックス ネットワークの設計された数学的機能性を強く裏付けることが示されました。私たちの研究結果は、高性能かつ数学的に完全に解釈可能なホワイトボックス ベース モデルを設計するための道筋を示唆しています。 馬怡教授はまた、ディープラーニングの研究は経験的な設計から理論的な指導へと徐々に移行していくだろうと述べた。 ホワイトボックスCRATEの創発特性DINOのセグメンテーション出現能力 インテリジェント システムにおける表現学習は、世界の高次元のマルチモーダル センサー データ (画像、言語、音声) を、その本質的な低次元構造を維持しながら、よりコンパクトな形式に変換し、効率的な認識 (分類など)、グループ化 (セグメンテーションなど)、および追跡を可能にすることを目的としています。 ディープラーニング モデルのトレーニングでは通常、データ駆動型のアプローチが採用され、大規模なデータを入力して自己教師型の方法で学習します。 ビジュアル ベース モデルの中でも、自己教師あり Transformer アーキテクチャを備えた DINO モデルは、驚くべき創発能力を発揮します。教師ありセグメンテーション トレーニングがなくても、ViT は明示的なセマンティック セグメンテーション情報を認識できます。 その後の研究では、このセグメンテーション情報を DINO モデルでどのように活用するかが研究され、セグメンテーションや検出などの下流タスクで最先端のパフォーマンスが達成されました。また、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景、背景、オブジェクトの境界の区別など、視覚入力の顕著な情報と強く相関していることを証明する研究もあり、これにより、画像セグメンテーションなどのタスクのパフォーマンスが向上します。 セグメンテーション特性を出現させるために、DINO はトレーニング中に自己教師あり学習、知識蒸留、重み平均化を巧みに組み合わせる必要があります。 DINO に導入された各コンポーネントがセグメンテーション マスクの出現に必須であるかどうかは不明です。DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクでトレーニングされた通常の教師あり ViT モデルではセグメンテーションの出現動作は観察されません。 CRATEの登場 DINO の成功を基に、研究者たちは、Transformer のような視覚モデルで新たな特性を獲得するために、複雑な自己教師あり学習パイプラインが必要かどうかを調べたいと考えました。 研究者たちは、Transformer モデルのセグメンテーション特性を促進するための有望なアプローチは、入力データの構造を考慮して Transformer モデル アーキテクチャを設計することであり、これは表現学習の古典的な方法と最新のデータ駆動型ディープラーニング フレームワークの組み合わせでもあると考えています。 現在主流のTransformerモデルと比較すると、この設計方法はホワイトボックスTransformerモデルとも呼ばれます。 研究者らは、馬毅教授のグループのこれまでの研究に基づいて、CRATEモデルのホワイトボックスアーキテクチャに関する広範な実験を実施し、CRATEのホワイトボックス設計が自己注意マップにおけるセグメンテーション特性の出現の原因であることを実証しました。 定性評価 研究者らは、[CLS]トークンベースのアテンショングラフ法を使用してモデルを説明および視覚化し、CRATE内のクエリキー値マトリックスがすべて同じであることを発見しました。 CRATE モデルの自己注意マップは、入力画像のセマンティクスに対応できることが分かります。モデルの内部ネットワークは、各画像に対して明確なセマンティックセグメンテーションを実行し、DINO モデルと同様の効果を実現します。 対照的に、教師あり分類タスクでトレーニングされた通常の ViT は、同様のセグメンテーション特性を示しません。 視覚画像から学習されたブロック単位の深層特徴に関する以前の研究に続いて、CRATE モデルと ViT モデルの深層トークン表現に対して主成分分析 (PCA) を実行します。 CRATE は、セグメンテーション監視トレーニングを行わなくても、画像内のオブジェクトの境界をキャプチャできることがわかります。 さらに、主成分はトークンやオブジェクトの類似部分の特徴の配置も示します。たとえば、赤チャネルは馬の脚に対応します。 教師あり ViT モデルの PCA 視覚化はまったく構造化されていません。 定量評価 研究者らは、既存のセグメンテーションおよびオブジェクト検出技術を使用して、CRATE から得られるセグメンテーション特性を評価しました。 自己注意マップから、CRATE が明確な境界を持つオブジェクト レベルのセマンティクスを明示的にキャプチャしていることがわかります。セグメンテーションの品質を定量的に測定するために、研究者は自己注意マップを使用してセグメンテーション マスクを生成し、実際のマスク間の標準 mIoU (平均交差和集合) と比較しました。 実験結果から、CRATE は視覚スコアと mIOU スコアの両方で ViT を大幅に上回っていることがわかります。これは、CRATE の内部表現がセグメンテーション マスク生成タスクに対してより効果的であることを示しています。 物体検出と細粒度セグメンテーション CRATE によってキャプチャされた豊富な意味情報をさらに検証および評価するために、研究者は効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動注釈なしの自動評価モデルを取得しました。このモデルは、CRATE によって学習されたトークン表現に基づいて、画像からより細かいセグメンテーションを抽出できます。 COCO val2017 のセグメンテーション結果から、検出とセグメンテーションの両方の指標において、CRATE の内部表現が教師あり ViT よりも優れていることがわかります。教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーション マスクをまったく生成できないこともあります。 CRATEのセグメンテーション機能のホワイトボックス分析CRATEにおける深さの役割 CRATE の各レイヤーは、スパース レート削減を最適化し、トークン配布をコンパクトで構造化された形式に変換するという同じ概念的な目的に従って設計されています。 CRATE におけるセマンティックセグメンテーション機能の出現が「表現 Z における類似したセマンティックカテゴリに属するトークンのクラスタリング」に似ていると仮定すると、深さが増すにつれて CRATE のセグメンテーションパフォーマンスが向上することが期待されます。 これをテストするために、研究者は MaskCut パイプラインを使用して、異なるレイヤーにわたる内部表現のセグメンテーション パフォーマンスを定量的に評価し、PCA 視覚化を適用して、セグメンテーションが深度とともにどのように現れるかを理解しました。 実験結果から、より深い層からの表現を使用するとセグメンテーション スコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。 対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、セグメンテーション スコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE のより深い層から抽出された表現が徐々に前景オブジェクトに焦点を当て、テクスチャ レベルの詳細をキャプチャできることを示しています。 CRATEのアブレーション実験 CRATE の注意ブロック (MSSA) と MLP ブロック (ISTA) は、どちらも ViT の注意ブロックとは異なります。 各コンポーネントが CRATE の出現セグメンテーション特性に与える影響を理解するために、研究者は 3 つの CRATE バリアントを選択しました。CRATE、CRATE-MHSA、CRATE-MLP はそれぞれ ViT の注意ブロック (MHSA) と MLP ブロックを表します。 研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、粗いセグメンテーション評価とマスクセグメンテーション評価を適用して、さまざまなモデルのパフォーマンスを定量的に比較しました。 実験結果によると、CRATE はすべてのタスクで他のモデル アーキテクチャを大幅に上回っています。MHSA と MSSA のアーキテクチャの違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT (つまり、VOC Seg) の粗いセグメンテーション パフォーマンスが大幅に向上し、ホワイト ボックス設計の有効性が証明されています。 注意ヘッドの意味特性の特定 [CLS] トークンと画像パッチ トークン間の自己注意マップには、明確なセグメンテーション マスクが表示されます。直感的に、各注意ヘッドはデータのいくつかの特徴を捉えることができるはずです。 研究者らはまず CRATE モデルに画像を入力し、次に人間に意味があると思われる 4 つの注意ヘッドを検査して選択させ、その後、他の入力画像上のこれらの注意ヘッドの自己注意マップを視覚化しました。 各注意ヘッドがオブジェクトの異なる部分や異なるセマンティクスをキャプチャしていることがわかります。たとえば、最初の列に示されている注意ヘッドはさまざまな動物の脚をキャプチャでき、最後の列に示されている注意ヘッドは耳と頭をキャプチャします。 視覚入力を部分全体階層に解析するこの機能は、変形可能な部分モデルとカプセル ネットワークの公開以来、認識アーキテクチャの目標であり、ホワイト ボックス CRATE モデルにもこの機能があります。 |
<<: ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法
>>: チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました
サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...
Li Mu らによるオープンソースの中国語書籍「Hands-On Deep Learning」に ...
12月29日、生成AIを使ってネットワークセキュリティを支援するという話題が最近かなり人気を集めて...
[[206874]]昨日、中国共産党第19回全国代表大会が開幕した。 AIの重要なポイントを強調して...
Baiduの無人運転アプリケーションを見ました。私は車の所有者が自動で駐車するのを助けるアウディの...
人工知能と機械学習は、意思決定を行うコンピューターが部署や課全体に取って代わる世界を思い起こさせます...
[[170615]]数年前、私が修士号を取得するために勉強していたとき、大学にアリコロニーアルゴリズ...
今、科学者たちは人間の意識について新たな理解を得ています!この研究では、ディープラーニングアルゴリズ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2023年は大きな言語モデルと着実な普及の年です。時系列の分野ではそれほど大きな成果は得られていませ...
ビッグデータダイジェスト制作出典: piprogramming編纂者:清寧人工知能は私たちの生活の一...
今日の世界では、人工知能 (AI) が驚異的なスピードで進歩しており、その進歩に遅れを取らないことが...
AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...
過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タ...