馬毅教授の新作：ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か？

トランスフォーマーベースのビジュアルベースモデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に優れたパフォーマンスを発揮し、DINO などのモデルは自己教師ありトレーニング後にセマンティックセグメンテーションプロパティを備えて登場しました。

しかし驚くべきことに、教師あり分類用にトレーニングされた視覚的な Transformer モデルには、同様の新たな機能は現れません。

最近、Ma Yi教授のチームは、Transformerアーキテクチャに基づくモデルにおけるセグメンテーション能力の出現が、単に複雑な自己教師あり学習メカニズムの結果なのか、それともモデルアーキテクチャの適切な設計を通じてより一般的な条件下で同じ出現が達成できるのかを調査しました。

コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

論文リンク: https://arxiv.org/abs/2308.16271

広範囲にわたる実験を通じて、データ分布の低次元構造を明示的にモデル化して追求する設計のホワイトボックス Transformer モデル CRATE を使用すると、最小限の教師ありトレーニングレシピで全体的および部分レベルのセグメンテーションプロパティがすでに出現することを実証しました。

階層的な細分化された分析により、出現する特性がホワイトボックスネットワークの設計された数学的機能性を強く裏付けることが示されました。私たちの研究結果は、高性能かつ数学的に完全に解釈可能なホワイトボックスベースモデルを設計するための道筋を示唆しています。

馬怡教授はまた、ディープラーニングの研究は経験的な設計から理論的な指導へと徐々に移行していくだろうと述べた。

ホワイトボックスCRATEの創発特性

DINOのセグメンテーション出現能力

インテリジェントシステムにおける表現学習は、世界の高次元のマルチモーダルセンサーデータ (画像、言語、音声) を、その本質的な低次元構造を維持しながら、よりコンパクトな形式に変換し、効率的な認識 (分類など)、グループ化 (セグメンテーションなど)、および追跡を可能にすることを目的としています。

ディープラーニングモデルのトレーニングでは通常、データ駆動型のアプローチが採用され、大規模なデータを入力して自己教師型の方法で学習します。

ビジュアルベースモデルの中でも、自己教師あり Transformer アーキテクチャを備えた DINO モデルは、驚くべき創発能力を発揮します。教師ありセグメンテーショントレーニングがなくても、ViT は明示的なセマンティックセグメンテーション情報を認識できます。

その後の研究では、このセグメンテーション情報を DINO モデルでどのように活用するかが研究され、セグメンテーションや検出などの下流タスクで最先端のパフォーマンスが達成されました。また、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景、背景、オブジェクトの境界の区別など、視覚入力の顕著な情報と強く相関していることを証明する研究もあり、これにより、画像セグメンテーションなどのタスクのパフォーマンスが向上します。

セグメンテーション特性を出現させるために、DINO はトレーニング中に自己教師あり学習、知識蒸留、重み平均化を巧みに組み合わせる必要があります。

DINO に導入された各コンポーネントがセグメンテーションマスクの出現に必須であるかどうかは不明です。DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクでトレーニングされた通常の教師あり ViT モデルではセグメンテーションの出現動作は観察されません。

CRATEの登場

DINO の成功を基に、研究者たちは、Transformer のような視覚モデルで新たな特性を獲得するために、複雑な自己教師あり学習パイプラインが必要かどうかを調べたいと考えました。

研究者たちは、Transformer モデルのセグメンテーション特性を促進するための有望なアプローチは、入力データの構造を考慮して Transformer モデルアーキテクチャを設計することであり、これは表現学習の古典的な方法と最新のデータ駆動型ディープラーニングフレームワークの組み合わせでもあると考えています。

現在主流のTransformerモデルと比較すると、この設計方法はホワイトボックスTransformerモデルとも呼ばれます。

研究者らは、馬毅教授のグループのこれまでの研究に基づいて、CRATEモデルのホワイトボックスアーキテクチャに関する広範な実験を実施し、CRATEのホワイトボックス設計が自己注意マップにおけるセグメンテーション特性の出現の原因であることを実証しました。

定性評価

研究者らは、[CLS]トークンベースのアテンショングラフ法を使用してモデルを説明および視覚化し、CRATE内のクエリキー値マトリックスがすべて同じであることを発見しました。

CRATE モデルの自己注意マップは、入力画像のセマンティクスに対応できることが分かります。モデルの内部ネットワークは、各画像に対して明確なセマンティックセグメンテーションを実行し、DINO モデルと同様の効果を実現します。

対照的に、教師あり分類タスクでトレーニングされた通常の ViT は、同様のセグメンテーション特性を示しません。

視覚画像から学習されたブロック単位の深層特徴に関する以前の研究に続いて、CRATE モデルと ViT モデルの深層トークン表現に対して主成分分析 (PCA) を実行します。

CRATE は、セグメンテーション監視トレーニングを行わなくても、画像内のオブジェクトの境界をキャプチャできることがわかります。

さらに、主成分はトークンやオブジェクトの類似部分の特徴の配置も示します。たとえば、赤チャネルは馬の脚に対応します。

教師あり ViT モデルの PCA 視覚化はまったく構造化されていません。

定量評価

研究者らは、既存のセグメンテーションおよびオブジェクト検出技術を使用して、CRATE から得られるセグメンテーション特性を評価しました。

自己注意マップから、CRATE が明確な境界を持つオブジェクトレベルのセマンティクスを明示的にキャプチャしていることがわかります。セグメンテーションの品質を定量的に測定するために、研究者は自己注意マップを使用してセグメンテーションマスクを生成し、実際のマスク間の標準 mIoU (平均交差和集合) と比較しました。

実験結果から、CRATE は視覚スコアと mIOU スコアの両方で ViT を大幅に上回っていることがわかります。これは、CRATE の内部表現がセグメンテーションマスク生成タスクに対してより効果的であることを示しています。

物体検出と細粒度セグメンテーション

CRATE によってキャプチャされた豊富な意味情報をさらに検証および評価するために、研究者は効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動注釈なしの自動評価モデルを取得しました。このモデルは、CRATE によって学習されたトークン表現に基づいて、画像からより細かいセグメンテーションを抽出できます。

COCO val2017 のセグメンテーション結果から、検出とセグメンテーションの両方の指標において、CRATE の内部表現が教師あり ViT よりも優れていることがわかります。教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーションマスクをまったく生成できないこともあります。

CRATEのセグメンテーション機能のホワイトボックス分析

CRATEにおける深さの役割

CRATE の各レイヤーは、スパースレート削減を最適化し、トークン配布をコンパクトで構造化された形式に変換するという同じ概念的な目的に従って設計されています。

CRATE におけるセマンティックセグメンテーション機能の出現が「表現 Z における類似したセマンティックカテゴリに属するトークンのクラスタリング」に似ていると仮定すると、深さが増すにつれて CRATE のセグメンテーションパフォーマンスが向上することが期待されます。

これをテストするために、研究者は MaskCut パイプラインを使用して、異なるレイヤーにわたる内部表現のセグメンテーションパフォーマンスを定量的に評価し、PCA 視覚化を適用して、セグメンテーションが深度とともにどのように現れるかを理解しました。

実験結果から、より深い層からの表現を使用するとセグメンテーションスコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。

対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、セグメンテーションスコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE のより深い層から抽出された表現が徐々に前景オブジェクトに焦点を当て、テクスチャレベルの詳細をキャプチャできることを示しています。

CRATEのアブレーション実験

CRATE の注意ブロック (MSSA) と MLP ブロック (ISTA) は、どちらも ViT の注意ブロックとは異なります。

各コンポーネントが CRATE の出現セグメンテーション特性に与える影響を理解するために、研究者は 3 つの CRATE バリアントを選択しました。CRATE、CRATE-MHSA、CRATE-MLP はそれぞれ ViT の注意ブロック (MHSA) と MLP ブロックを表します。

研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、粗いセグメンテーション評価とマスクセグメンテーション評価を適用して、さまざまなモデルのパフォーマンスを定量的に比較しました。

実験結果によると、CRATE はすべてのタスクで他のモデルアーキテクチャを大幅に上回っています。MHSA と MSSA のアーキテクチャの違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT (つまり、VOC Seg) の粗いセグメンテーションパフォーマンスが大幅に向上し、ホワイトボックス設計の有効性が証明されています。

注意ヘッドの意味特性の特定

[CLS] トークンと画像パッチトークン間の自己注意マップには、明確なセグメンテーションマスクが表示されます。直感的に、各注意ヘッドはデータのいくつかの特徴を捉えることができるはずです。

研究者らはまず CRATE モデルに画像を入力し、次に人間に意味があると思われる 4 つの注意ヘッドを検査して選択させ、その後、他の入力画像上のこれらの注意ヘッドの自己注意マップを視覚化しました。

各注意ヘッドがオブジェクトの異なる部分や異なるセマンティクスをキャプチャしていることがわかります。たとえば、最初の列に示されている注意ヘッドはさまざまな動物の脚をキャプチャでき、最後の列に示されている注意ヘッドは耳と頭をキャプチャします。

視覚入力を部分全体階層に解析するこの機能は、変形可能な部分モデルとカプセルネットワークの公開以来、認識アーキテクチャの目標であり、ホワイトボックス CRATE モデルにもこの機能があります。

<<: ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

>>: チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

ブログ

機械学習が通信業界にもたらすメリット

ブログ

馬毅教授の新作：ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か？

ホワイトボックスCRATEの創発特性

CRATEのセグメンテーション機能のホワイトボックス分析

AIと機械学習の統合アーキテクチャ：インテリジェントな意思決定を可能にする

マイクロソフトのAI画像ジェネレーターが自社の従業員から報告：有害な画像を生成する可能性がある

Docker ネットワーク管理: コンテナとホストの接続

機械学習が通信業界にもたらすメリット

推薦する

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

スマート端末AxPOS A8Sは単なるハードウェアのフラッシュではありません

BaiduのHou Zhenyu氏：ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

ChatGPT Enterprise Editionがリリースされ、OpenAIはこれをこれまでで最も強力なバージョンと呼んでいる

このAIは、監視対象を素早く検索するのに役立ちます：テキスト配置キーフレーム、24時間のビデオ録画10分処理

科学者たちは、人間のチームが海洋ゴミを見つけるのを助けるために人工知能を搭載したドローンを開発している

機械学習の問題に適した事前トレーニング済みモデルを選択する方法

Facebook のインタラクティブニューラルネットワーク可視化システム ActiVis がニューラルネットワークの「ブラックボックス」を公開

人工知能は医療と健康分野に破壊的な革命をもたらすだろう

人工知能が医療をどのように改善できるか

テンセント・ユートゥと厦門大学は、トレーニングを必要としないViT構造検索アルゴリズムを提案した。