CLIPのフォーカスエリアを自由に指定！上海交通大学、復旦大学などがAlpha-CLIPをリリース：フルイメージ＋ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアルベースモデルであり、その適用シナリオには以下が含まれますが、これらに限定されません。

LLM 大規模言語モデルと組み合わせて視覚的なマルチモーダル大規模モデルになります。
画像生成（Stable Diffusion）と点群生成（Point-E）の条件モデルとして、画像から3D化を実現します。
テキストから 3D への変換を実現するために NeRF の最適化方向をガイドするために使用されます。
オープンカテゴリの認識と検出自体に使用されます。

しかし、CLIP は画像全体を入力として特徴抽出を行う必要があり、任意の指定領域に焦点を合わせることはできません。しかし、自然な 2D 画像には、さまざまなオブジェクト、パーツ、物が含まれていることがよくあります。ユーザーまたは検出モデルが焦点を合わせる領域を指定できれば、画像エンコード処理中に焦点を合わせるオブジェクトを決定できるため、CLIP モデルの制御性と領域検出機能が向上します。この目的のために、上海交通大学、復旦大学、香港中文大学、マカオ大学などの学者は、注意が必要な領域を決定するために、元の CLIP モデルの 3 つの RGB チャネルに基づいて追加の 4 番目のアルファチャネルを導入した Alpha-CLIP モデルを提案しました。

写真

論文リンク: https://arxiv.org/abs/2312.03818 プロジェクトホームページ: https://aleafy.github.io/alpha-clip コードリンク: https://github.com/SunzeY/AlphaCLIP

Alpha-CLIP をトレーニングするために数千万の「RGBA 4 チャンネル画像テキストペア」を構築することにより、Alpha-CLIP は ImageNet 上の元のフル画像検出機能を維持するだけでなく、ユーザーが指定した任意の領域を強調表示することもできます。 Alpha-CLIP の応用シナリオを以下に紹介します。

図1 Alpha-CLIPの使用シナリオの概要

画像分類

図に示すように、ImagNet 画像の場合、研究者はアルファマップを通じて CLIP を制御して魚や漁師に焦点を合わせることができます。

写真

研究者らは、ImageNet のゼロショット分類を評価基準として使用し、画像全体を識別する際に Alpha-CLIP が元の CLIP の分類精度を維持できることを検証しました。
さらに、注目したい領域の長方形のボックスやマスクを与えると、Alpha-CLIP は分類精度をさらに向上させることができます。

LLM大規模言語モデルとの組み合わせ

写真

主流のLLaVA-1.5のCLIPベースモデルをAlpha-CLIPに置き換えることで、ユーザーは注目が必要な領域をブラシでマークするだけで、指定された領域を操作できるようになります。

写真

定量的な実験では、研究者らは LLaVA を通じて MLLM の領域キャプション機能をテストしました。 RefCOCO と VG をそれぞれ微調整することで、SOTA 領域キャプションスコアを達成しました。

写真

安定拡散との組み合わせ

写真

Stable-Diffusionは現在主流の2D画像生成モデルです。そのImage Variationバージョンでは「画像から画像生成」を実現でき、画像エンコーダもCLIPモデルです。このモデルを Alpha-CLIP に置き換えることで、より複雑な画像内で指定されたオブジェクトを生成することが可能になります (背景をより適切に保持しながら)。
上の図に示すように、オリジナルの CLIP を使用すると、ライオンとトラの両方の特徴を持つ「ライガー」が生成されますが、Alpha-CLIP は 2 つのオブジェクトをうまく区別できるため、Stable Diffusion モデルがより具体的な画像を生成するように誘導します。

写真

Point-Eとの統合

写真

Point-E は、Open-AI のオープンソースポイントクラウド拡散モデルであり、イメージエンコーダーを元の CLIP から Alpha-CLIP に置き換えることで、イメージから 3D への変換とテキストから 3D への変換をサポートします。
ユーザーが任意の領域に集中できるようにサポートし、失われた「ハンドル」と「シールドのクロス」を復元します。

写真

注意マップの視覚化

この研究では、Alpha-CLIP の注意を視覚化して、Alpha-CLIP がユーザー定義のアルファマップにより注意を払うかどうかを調べます。ビジュアルエンコーダーの最後のTransformerブロックにある[CLS]トークンのアテンションマップを検査します。視覚化には、16 個のアテンションヘッドを備えた ViT-L/14 モデルを採用しています。

写真

公平な比較のため、5 番目と 16 番目の注意ヘッドの注意マップが視覚化に使用されます。これらの 2 つの特徴マップが 16 個のヘッドの中で最も顕著であることがわかるためです。結果は下の図に示されています。この視覚化により、Alpha-CLIP が焦点を当てる領域にさらに注意を払っていること、さらに重要なことに、元の CLIP 機能の場所の 2D 位置情報を保持しながら損傷を与えることなく焦点を当てていることが確認できます。

結論は

この論文で紹介されている研究では、関心領域を指定するための追加のアルファチャネルを導入する Alpha-CLIP モデルを提案しています。

Alpha-CLIP は、数百万の RGBA 領域とテキストのペアをトレーニングすることで、優れた領域注目機能を発揮するだけでなく、出力空間が元の CLIP モデルと一致することも保証します。この一貫性により、Alpha-CLIP は簡単に置き換えることができ、CLIP のさまざまな下流アプリケーションにシームレスに統合できます。研究者らは、Alpha-CLIP が特定の関心領域を提供された場合に、より強力なゼロショット認識機能を発揮することを実証し、多くの下流タスクにおけるその有用性を検証しました。 CLIP のアプリケーションはこの記事の範囲をはるかに超えています。研究者たちは、前景領域やマスクの取得が容易な、より多くのシナリオで Alpha-CLIP を適用できるようになることを期待しています。

Alpha-CLIP は、関心領域が必要なさまざまなシナリオで効果的なパフォーマンスを発揮しますが、現在の構造とトレーニングプロセスでは、複数のオブジェクトに焦点を当てたり、異なるオブジェクト間の関係をモデル化したりする機能が制限されます。さらに、現在のトレーニング方法では、アルファチャネルの一般化が中間値を超えて制限されているため (0 と 1 の 2 つの値しか受け入れられない)、ユーザーは注意の大きさを指定できません。 Alpha-CLIP とオリジナルの CLIP の両方に存在するもう 1 つの制限は、純粋な Transformer 構造のエンコーダ解像度が低いことです。これにより、Alpha-CLIP は小さなオブジェクトを認識して注意を払うことができません。研究者らは、今後の研究でこれらの制限に対処し、CLIP の入力解像度を拡大することを計画しており、これらの将来の方向性が Alpha-CLIP の機能を強化し、さまざまな下流タスクでの有用性を拡大する手段になると考えています。

参照: https://arxiv.org/abs/2312.03818

<<:

>>: マイクロソフトの小型モデルが大型モデルに勝利：27億のパラメータ、携帯電話で実行可能