CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、これらに限定されません。

  1. LLM 大規模言語モデルと組み合わせて視覚的なマルチモーダル大規模モデルになります。
  2. 画像生成(Stable Diffusion)と点群生成(Point-E)の条件モデルとして、画像から3D化を実現します。
  3. テキストから 3D への変換を実現するために NeRF の最適化方向をガイドするために使用されます。
  4. オープンカテゴリの認識と検出自体に使用されます。

しかし、CLIP は画像全体を入力として特徴抽出を行う必要があり、任意の指定領域に焦点を合わせることはできません。しかし、自然な 2D 画像には、さまざまなオブジェクト、パーツ、物が含まれていることがよくあります。ユーザーまたは検出モデルが焦点を合わせる領域を指定できれば、画像エンコード処理中に焦点を合わせるオブジェクトを決定できるため、CLIP モデルの制御性と領域検出機能が向上します。この目的のために、上海交通大学、復旦大学、香港中文大学、マカオ大学などの学者は、注意が必要な領域を決定するために、元の CLIP モデルの 3 つの RGB チャネルに基づいて追加の 4 番目のアルファ チャネルを導入した Alpha-CLIP モデルを提案しました。

写真

論文リンク: https://arxiv.org/abs/2312.03818 プロジェクトホームページ: https://aleafy.github.io/alpha-clip コードリンク: https://github.com/SunzeY/AlphaCLIP

Alpha-CLIP をトレーニングするために数千万の「RGBA 4 チャンネル画像テキスト ペア」を構築することにより、Alpha-CLIP は ImageNet 上の元のフル画像検出機能を維持するだけでなく、ユーザーが指定した任意の領域を強調表示することもできます。 Alpha-CLIP の応用シナリオを以下に紹介します。

図1 Alpha-CLIPの使用シナリオの概要

画像分類

図に示すように、ImagNet 画像の場合、研究者はアルファマップを通じて CLIP を制御して魚や漁師に焦点を合わせることができます。

写真


写真

研究者らは、ImageNet のゼロショット分類を評価基準として使用し、画像全体を識別する際に Alpha-CLIP が元の CLIP の分類精度を維持できることを検証しました。
さらに、注目したい領域の長方形のボックスやマスクを与えると、Alpha-CLIP は分類精度をさらに向上させることができます。

LLM大規模言語モデルとの組み合わせ

写真

主流のLLaVA-1.5のCLIPベースモデルをAlpha-CLIPに置き換えることで、ユーザーは注目が必要な領域をブラシでマークするだけで、指定された領域を操作できるようになります。

写真

定量的な実験では、研究者らは LLaVA を通じて MLLM の領域キャプション機能をテストしました。 RefCOCO と VG をそれぞれ微調整することで、SOTA 領域キャプション スコアを達成しました。

写真

安定拡散との組み合わせ

写真

Stable-Diffusionは現在主流の2D画像生成モデルです。そのImage Variationバージョンでは「画像から画像生成」を実現でき、画像エンコーダもCLIPモデルです。このモデルを Alpha-CLIP に置き換えることで、より複雑な画像内で指定されたオブジェクトを生成することが可能になります (背景をより適切に保持しながら)。
上の図に示すように、オリジナルの CLIP を使用すると、ライオンとトラの両方の特徴を持つ「ライガー」が生成されますが、Alpha-CLIP は 2 つのオブジェクトをうまく区別できるため、Stable Diffusion モデルがより具体的な画像を生成するように誘導します。

写真

Point-Eとの統合

写真

Point-E は、Open-AI のオープンソース ポイント クラウド拡散モデルであり、イメージ エンコーダーを元の CLIP から Alpha-CLIP に置き換えることで、イメージから 3D への変換とテキストから 3D への変換をサポートします。
ユーザーが任意の領域に集中できるようにサポートし、失われた「ハンドル」と「シールドのクロス」を復元します。

写真

注意マップの視覚化

この研究では、Alpha-CLIP の注意を視覚化して、Alpha-CLIP がユーザー定義のアルファマップにより注意を払うかどうかを調べます。ビジュアルエンコーダーの最後のTransformerブロックにある[CLS]トークンのアテンションマップを検査します。視覚化には、16 個のアテンション ヘッドを備えた ViT-L/14 モデルを採用しています。

写真

公平な比較のため、5 番目と 16 番目の注意ヘッドの注意マップが視覚化に使用されます。これらの 2 つの特徴マップが 16 個のヘッドの中で最も顕著であることがわかるためです。結果は下の図に示されています。この視覚化により、Alpha-CLIP が焦点を当てる領域にさらに注意を払っていること、さらに重要なことに、元の CLIP 機能の場所の 2D 位置情報を保持しながら損傷を与えることなく焦点を当てていることが確認できます。

結論は

この論文で紹介されている研究では、関心領域を指定するための追加のアルファ チャネルを導入する Alpha-CLIP モデルを提案しています。

Alpha-CLIP は、数百万の RGBA 領域とテキストのペアをトレーニングすることで、優れた領域注目機能を発揮するだけでなく、出力空間が元の CLIP モデルと一致することも保証します。この一貫性により、Alpha-CLIP は簡単に置き換えることができ、CLIP のさまざまな下流アプリケーションにシームレスに統合できます。研究者らは、Alpha-CLIP が特定の関心領域を提供された場合に、より強力なゼロショット認識機能を発揮することを実証し、多くの下流タスクにおけるその有用性を検証しました。 CLIP のアプリケーションはこの記事の範囲をはるかに超えています。研究者たちは、前景領域やマスクの取得が容易な、より多くのシナリオで Alpha-CLIP を適用できるようになることを期待しています。

Alpha-CLIP は、関心領域が必要なさまざまなシナリオで効果的なパフォーマンスを発揮しますが、現在の構造とトレーニング プロセスでは、複数のオブジェクトに焦点を当てたり、異なるオブジェクト間の関係をモデル化したりする機能が制限されます。さらに、現在のトレーニング方法では、アルファ チャネルの一般化が中間値を超えて制限されているため (0 と 1 の 2 つの値しか受け入れられない)、ユーザーは注意の大きさを指定できません。 Alpha-CLIP とオリジナルの CLIP の両方に存在するもう 1 つの制限は、純粋な Transformer 構造のエンコーダ解像度が低いことです。これにより、Alpha-CLIP は小さなオブジェクトを認識して注意を払うことができません。研究者らは、今後の研究でこれらの制限に対処し、CLIP の入力解像度を拡大することを計画しており、これらの将来の方向性が Alpha-CLIP の機能を強化し、さまざまな下流タスクでの有用性を拡大する手段になると考えています。

参照: https://arxiv.org/abs/2312.03818

<<: 

>>:  マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

ブログ    

推薦する

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...

...

GPT-5 は 50,000 個の H100 で停止しています。アルトマンは、NVIDIAに代わるAIチップ帝国を築くために、緊急に数十億ドルを調達している。

サム・アルトマンは半導体ファウンドリの世界的なネットワークを構築するために数十億ドルを調達しています...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

2020年以降に変化をもたらす8つのAIトレンド

人工知能(AI)は長い間、SF小説や映画にのみ登場するフィクションだと考えられてきました。今日、人工...

人工知能の知能を実現する方法

[[257748]]近年、ビジネスにおける人工知能 (AI) の重要性が急速に高まり、今では主要なテ...

ロボットはついにデータセンターで活躍の場を見つけるのでしょうか?

ロボットは長い間、人々の探究心を呼び起こしてきたが、同時に説明のつかない恐怖ももたらしてきた。しかし...

最後にもう一度、一貫性のあるハッシュについて長々と話します。

一貫性のあるハッシュについて見てきましたが、一貫性のないハッシュもあるはずです。私たちが普段話題にし...

グーグルの従業員は米国の人工知能プロジェクトへの参加に反対する公開書簡を発表した。「私たちは違う」

[[225697]]最近、テクノロジーの世界で、米国防総省をも巻き込み、大きな騒動を引き起こす出来...

無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

北京大学の王一州氏:信頼できるAI研究の名刺を磨くには、産業界、学界、研究機関の連携が必要

人工知能(AI)は1950年代に誕生し、3つの発展の波を経てきました。研究段階から大規模な産業化段階...

AI プロジェクトの 85% が失敗する理由は何ですか?

現在、人工知能(AI)は、人事、サプライチェーン、マルチレベルマーケティングなど、さまざまな分野で広...

...

MITチームがCOVID-19の早期警告に役立つ可能性のある咳分析AIを開発

無症状感染者の存在により、COVID-19の検出と制御は非常に困難になります。 しかし、MITの研究...