CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、これらに限定されません。
しかし、CLIP は画像全体を入力として特徴抽出を行う必要があり、任意の指定領域に焦点を合わせることはできません。しかし、自然な 2D 画像には、さまざまなオブジェクト、パーツ、物が含まれていることがよくあります。ユーザーまたは検出モデルが焦点を合わせる領域を指定できれば、画像エンコード処理中に焦点を合わせるオブジェクトを決定できるため、CLIP モデルの制御性と領域検出機能が向上します。この目的のために、上海交通大学、復旦大学、香港中文大学、マカオ大学などの学者は、注意が必要な領域を決定するために、元の CLIP モデルの 3 つの RGB チャネルに基づいて追加の 4 番目のアルファ チャネルを導入した Alpha-CLIP モデルを提案しました。 写真 論文リンク: https://arxiv.org/abs/2312.03818 プロジェクトホームページ: https://aleafy.github.io/alpha-clip コードリンク: https://github.com/SunzeY/AlphaCLIP Alpha-CLIP をトレーニングするために数千万の「RGBA 4 チャンネル画像テキスト ペア」を構築することにより、Alpha-CLIP は ImageNet 上の元のフル画像検出機能を維持するだけでなく、ユーザーが指定した任意の領域を強調表示することもできます。 Alpha-CLIP の応用シナリオを以下に紹介します。 図1 Alpha-CLIPの使用シナリオの概要 画像分類図に示すように、ImagNet 画像の場合、研究者はアルファマップを通じて CLIP を制御して魚や漁師に焦点を合わせることができます。 写真 写真 研究者らは、ImageNet のゼロショット分類を評価基準として使用し、画像全体を識別する際に Alpha-CLIP が元の CLIP の分類精度を維持できることを検証しました。 LLM大規模言語モデルとの組み合わせ写真 主流のLLaVA-1.5のCLIPベースモデルをAlpha-CLIPに置き換えることで、ユーザーは注目が必要な領域をブラシでマークするだけで、指定された領域を操作できるようになります。 写真 定量的な実験では、研究者らは LLaVA を通じて MLLM の領域キャプション機能をテストしました。 RefCOCO と VG をそれぞれ微調整することで、SOTA 領域キャプション スコアを達成しました。 写真 安定拡散との組み合わせ写真 Stable-Diffusionは現在主流の2D画像生成モデルです。そのImage Variationバージョンでは「画像から画像生成」を実現でき、画像エンコーダもCLIPモデルです。このモデルを Alpha-CLIP に置き換えることで、より複雑な画像内で指定されたオブジェクトを生成することが可能になります (背景をより適切に保持しながら)。 写真 Point-Eとの統合写真 Point-E は、Open-AI のオープンソース ポイント クラウド拡散モデルであり、イメージ エンコーダーを元の CLIP から Alpha-CLIP に置き換えることで、イメージから 3D への変換とテキストから 3D への変換をサポートします。 写真 注意マップの視覚化この研究では、Alpha-CLIP の注意を視覚化して、Alpha-CLIP がユーザー定義のアルファマップにより注意を払うかどうかを調べます。ビジュアルエンコーダーの最後のTransformerブロックにある[CLS]トークンのアテンションマップを検査します。視覚化には、16 個のアテンション ヘッドを備えた ViT-L/14 モデルを採用しています。 写真 公平な比較のため、5 番目と 16 番目の注意ヘッドの注意マップが視覚化に使用されます。これらの 2 つの特徴マップが 16 個のヘッドの中で最も顕著であることがわかるためです。結果は下の図に示されています。この視覚化により、Alpha-CLIP が焦点を当てる領域にさらに注意を払っていること、さらに重要なことに、元の CLIP 機能の場所の 2D 位置情報を保持しながら損傷を与えることなく焦点を当てていることが確認できます。 結論はこの論文で紹介されている研究では、関心領域を指定するための追加のアルファ チャネルを導入する Alpha-CLIP モデルを提案しています。 Alpha-CLIP は、数百万の RGBA 領域とテキストのペアをトレーニングすることで、優れた領域注目機能を発揮するだけでなく、出力空間が元の CLIP モデルと一致することも保証します。この一貫性により、Alpha-CLIP は簡単に置き換えることができ、CLIP のさまざまな下流アプリケーションにシームレスに統合できます。研究者らは、Alpha-CLIP が特定の関心領域を提供された場合に、より強力なゼロショット認識機能を発揮することを実証し、多くの下流タスクにおけるその有用性を検証しました。 CLIP のアプリケーションはこの記事の範囲をはるかに超えています。研究者たちは、前景領域やマスクの取得が容易な、より多くのシナリオで Alpha-CLIP を適用できるようになることを期待しています。 Alpha-CLIP は、関心領域が必要なさまざまなシナリオで効果的なパフォーマンスを発揮しますが、現在の構造とトレーニング プロセスでは、複数のオブジェクトに焦点を当てたり、異なるオブジェクト間の関係をモデル化したりする機能が制限されます。さらに、現在のトレーニング方法では、アルファ チャネルの一般化が中間値を超えて制限されているため (0 と 1 の 2 つの値しか受け入れられない)、ユーザーは注意の大きさを指定できません。 Alpha-CLIP とオリジナルの CLIP の両方に存在するもう 1 つの制限は、純粋な Transformer 構造のエンコーダ解像度が低いことです。これにより、Alpha-CLIP は小さなオブジェクトを認識して注意を払うことができません。研究者らは、今後の研究でこれらの制限に対処し、CLIP の入力解像度を拡大することを計画しており、これらの将来の方向性が Alpha-CLIP の機能を強化し、さまざまな下流タスクでの有用性を拡大する手段になると考えています。 参照: https://arxiv.org/abs/2312.03818 |
>>: マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能
大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...
サム・アルトマンは半導体ファウンドリの世界的なネットワークを構築するために数十億ドルを調達しています...
導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...
人工知能(AI)は長い間、SF小説や映画にのみ登場するフィクションだと考えられてきました。今日、人工...
[[257748]]近年、ビジネスにおける人工知能 (AI) の重要性が急速に高まり、今では主要なテ...
ロボットは長い間、人々の探究心を呼び起こしてきたが、同時に説明のつかない恐怖ももたらしてきた。しかし...
一貫性のあるハッシュについて見てきましたが、一貫性のないハッシュもあるはずです。私たちが普段話題にし...
[[225697]]最近、テクノロジーの世界で、米国防総省をも巻き込み、大きな騒動を引き起こす出来...
無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...
[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...
人工知能(AI)は1950年代に誕生し、3つの発展の波を経てきました。研究段階から大規模な産業化段階...
現在、人工知能(AI)は、人事、サプライチェーン、マルチレベルマーケティングなど、さまざまな分野で広...
無症状感染者の存在により、COVID-19の検出と制御は非常に困難になります。 しかし、MITの研究...