CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、これらに限定されません。
しかし、CLIP は画像全体を入力として特徴抽出を行う必要があり、任意の指定領域に焦点を合わせることはできません。しかし、自然な 2D 画像には、さまざまなオブジェクト、パーツ、物が含まれていることがよくあります。ユーザーまたは検出モデルが焦点を合わせる領域を指定できれば、画像エンコード処理中に焦点を合わせるオブジェクトを決定できるため、CLIP モデルの制御性と領域検出機能が向上します。この目的のために、上海交通大学、復旦大学、香港中文大学、マカオ大学などの学者は、注意が必要な領域を決定するために、元の CLIP モデルの 3 つの RGB チャネルに基づいて追加の 4 番目のアルファ チャネルを導入した Alpha-CLIP モデルを提案しました。 写真 論文リンク: https://arxiv.org/abs/2312.03818 プロジェクトホームページ: https://aleafy.github.io/alpha-clip コードリンク: https://github.com/SunzeY/AlphaCLIP Alpha-CLIP をトレーニングするために数千万の「RGBA 4 チャンネル画像テキスト ペア」を構築することにより、Alpha-CLIP は ImageNet 上の元のフル画像検出機能を維持するだけでなく、ユーザーが指定した任意の領域を強調表示することもできます。 Alpha-CLIP の応用シナリオを以下に紹介します。 図1 Alpha-CLIPの使用シナリオの概要 画像分類図に示すように、ImagNet 画像の場合、研究者はアルファマップを通じて CLIP を制御して魚や漁師に焦点を合わせることができます。 写真 写真 研究者らは、ImageNet のゼロショット分類を評価基準として使用し、画像全体を識別する際に Alpha-CLIP が元の CLIP の分類精度を維持できることを検証しました。 LLM大規模言語モデルとの組み合わせ写真 主流のLLaVA-1.5のCLIPベースモデルをAlpha-CLIPに置き換えることで、ユーザーは注目が必要な領域をブラシでマークするだけで、指定された領域を操作できるようになります。 写真 定量的な実験では、研究者らは LLaVA を通じて MLLM の領域キャプション機能をテストしました。 RefCOCO と VG をそれぞれ微調整することで、SOTA 領域キャプション スコアを達成しました。 写真 安定拡散との組み合わせ写真 Stable-Diffusionは現在主流の2D画像生成モデルです。そのImage Variationバージョンでは「画像から画像生成」を実現でき、画像エンコーダもCLIPモデルです。このモデルを Alpha-CLIP に置き換えることで、より複雑な画像内で指定されたオブジェクトを生成することが可能になります (背景をより適切に保持しながら)。 写真 Point-Eとの統合写真 Point-E は、Open-AI のオープンソース ポイント クラウド拡散モデルであり、イメージ エンコーダーを元の CLIP から Alpha-CLIP に置き換えることで、イメージから 3D への変換とテキストから 3D への変換をサポートします。 写真 注意マップの視覚化この研究では、Alpha-CLIP の注意を視覚化して、Alpha-CLIP がユーザー定義のアルファマップにより注意を払うかどうかを調べます。ビジュアルエンコーダーの最後のTransformerブロックにある[CLS]トークンのアテンションマップを検査します。視覚化には、16 個のアテンション ヘッドを備えた ViT-L/14 モデルを採用しています。 写真 公平な比較のため、5 番目と 16 番目の注意ヘッドの注意マップが視覚化に使用されます。これらの 2 つの特徴マップが 16 個のヘッドの中で最も顕著であることがわかるためです。結果は下の図に示されています。この視覚化により、Alpha-CLIP が焦点を当てる領域にさらに注意を払っていること、さらに重要なことに、元の CLIP 機能の場所の 2D 位置情報を保持しながら損傷を与えることなく焦点を当てていることが確認できます。 結論はこの論文で紹介されている研究では、関心領域を指定するための追加のアルファ チャネルを導入する Alpha-CLIP モデルを提案しています。 Alpha-CLIP は、数百万の RGBA 領域とテキストのペアをトレーニングすることで、優れた領域注目機能を発揮するだけでなく、出力空間が元の CLIP モデルと一致することも保証します。この一貫性により、Alpha-CLIP は簡単に置き換えることができ、CLIP のさまざまな下流アプリケーションにシームレスに統合できます。研究者らは、Alpha-CLIP が特定の関心領域を提供された場合に、より強力なゼロショット認識機能を発揮することを実証し、多くの下流タスクにおけるその有用性を検証しました。 CLIP のアプリケーションはこの記事の範囲をはるかに超えています。研究者たちは、前景領域やマスクの取得が容易な、より多くのシナリオで Alpha-CLIP を適用できるようになることを期待しています。 Alpha-CLIP は、関心領域が必要なさまざまなシナリオで効果的なパフォーマンスを発揮しますが、現在の構造とトレーニング プロセスでは、複数のオブジェクトに焦点を当てたり、異なるオブジェクト間の関係をモデル化したりする機能が制限されます。さらに、現在のトレーニング方法では、アルファ チャネルの一般化が中間値を超えて制限されているため (0 と 1 の 2 つの値しか受け入れられない)、ユーザーは注意の大きさを指定できません。 Alpha-CLIP とオリジナルの CLIP の両方に存在するもう 1 つの制限は、純粋な Transformer 構造のエンコーダ解像度が低いことです。これにより、Alpha-CLIP は小さなオブジェクトを認識して注意を払うことができません。研究者らは、今後の研究でこれらの制限に対処し、CLIP の入力解像度を拡大することを計画しており、これらの将来の方向性が Alpha-CLIP の機能を強化し、さまざまな下流タスクでの有用性を拡大する手段になると考えています。 参照: https://arxiv.org/abs/2312.03818 |
>>: マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能
米国現地時間の水曜日、人気の短編動画プラットフォーム「TikTok」(Douyinの海外版)のCEO...
2021年の初め、AIの軌道は混乱していました。業界のスター企業から悪いニュースが続々と届き、上場...
人工知能や自動化などの破壊的技術の急速な発展により、現代の企業は変化しています。これらのテクノロジー...
生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...
ビッグデータからChatGPTまで、人工知能を定義する10の重要な用語を紹介します。人工知能とは、機...
企業がより強力な管理を維持し、コストのかかる混乱を回避しようとする中、製造拠点の国内移転とサプライチ...
政策の推進と資本の注目により、人工知能産業は今後も急速な発展傾向を維持するでしょう。投資家は人工知能...
人工知能(AI)は、最初のコンピュータが発明されて以来、長い道のりを歩んできました。今日、人工知能は...
[[244104]] Scientific American誌によると、近い将来、人工知能(AI)が...
近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...
MITのコンピュータ科学および人工知能研究所(CSAIL)の研究者らは、歴史から長い間失われていた古...
自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、そ...
プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...
[51CTO.com クイック翻訳]今日、プロセス自動化にはさまざまな形があります。また、ツールの...