ジェネレーティブ AI が画像検索をどのように再定義するか

ジェネレーティブ AI が画像検索をどのように再定義するか

翻訳者 |李睿

レビュー | Chonglou

生成AI は、ユニークなテキスト、サウンド、画像を作成できる機能により、ここ数か月で大きな関心を集めています。しかし、生成AI の力は新しいデータの作成に限定されません。

トランスフォーマーや拡散モデルなどの生成 AI の基礎となる技術は、情報の検索や発見など、他の多くのアプリケーションにも活用できます。特に、生成 AI は画像検索に革命をもたらし、これまでは不可能だった方法で視覚情報を探索できるようになる可能性があります。

生成 AI が画像検索エクスペリエンスをどのように再定義しているかについて、知っておくべきことを紹介します。

画像とテキストの埋め込み

従来の画像検索は、画像に付随するテキストの説明、タグ、その他のメタデータに依存しているため、ユーザーの検索オプションは画像に明示的に添付された情報に限定されます。画像をアップロードする人は、自分の画像が他の人に確実に見つかるように、入力する検索クエリの種類について慎重に考える必要があります。画像を検索する場合、情報を探しているユーザーは、画像をアップロードした人が画像にどのような説明を追加したかを想像する必要があります。

諺にもあるように、「一枚の写真は千の言葉に値する」。画像を説明する際に書ける内容には限界があります。もちろん、これは人々が画像をどのように見るかに応じてさまざまな方法で説明できます。人々は写真内のオブジェクトに基づいて検索することもあれば、スタイル、照明、場所などの特徴に基づいて画像を検索することもあります。残念ながら、画像にこのような豊富な情報が付随することはめったにありません。多くの画像が多くの人によってアップロードされていますが、添付情報がほとんどないかまったくないため、検索で見つけるのが困難です。

ここでAI画像検索が重要な役割を果たします。 AI画像検索にはさまざまなアプローチがあり、さまざまな企業が独自の技術を持っています。しかし、これらの企業に共通する技術がいくつかあります。

AI 画像検索、そして他の多くのディープラーニング システムの中心にあるのは、さまざまなデータ タイプを数値的に表現した埋め込みです。たとえば、解像度が 512×512 の画像には、約 260,000 個のピクセル (または機能) が含まれます。埋め込みモデルは、何百万もの画像でトレーニングすることで、視覚データの低次元表現を学習しようとします。画像の埋め込みには、画像の圧縮、新しい画像の生成、異なる画像の視覚的特性の比較など、多くの便利な用途があります。

同じメカニズムがテキストなどの他の形式にも適用されます。テキスト埋め込みモデルは、テキスト抜粋のコンテンツの低次元表現です。テキスト埋め込みには、大規模言語モデル (LLM) の類似性検索や検索強化など、多くの用途があります。

AI画像検索の仕組み

原理

ただし、画像とテキストの埋め込みを一緒にトレーニングすると、さらに興味深いことが起こります。 LAION のようなオープンソース データセットには、何百万もの画像とそれに対応するテキストの説明が含まれています。テキストと画像の埋め込みがこれらの画像/キャプションのペアで共同でトレーニングまたは微調整されると、視覚情報とテキスト情報の関連性が学習されます。これは、Contrastive Image Language Pre-training (CLIP) などのディープラーニング技術の背後にある考え方です。

コントラスト画像言語事前学習(CLIP)モデルは、テキストと画像の結合埋め込みを学習します。

現在では、テキストを視覚的な埋め込みに変換できるツールが存在します。このジョイント モデルにテキスト記述が提供されると、テキスト埋め込みとそれに対応する画像埋め込みが作成されます。その後、画像の埋め込みをデータベース内の画像と比較し、それに最も関連性の高い画像を取得できます。これが基本的に AI 画像検索の仕組みです。

このメカニズムの優れた点は、視覚的特徴のテキストによる説明がメタデータに登録されていない場合でも、ユーザーがその説明に基づいて画像を検索できることです。 「朝霧に包まれた緑豊かな森、背の高い松の木の間から差し込む明るい日差し、草の上に生えているキノコ」など、これまでは不可能だった豊富な検索用語を使用できます

上記の例では、AI 検索によって、このクエリに一致する視覚的特徴を持つ画像のセットが返されました。テキストの説明の多くにはクエリ キーワードが含まれていません。しかし、それらの埋め込みはクエリの埋め込みと似ています。 AI 画像検索がなければ、適切な画像を見つけるのはさらに困難になります。

発見から創造へ

時には、人々が探している画像が存在せず、AI を利用した検索でも見つけられないことがあります。この場合、生成 AI は 2 つの方法のいずれかでユーザーが望ましい結果を達成できるように支援できます。

最初のアプローチは、ユーザーのクエリに基づいて最初から新しいイメージを作成することです。この場合、テキストから画像への生成モデル ( Stable Diffusionや DALL-Eなど) は、ユーザーのクエリの埋め込みを作成し、それを使用して画像を作成します。生成モデルは、Contrastive Image Language Pre-training (CLIP) などの共同埋め込みモデルや、 Transformerや Diffusion モデルなどの他のアーキテクチャを活用して、埋め込まれた数値を魅力的な画像に変換します。

DALL-Eは、対照画像言語事前トレーニング(CLIP)と拡散法を使用してテキストから画像を生成します。

2 番目のアプローチは、既存の画像を取得し、生成モデルを使用して好みに合わせて編集することです。たとえば、松林に戻った写真では、草原のキノコが消えています。ユーザーは、適切と思われる画像の 1 つを開始点として使用し、生成モデルを使用してそれにキノコを追加できます。

生成 AI は、発見と創造性の境界を曖昧にするまったく新しいパラダイムを生み出します。ユーザーは単一のインターフェースから画像を検索したり、編集したり、まったく新しい画像を作成したりできます。

原題:生成 AI が画像検索をどのように再定義するか、著者: Ben Dickson


<<:  Google CEO ピチャイ: 新しい AI 製品のサブスクリプション モデルを検討中

>>: 

ブログ    

推薦する

アメリカの医師は新型コロナウイルスと戦うために人工知能をどのように活用しているのか

昨年、新型コロナウイルス感染症のパンデミックが始まったとき、クリーブランド・クリニックの医師で最高研...

AIとIoTを活用したスマートサプライチェーン

デジタル時代では、サプライチェーンのインテリジェンスのレベルが企業の生産効率とパーソナライズされたサ...

人工知能を活用した新しい小売無人店舗の発展展望は?

[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング...

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現...

AIスタートアップが成熟するための4つの段階と懸念事項

[[281520]] [51CTO.com クイック翻訳] 現時点では、「人工知能企業」が何であるか...

JD Digits の AI ロボットが物理産業に貢献し、業界賞を受賞

電気の「ジュージュー」という音が響くコンピューター室では、「スマートガーディアン」コンピューター室検...

知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワーク セキュリティは...

90年代以降の世代初登場!何凱明と孫建のチームが未来科学賞を受賞し、ResNetは18万回引用された。

先ほど、2023年未来科学賞の受賞者が発表されました!今年の「数学およびコンピューターサイエンス賞」...

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...

ディープラーニングの問題を無視してはいけない。ゲイリー・マーカスはそれに冷水を浴びせる義務がある

ニューヨーク大学の心理学教授であるゲイリー・マーカス氏は、かつてウーバーの人工知能研究所の所長を務め...

AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...

「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループ エンドツーエンド自動運転

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Nuscenes 最新 SOTA | DynamicBEV が PETRv2/BEVDepth を上回る!

1. 論文情報2. はじめにこの論文では、自動運転、ロボット工学、監視などのアプリケーションに不可...

Google GlassのDIY貧弱版、カスタムジェスチャーコントロール、Raspberry Piがまたもや新しい遊び方を開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...