近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大きな進歩を遂げています。 DALL-E モデルの登場により、Imagen、Stable Diffusion、ControlNet などの Text-to-Image モデルが学術界でますます多く登場しています。しかし、テキストから画像への変換の分野は急速に発展しているにもかかわらず、既存のモデルでは、テキストを含む画像を安定して生成する上で依然としていくつかの課題に直面しています。 既存の sota テキスト画像モデルを試したところ、モデルによって生成されたテキスト部分は基本的に判読不能であり、文字化けしたコードに似ており、画像全体の美観に大きな影響を与えることがわかりました。 既存のSOTAテキストグラフモデルによって生成されたテキスト情報は読みにくい 調査の結果、学術界ではこの分野の研究がほとんど行われていないことが判明しました。実際、ポスター、本の表紙、道路標識など、テキストを含む画像は日常生活で非常に一般的です。 AI がそのような画像を効果的に生成できれば、デザイナーの作業を支援し、デザインのインスピレーションを刺激し、デザインの負担を軽減するのに役立ちます。さらに、ユーザーは、テキスト グラフ モデルの結果のテキスト部分のみを変更し、その他の非テキスト領域の結果を保持したい場合があります。 そのため、研究者たちは、ユーザーが提供するプロンプトから直接画像を生成し、ユーザーが提供した画像内のテキストを変更できる包括的なモデルを設計したいと考えています。この研究はNeurIPS 2023に採択されました。
TextDiffuserの3つの機能 この論文では、レイアウトを生成する第 1 段階と画像を生成する第 2 段階の 2 つの段階で構成される TextDiffuser モデルを提案します。 TextDiffuser フレームワーク図 モデルはテキスト プロンプトを受け入れ、プロンプト内のキーワードに基づいて各キーワードのレイアウト (つまり、座標ボックス) を決定します。研究者らは、Layout Transformer を使用して、キーワードの座標ボックスをエンコーダー/デコーダーの形式で自己回帰的に出力し、Python の PILLOW ライブラリを使用してテキストをレンダリングしました。このプロセスでは、Pillow の既成 API を使用して各文字の座標ボックスを取得することもできます。これは、文字レベルのボックス レベルのセグメンテーション マスクを取得することと同じです。この情報に基づいて、研究者たちは安定拡散を微調整しようとしました。 彼らは 2 つのケースを検討しました。そのうちの 1 つは、ユーザーが画像全体を直接生成したい場合です (Whole-Image Generation と呼ばれます)。もう 1 つのケースは、論文ではテキスト修復とも呼ばれる部分画像生成です。これは、ユーザーに画像が与えられ、画像内の特定のテキスト領域を変更する必要があることを意味します。 上記 2 つの目標を達成するために、研究者は入力機能を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。全体画像生成の場合、研究者はマスク領域を画像全体に設定します。逆に、部分画像生成の場合は、画像の一部のみがマスクされます。拡散モデルのトレーニング プロセスは LDM のものと似ています。関心のある方は、元の論文の方法セクションの説明を参照してください。 推論フェーズでは、TextDiffuser は非常に柔軟であり、次の 3 つの方法で使用できます。
構築されたMARIOデータ TextDiffuser をトレーニングするために、研究者らは、上の図に示すように、MARIO-LAION、MARIO-TMDB、MARIO-OpenLibrary の 3 つのサブセットを含む 1,000 万枚のテキスト画像を収集しました。 研究者は、データを選別する際にいくつかの側面を考慮しました。たとえば、画像がOCRで処理された後、テキスト量が[1,8]の画像のみが保持されました。 8 文字以上のテキストは除外しました。新聞や複雑な設計図など、これらのテキストには密度の高いテキストが多く含まれていることが多く、OCR の結果は一般的にあまり正確ではないためです。さらに、テキスト領域を 10% より大きく設定しました。このルールは、画像内のテキスト領域の割合が小さくなりすぎないようにするために設定されています。 MARIO-10M データセットでトレーニングした後、研究者は TextDiffuser と他の既存の方法との間で定量的および定性的な比較を実施しました。たとえば、下の図に示すように、全体画像生成タスクでは、この方法で生成された画像はテキストがより鮮明で読みやすくなり、テキスト領域が背景領域とより統合されます。 テキストレンダリングのパフォーマンスを既存の作業と比較する 研究者らは、表 1 に示すように定性的な実験も実施しました。評価指標には、FID、CLIPScore、OCR が含まれます。特に OCR 指標の場合、提案された方法は比較方法に比べて大幅に改善されています。 表1: 定性実験 部分画像生成タスクでは、研究者は特定の画像に文字を追加したり変更したりしてみました。実験結果から、TextDiffuser によって生成された結果は非常に自然であることが分かりました。 テキスト修復機能の視覚化 要約すると、本論文で提案された TextDiffuser モデルは、テキスト レンダリングの分野で大きな進歩を遂げ、読みやすいテキストを含む高品質の画像を生成できるようになりました。今後、研究者らは TextDiffuser の効果をさらに向上させていく予定です。 |
<<: 1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。
[[394881]]ソニーのAIチームによると、FlavorGraphは人工知能技術を使って2つの材...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[396063]]基本的な紹介1. バイナリ検索は、順序付けられたシリーズ(数字や文字など)の検...
[[270417]]ニール・ガーシェンフェルド(出典:MIT産業連携プログラム) 「世界中のすべて...
私たちの仕事では、「ディープラーニングの学習はどこから始めればよいですか?」という質問をよく受けます...
高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...
人工知能は今日最も注目されている流行語であり、その発展により企業や業界は情報に基づいた意思決定を行い...
出典: @CCTVニュース【最高裁:顔認証は、居住コミュニティの入退出の唯一の確認方法として強制して...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
CVPR 2020 に採択された論文「PULSE: 生成モデルの潜在空間探索による自己教師あり写真ア...
人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...
Googleは木曜日に創立15周年を迎えた。これを記念して、同社は同日、2010年以来最大の検索エン...