画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大きな進歩を遂げています。 DALL-E モデルの登場により、Imagen、Stable Diffusion、ControlNet などの Text-to-Image モデルが学術界でますます多く登場しています。しかし、テキストから画像への変換の分野は急速に発展しているにもかかわらず、既存のモデルでは、テキストを含む画像を安定して生成する上で依然としていくつかの課題に直面しています。

既存の sota テキスト画像モデルを試したところ、モデルによって生成されたテキスト部分は基本的に判読不能であり、文字化けしたコードに似ており、画像全体の美観に大きな影響を与えることがわかりました。

既存のSOTAテキストグラフモデルによって生成されたテキスト情報は読みにくい

調査の結果、学術界ではこの分野の研究がほとんど行われていないことが判明しました。実際、ポスター、本の表紙、道路標識など、テキストを含む画像は日常生活で非常に一般的です。 AI がそのような画像を効果的に生成できれば、デザイナーの作業を支援し、デザインのインスピレーションを刺激し、デザインの負担を軽減するのに役立ちます。さらに、ユーザーは、テキスト グラフ モデルの結果のテキスト部分のみを変更し、その他の非テキスト領域の結果を保持したい場合があります。

そのため、研究者たちは、ユーザーが提供するプロンプトから直接画像を生成し、ユーザーが提供した画像内のテキストを変更できる包括的なモデルを設計したいと考えています。この研究はNeurIPS 2023に採択されました。

  • 論文アドレス: https://arxiv.org/abs/2305.10855
  • プロジェクトアドレス: https://jingyechen.github.io/textdiffuser/
  • コードアドレス: https://github.com/microsoft/unilm/tree/master/textdiffuser
  • デモアドレス: https://huggingface.co/spaces/microsoft/TextDiffuser

TextDiffuserの3つの機能

この論文では、レイアウトを生成する第 1 段階と画像を生成する第 2 段階の 2 つの段階で構成される TextDiffuser モデルを提案します。

TextDiffuser フレームワーク図

モデルはテキスト プロンプトを受け入れ、プロンプト内のキーワードに基づいて各キーワードのレイアウト (つまり、座標ボックス) を決定します。研究者らは、Layout Transformer を使用して、キーワードの座標ボックスをエンコーダー/デコーダーの形式で自己回帰的に出力し、Python の PILLOW ライブラリを使用してテキストをレンダリングしました。このプロセスでは、Pillow の既成 API を使用して各文字の座標ボックスを取得することもできます。これは、文字レベルのボックス レベルのセグメンテーション マスクを取得することと同じです。この情報に基づいて、研究者たちは安定拡散を微調整しようとしました。

彼らは 2 つのケースを検討しました。そのうちの 1 つは、ユーザーが画像全体を直接生成したい場合です (Whole-Image Generation と呼ばれます)。もう 1 つのケースは、論文ではテキスト修復とも呼ばれる部分画像生成です。これは、ユーザーに画像が与えられ、画像内の特定のテキスト領域を変更する必要があることを意味します。

上記 2 つの目標を達成するために、研究者は入力機能を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。全体画像生成の場合、研究者はマスク領域を画像全体に設定します。逆に、部分画像生成の場合は、画像の一部のみがマスクされます。拡散モデルのトレーニング プロセスは LDM のものと似ています。関心のある方は、元の論文の方法セクションの説明を参照してください。

推論フェーズでは、TextDiffuser は非常に柔軟であり、次の 3 つの方法で使用できます。

  • ユーザーの指示に従って画像を生成します。さらに、最初のステップであるレイアウト生成で生成されたレイアウトにユーザーが満足できない場合、座標やテキストの内容を変更できるため、モデルの制御性が向上します。
  • 2番目のステージから直接開始します。最終結果はテンプレート画像に従って生成され、テンプレート画像は印刷されたテキスト画像、手書きのテキスト画像、またはシーンのテキスト画像である可能性があります。研究者らは、テンプレート画像からレイアウトを抽出するために、文字セットセグメンテーションネットワークを特別にトレーニングしました。
  • また、第 2 段階から、ユーザーは画像を提供し、変更する必要がある領域とテキスト コンテンツを指定します。さらに、この操作は、生成された結果にユーザーが満足するまで複数回実行できます。

構築されたMARIOデータ

TextDiffuser をトレーニングするために、研究者らは、上の図に示すように、MARIO-LAION、MARIO-TMDB、MARIO-OpenLibrary の 3 つのサブセットを含む 1,000 万枚のテキスト画像を収集しました。

研究者は、データを選別する際にいくつかの側面を考慮しました。たとえば、画像がOCRで処理された後、テキスト量が[1,8]の画像のみが保持されました。 8 文字以上のテキストは除外しました。新聞や複雑な設計図など、これらのテキストには密度の高いテキストが多く含まれていることが多く、OCR の結果は一般的にあまり正確ではないためです。さらに、テキスト領域を 10% より大きく設定しました。このルールは、画像内のテキスト領域の割合が小さくなりすぎないようにするために設定されています。

MARIO-10M データセットでトレーニングした後、研究者は TextDiffuser と他の既存の方法との間で定量的および定性的な比較を実施しました。たとえば、下の図に示すように、全体画像生成タスクでは、この方法で生成された画像はテキストがより鮮明で読みやすくなり、テキスト領域が背景領域とより統合されます。

テキストレンダリングのパフォーマンスを既存の作業と比較する

研究者らは、表 1 に示すように定性的な実験も実施しました。評価指標には、FID、CLIPScore、OCR が含まれます。特に OCR 指標の場合、提案された方法は比較方法に比べて大幅に改善されています。

表1: 定性実験

部分画像生成タスクでは、研究者は特定の画像に文字を追加したり変更したりしてみました。実験結果から、TextDiffuser によって生成された結果は非常に自然であることが分かりました。

テキスト修復機能の視覚化

要約すると、本論文で提案された TextDiffuser モデルは、テキスト レンダリングの分野で大きな進歩を遂げ、読みやすいテキストを含む高品質の画像を生成できるようになりました。今後、研究者らは TextDiffuser の効果をさらに向上させていく予定です。

<<:  1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

>>: 

ブログ    
ブログ    

推薦する

...

シェフとAIが協力してあなたの味覚を刺激します

[[394881]]ソニーのAIチームによると、FlavorGraphは人工知能技術を使って2つの材...

DeepMindの「フィッシングエンフォースメント」:AIに間違った発言をさせ、数万件の危険な発言を発見させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Java プログラミング スキル - データ構造とアルゴリズム「非再帰的バイナリ検索」

[[396063]]基本的な紹介1. バイナリ検索は、順序付けられたシリーズ(数字や文字など)の検...

ディープラーニングを実践するための7つのステップ

私たちの仕事では、「ディープラーニングの学習はどこから始めればよいですか?」という質問をよく受けます...

...

60歳以上のインターネット利用者は音声検索やAI学習ツールを活用し、急速に増加している

高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...

「手を自由にする」は夢ではありません! AI がソフトウェア テストの未来を形作る 5 つの方法...

人工知能は今日最も注目されている流行語であり、その発展により企業や業界は情報に基づいた意思決定を行い...

最高裁:コミュニティへの出入りの際の唯一の確認方法として顔認証を強制すべきではない

出典: @CCTVニュース【最高裁:顔認証は、居住コミュニティの入退出の唯一の確認方法として強制して...

...

PULSE: 暗黙の空間に基づく画像超解像アルゴリズム

CVPR 2020 に採択された論文「PULSE: 生成モデルの潜在空間探索による自己教師あり写真ア...

認知的ブレークスルー II: 人工知能の時代に私たちが経験している社会的、文化的変化

人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...

Google、3年ぶりの検索エンジンアルゴリズムの改良を発表

Googleは木曜日に創立15周年を迎えた。これを記念して、同社は同日、2010年以来最大の検索エン...