画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ！ TextDiffuser アーキテクチャの 2 世代の詳細な分析

近年、テキスト生成画像、特に詳細レベルでリアルな効果を示す拡散ベースの画像生成モデルの分野で大きな進歩がありました。

しかし、テキストを画像に正確に統合する方法という課題が残っています。

私たちの生活の中には、広告ポスターから本の表紙、道路標識に至るまで、重要な情報を含む「文字を含む画像」が数多く存在します。 AI モデルがテキストを含む画像を効率的かつ正確に生成できれば、デザインや視覚芸術の発展が大きく促進されるでしょう。

たとえば、既存の高度なオープンソースモデルである Stable Diffusion とクローズドソースモデルである MidJourney は、どちらもテキストレンダリングにおいて大きな課題に直面しています。

安定拡散: クマが「Hello World」と書かれたボードを持っている

MidJourney: カラー写真、ダイナーの看板、見出し「Jack Rabbit Slim’s」、ビンテージスタイル (Alan Truly による Leonardo AI の提案)

この課題を解決するために、Microsoft Research Asia の自然言語コンピューティンググループは、香港科技大学および中山大学と共同で、TextDiffuser および TextDiffuser-2 モデルを提案しました。

これら 2 つのモデルは、画像内のテキストレンダリングの精度と明瞭性を向上させるだけでなく、柔軟性と実用性も向上させます。テキストから画像への生成、テキストテンプレートに基づく画像の生成、画像内のテキスト補完など、テキストレンダリングに関連するタスクを実行できます。

論文タイトル: TextDiffuser: テキストペインターとしての拡散モデル

プロジェクトのホームページ: https://jingyechen.github.io/textdiffuser/

コードリンク: https://github.com/microsoft/unilm/tree/master/textdiffuser

オンラインデモ: https://huggingface.co/spaces/JingyeChen22/TextDiffuser

上記の2つのプロンプトに対してTextDiffuserによって生成された結果

テキストディフューザー

このモデルは、2 段階のワークフローを通じてテキスト付きの画像を生成します。

最初の段階では、モデルはユーザープロンプトを通じてキーワードのテキストレイアウトを決定します。

レイアウトトランスフォーマー技術を使用して、各キーワードの座標ボックスを自己回帰的に生成します。これは、文字座標ボックスレベルのマスク（Box-Level Segmentation Mask）を取得することと同等であり、各文字を正確に制御できます。

第 2 段階では、Stable Diffusion アーキテクチャを改良し、文字の座標ボックス情報を生成用に組み合わせることで、TextDiffuser が指定された場所に鮮明な文字を生成できるようにしました。

具体的には、入力特徴量を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。画像の一部または全体をマスクすることで、部分画像 (部分画像生成またはテキスト修復と呼ばれる) または全体画像 (全体画像生成と呼ばれる) を生成できます。

TextDiffuser フレームワーク図。レイアウト生成と画像生成の 2 つの段階が含まれます。

推論段階では、TextDiffuser は非常に柔軟性が高く、次の 3 つの方法で使用できます。

1. ユーザーの指示に従って画像を生成します。さらに、最初のステップであるレイアウト生成で生成されたレイアウトにユーザーが満足できない場合、座標やテキストの内容を変更できるため、モデルの制御性が向上します。

2. 2番目のステージから直接開始します。最終結果はテンプレート画像に従って生成され、テンプレート画像は印刷されたテキスト画像、手書きのテキスト画像、またはシーンのテキスト画像である可能性があります。著者らは、テンプレート画像からレイアウトを抽出するために文字セットセグメンテーションネットワークをトレーニングしました。

3. また、第 2 段階から、ユーザーは画像を提供し、変更する必要がある領域とテキストコンテンツを指定します。この操作は、生成された結果にユーザーが満足するまで複数回実行できます。

TextDiffuser のトレーニングをサポートするために、研究チームは LAION-OCR、TMDB、OpenLibrary の 3 つのサブセットを含む 1,000 万点のテキスト画像を含む MARIO-10M データセットを構築しました。

著者らは、MARIO に基づいた MARIO-Eval テキストレンダリングタスクの大規模ベンチマークも設計しました。著者らは実験を行い、その結果をDeepFloydなどの高度なモデルと比較した。

たとえば、下の図に示すように、全体画像生成タスクでは、TextDiffuser によって生成された画像の方がテキストが鮮明で読みやすく、テキスト領域が背景領域とより調和しています。

既存のテキストから画像への変換方法と比較して、TextDiffuser は正しいテキストを生成でき、テキストと背景がより統合されます。

定性実験の評価指標は、FID、CLIPScore、OCRです。特に OCR インジケーターの場合、TextDiffuser はコントラスト方式に比べて大幅に改善されています。

部分画像生成タスクでは、次の例は、特定の画像に文字を追加または変更する例です。TextDiffuser によって生成された結果は非常に自然です。

テキストディフューザー-2

TextDiffuser-2 は、視覚的なテキストレンダリングにおける言語モデルの潜在能力をさらに引き出し、テキストレンダリングの多様性と柔軟性を向上させます。

論文タイトル: TextDiffuser-2: テキストレンダリングのための言語モデルのパワーを解き放つ

プロジェクトのホームページ: https://jingyechen.github.io/textdiffuser2/

コードリンク: https://github.com/microsoft/unilm/tree/master/textdiffuser-2

オンラインデモ: https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2

TextDiffuser-2 は、前身の TextDiffuser のコア機能を継承して最適化しており、主な革新点は言語モデルの適用にあります。既存の研究結果によると、大規模言語モデルは視覚レイアウトをある程度理解しており、レイアウト生成タスクを処理するのに十分であることが示されています。

この発見に基づいて、研究チームは画像記述-テキストレイアウトデータセットを使用してvicuna-1.5-7B言語モデルを微調整し、TextDiffuser-2がテキストレイアウト生成タスクをより効率的に処理し、調和のとれた美しいレイアウトを生成できるようにしました。

さらに、TextDiffuser-2 は、Stable Diffusion モデル内の既存の言語モデルを採用してレイアウト情報をエンコードし、座標トークンと文字トークンを導入することで、特定の場所に対応するテキストコンテンツを描画する機能を向上させています。

具体的には、第 1 段階の目標は、事前トレーニング済みの大規模言語モデル M1 を微調整してデコーダーとして使用し、画像の説明と OCR (光学式文字認識) の結果のペアを使用してトレーニングできるようにすることです。入力は次の形式に従います: "[説明] ヒント: [ヒント] キーワード: [キーワード]"。

出力側では、各行が「テキスト行 x0、y0、x1、y1」という形式に従うことが期待されます。ここで、(x0、y0) と (x1、y1) は、それぞれ左上隅と右下隅の座標を表します。 OCR 結果で検出されたすべてのテキストをキーワードとして利用して入力を構築します。

この方法により、TextDiffuser-2 モデルは、ユーザーのニーズに応じて柔軟に画像レイアウトを生成できるだけでなく、会話によるインタラクションを通じてレイアウトをさらに改良および調整できるため、画像生成の柔軟性が高まり、パーソナライズされたオプションが提供されます。

第 2 段階では、追加のパラメータを必要としないシンプルな戦略が導入され、プロンプトとレイアウトを言語モデル M2 に組み合わせ、潜在拡散モデルでテキストエンコーダーの役割を果たします。

個々の文字の位置を調整する文字レベルのセグメンテーションマスクとは異なり、行レベルの境界ボックスは生成プロセスの柔軟性を高め、スタイルの多様性を制限しません。これまでの研究では、きめ細かい単語分割によって拡散モデルのスペル能力を強化できることが示されています。

これにヒントを得て、著者らは混合粒度の単語分割法を設計しました。この方法は、モデルのスペル能力を向上させるだけでなく、シーケンスが長くなりすぎるのを防ぎます。具体的には、一方では、著者らはプロンプトを処理するための元の BPE セグメンテーション方法を維持しました。

一方、著者らは新しい文字トークンを導入し、各キーワードを文字レベルの表現に分解しました。たとえば、「WILD」という単語は、「[W]」、「[I]」、「[L]」、「[D]」というトークンに分解されます。さらに、著者らは場所をエンコードするための新しい座標トークンを導入しました。たとえば、トークン「[x5]」と「[y70]」は、それぞれx座標5とy座標70に対応します。

各キーワード情報は終了トークン「⟨eos⟩」で区切られ、最大長Lまでの残りのスペースはパディングトークン「⟨pad⟩」で埋められます。著者らは、L2 ノイズ除去損失を使用して、言語モデル M2 と U-Net を含む拡散モデル全体をトレーニングします。

著者らは、TextDiffuser-2 の有効性を検証するために広範な実験を実施しました。テキストから画像を生成するタスクでは、現在の最先端のモデルと比較して、TextDiffuser-2 は優れたパフォーマンスを示し、テキストを正確にレンダリングするだけでなく、レイアウトの自然さとリアリティも示しました。

TextDiffuser-2 は、手書きや芸術的なフォントなどの複雑で多様なテキストスタイルの処理に優れており、詳細とスタイルの多様性における利点を示しています。

さらに、TextDiffuser-2は画像内のテキスト補完（テキストインペインティング）タスクでもその優位性を発揮し、テキストと背景のマッチングを維持しながら画像全体の質感と美観を向上させることができました。

定量的な実験では、TextDiffuser-2 はほとんどのメトリックで優れたパフォーマンスを達成しました。

研究チームはGPT-4Vを使用したユーザー評価も実施しました。評価結果によると、GPT-4V は優れた画像認識機能と単語認識機能を備えており、その要約理由も妥当であると思われます。 TextDiffuser-2 は、GPT-4V 評価において他の比較モデルよりも優れた結果を達成しました。

TextDiffuser と TextDiffuser-2 の導入と継続的な開発により、画像内のテキストを正確にレンダリングするタスクが大幅に進歩しました。

この技術の幅広い応用を促進するために、研究チームは TextDiffuser と TextDiffuser-2 のコード、データセット、デモを公開し、研究者やデザイナーがそれらを研究して応用し、デザインと視覚芸術の分野における革新と発展をさらに促進することを奨励しています。

<<: モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

>>: 引退した中国人女性のAIによるイラストがWeiboで話題に！「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ！ TextDiffuser アーキテクチャの 2 世代の詳細な分析

テキストディフューザー

テキストディフューザー-2

人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

中国は人工知能チップの開発において「偏り」を持つことはできない

アリの採餌とインターネットアルゴリズム

このトレンドは止められない！すべてのデータサイエンティストが知っておくべき 5 つのグラフアルゴリズム

エア入力方式！浙江大学の最新研究：空中で指を動かすことでスマートウォッチにテキストを入力できる

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

VRとAI: 融合しようとしている2つの技術

ロボット開発者イノベーションデー | Horizon RDK と NodeHub の新製品

今後10年間で、人工知能とロボットは雇用に7つの影響を与える

その光景は衝撃的だ！「世界最強」のロボット9台が国連AIロボット会議のステージに登場

推薦する

金融を専攻する学生は人工知能をどのように学ぶべきでしょうか?

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

AIは胸部X線写真からCOVID-19を検出できる

中国は人工知能研究で米国を追い越している

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

「顔を見る」時代において、顔認識は「マーケティング」の共犯者にはなり得ない

ベンジオのチームはネイチャー誌に「科学のためのAIの4つの側面」という記事を発表し、国境を越えたAIの核心的な課題についても議論した。

英国メディア：シリコンバレーの一部の人々はAIに熱心すぎて「学習は無意味だ」と言っている

なぜ人工知能 + ヘルスケアは投資家に人気があるのでしょうか? 人工知能は医療問題を解決できるのでしょうか?

AI、IoT、クラウドコンピューティング、ブロックチェーンは従業員エクスペリエンスをどのように向上させることができるのでしょうか?

定量評価、アルゴリズム拡張：強化学習研究の10原則

人工知能の環境コストと可能性