画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ! TextDiffuser アーキテクチャの 2 世代の詳細な分析

画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ! TextDiffuser アーキテクチャの 2 世代の詳細な分析

近年、テキスト生成画像、特に詳細レベルでリアルな効果を示す拡散ベースの画像生成モデルの分野で大きな進歩がありました。

しかし、テキストを画像に正確に統合する方法という課題が残っています。

私たちの生活の中には、広告ポスターから本の表紙、道路標識に至るまで、重要な情報を含む「文字を含む画像」が数多く存在します。 AI モデルがテキストを含む画像を効率的かつ正確に生成できれば、デザインや視覚芸術の発展が大きく促進されるでしょう。

たとえば、既存の高度なオープンソース モデルである Stable Diffusion とクローズド ソース モデルである MidJourney は、どちらもテキスト レンダリングにおいて大きな課題に直面しています。

安定拡散: クマが「Hello World」と書かれたボードを持っている

MidJourney: カラー写真、ダイナーの看板、見出し「Jack Rabbit Slim’s」、ビンテージ スタイル (Alan Truly による Leonardo AI の提案)

この課題を解決するために、Microsoft Research Asia の自然言語コンピューティング グループは、香港科技大学および中山大学と共同で、TextDiffuser および TextDiffuser-2 モデルを提案しました。

これら 2 つのモデルは、画像内のテキスト レンダリングの精度と明瞭性を向上させるだけでなく、柔軟性と実用性も向上させます。テキストから画像への生成、テキスト テンプレートに基づく画像の生成、画像内のテキスト補完など、テキスト レンダリングに関連するタスクを実行できます。

論文タイトル: TextDiffuser: テキストペインターとしての拡散モデル

プロジェクトのホームページ: https://jingyechen.github.io/textdiffuser/

コードリンク: https://github.com/microsoft/unilm/tree/master/textdiffuser

オンラインデモ: https://huggingface.co/spaces/JingyeChen22/TextDiffuser

上記の2つのプロンプトに対してTextDiffuserによって生成された結果

テキストディフューザー

このモデルは、2 段階のワークフローを通じてテキスト付きの画像を生成します。

最初の段階では、モデルはユーザープロンプトを通じてキーワードのテキストレイアウトを決定します。

レイアウトトランスフォーマー技術を使用して、各キーワードの座標ボックスを自己回帰的に生成します。これは、文字座標ボックスレベルのマスク(Box-Level Segmentation Mask)を取得することと同等であり、各文字を正確に制御できます。

第 2 段階では、Stable Diffusion アーキテクチャを改良し、文字の座標ボックス情報を生成用に組み合わせることで、TextDiffuser が指定された場所に鮮明な文字を生成できるようにしました。

具体的には、入力特徴量を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。画像の一部または全体をマスクすることで、部分画像 (部分画像生成またはテキスト修復と呼ばれる) または全体画像 (全体画像生成と呼ばれる) を生成できます。

TextDiffuser フレームワーク図。レイアウト生成と画像生成の 2 つの段階が含まれます。

推論段階では、TextDiffuser は非常に柔軟性が高く、次の 3 つの方法で使用できます。

1. ユーザーの指示に従って画像を生成します。さらに、最初のステップであるレイアウト生成で生成されたレイアウトにユーザーが満足できない場合、座標やテキストの内容を変更できるため、モデルの制御性が向上します。

2. 2番目のステージから直接開始します。最終結果はテンプレート画像に従って生成され、テンプレート画像は印刷されたテキスト画像、手書きのテキスト画像、またはシーンのテキスト画像である可能性があります。著者らは、テンプレート画像からレイアウトを抽出するために文字セットセグメンテーションネットワークをトレーニングしました。

3. また、第 2 段階から、ユーザーは画像を提供し、変更する必要がある領域とテキスト コンテンツを指定します。この操作は、生成された結果にユーザーが満足するまで複数回実行できます。

TextDiffuser のトレーニングをサポートするために、研究チームは LAION-OCR、TMDB、OpenLibrary の 3 つのサブセットを含む 1,000 万点のテキスト画像を含む MARIO-10M データセットを構築しました。

著者らは、MARIO に基づいた MARIO-Eval テキスト レンダリング タスクの大規模ベンチマークも設計しました。著者らは実験を行い、その結果をDeepFloydなどの高度なモデルと比較した。

たとえば、下の図に示すように、全体画像生成タスクでは、TextDiffuser によって生成された画像の方がテキストが鮮明で読みやすく、テキスト領域が背景領域とより調和しています。

既存のテキストから画像への変換方法と比較して、TextDiffuser は正しいテキストを生成でき、テキストと背景がより統合されます。

定性実験の評価指標は、FID、CLIPScore、OCRです。特に OCR インジケーターの場合、TextDiffuser はコントラスト方式に比べて大幅に改善されています。

部分画像生成タスクでは、次の例は、特定の画像に文字を追加または変更する例です。TextDiffuser によって生成された結果は非常に自然です。

テキストディフューザー-2

TextDiffuser-2 は、視覚的なテキスト レンダリングにおける言語モデルの潜在能力をさらに引き出し、テキスト レンダリングの多様性と柔軟性を向上させます。

論文タイトル: TextDiffuser-2: テキストレンダリングのための言語モデルのパワーを解き放つ

プロジェクトのホームページ: https://jingyechen.github.io/textdiffuser2/

コードリンク: https://github.com/microsoft/unilm/tree/master/textdiffuser-2

オンラインデモ: https://huggingface.co/spaces/JingyeChen22/TextDiffuser-2

TextDiffuser-2 は、前身の TextDiffuser のコア機能を継承して最適化しており、主な革新点は言語モデルの適用にあります。既存の研究結果によると、大規模言語モデルは視覚レイアウトをある程度理解しており、レイアウト生成タスクを処理するのに十分であることが示されています。

この発見に基づいて、研究チームは画像記述-テキストレイアウトデータセットを使用してvicuna-1.5-7B言語モデルを微調整し、TextDiffuser-2がテキストレイアウト生成タスクをより効率的に処理し、調和のとれた美しいレイアウトを生成できるようにしました。

さらに、TextDiffuser-2 は、Stable Diffusion モデル内の既存の言語モデルを採用してレイアウト情報をエンコードし、座標トークンと文字トークンを導入することで、特定の場所に対応するテキスト コンテンツを描画する機能を向上させています。

具体的には、第 1 段階の目標は、事前トレーニング済みの大規模言語モデル M1 を微調整してデコーダーとして使用し、画像の説明と OCR (光学式文字認識) の結果のペアを使用してトレーニングできるようにすることです。入力は次の形式に従います: "[説明] ヒント: [ヒント] キーワード: [キーワード]"。

出力側では、各行が「テキスト行 x0、y0、x1、y1」という形式に従うことが期待されます。ここで、(x0、y0) と (x1、y1) は、それぞれ左上隅と右下隅の座標を表します。 OCR 結果で検出されたすべてのテキストをキーワードとして利用して入力を構築します。

この方法により、TextDiffuser-2 モデルは、ユーザーのニーズに応じて柔軟に画像レイアウトを生成できるだけでなく、会話によるインタラクションを通じてレイアウトをさらに改良および調整できるため、画像生成の柔軟性が高まり、パーソナライズされたオプションが提供されます。

第 2 段階では、追加のパラメータを必要としないシンプルな戦略が導入され、プロンプトとレイアウトを言語モデル M2 に組み合わせ、潜在拡散モデルでテキスト エンコーダーの役割を果たします。

個々の文字の位置を調整する文字レベルのセグメンテーション マスクとは異なり、行レベルの境界ボックスは生成プロセスの柔軟性を高め、スタイルの多様性を制限しません。これまでの研究では、きめ細かい単語分割によって拡散モデルのスペル能力を強化できることが示されています。

これにヒントを得て、著者らは混合粒度の単語分割法を設計しました。この方法は、モデルのスペル能力を向上させるだけでなく、シーケンスが長くなりすぎるのを防ぎます。具体的には、一方では、著者らはプロンプトを処理するための元の BPE セグメンテーション方法を維持しました。

一方、著者らは新しい文字トークンを導入し、各キーワードを文字レベルの表現に分解しました。たとえば、「WILD」という単語は、「[W]」、「[I]」、「[L]」、「[D]」というトークンに分解されます。さらに、著者らは場所をエンコードするための新しい座標トークンを導入しました。たとえば、トークン「[x5]」と「[y70]」は、それぞれx座標5とy座標70に対応します。

各キーワード情報は終了トークン「⟨eos⟩」で区切られ、最大長Lまでの残りのスペースはパディングトークン「⟨pad⟩」で埋められます。著者らは、L2 ノイズ除去損失を使用して、言語モデル M2 と U-Net を含む拡散モデル全体をトレーニングします。

著者らは、TextDiffuser-2 の有効性を検証するために広範な実験を実施しました。テキストから画像を生成するタスクでは、現在の最先端のモデルと比較して、TextDiffuser-2 は優れたパフォーマンスを示し、テキストを正確にレンダリングするだけでなく、レイアウトの自然さとリアリティも示しました。

TextDiffuser-2 は、手書きや芸術的なフォントなどの複雑で多様なテキスト スタイルの処理に優れており、詳細とスタイルの多様性における利点を示しています。

さらに、TextDiffuser-2は画像内のテキスト補完(テキストインペインティング)タスクでもその優位性を発揮し、テキストと背景のマッチングを維持しながら画像全体の質感と美観を向上させることができました。

定量的な実験では、TextDiffuser-2 はほとんどのメトリックで優れたパフォーマンスを達成しました。

研究チームはGPT-4Vを使用したユーザー評価も実施しました。評価結果によると、GPT-4V は優れた画像認識機能と単語認識機能を備えており、その要約理由も妥当であると思われます。 TextDiffuser-2 は、GPT-4V 評価において他の比較モデルよりも優れた結果を達成しました。

TextDiffuser と TextDiffuser-2 の導入と継続的な開発により、画像内のテキストを正確にレンダリングするタスクが大幅に進歩しました。

この技術の幅広い応用を促進するために、研究チームは TextDiffuser と TextDiffuser-2 のコード、データセット、デモを公開し、研究者やデザイナーがそれらを研究して応用し、デザインと視覚芸術の分野における革新と発展をさらに促進することを奨励しています。

<<:  モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

>>:  引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

ブログ    
ブログ    

推薦する

遺伝的アルゴリズムとPython実装におけるいくつかの異なる選択演算子

序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...

ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

触覚は人間が相互作用を調整する主な方法の 1 つです。触覚を通じて知覚される触覚は、人間が物体の大き...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの? NeRF は、今年コンピューター ビジョン分野で最も注目されている ...

NLP 70 年!スタンフォード大学のマニング教授が長文の記事を執筆:「基本モデルは10年でAGIになることができるか?」

過去 10 年間で、自然言語処理の分野は、単純なニューラル ネットワーク計算と大規模なトレーニング ...

...

IoT、ビッグデータ、AIの現状はどうなっているのでしょうか?

テクノロジーが今日の私たちの生活を根本的に変えてきたことは否定できません。私たちの先祖と比べると、今...

ダンスをしたり、音楽を作曲したり、演出したりできる AI を見たことがありますか?

最近、NVIDIA Blog は「ライト、カメラ、AI: Cambridge Consultants...

国際ビデオ品質評価アルゴリズムコンテスト:Volcano Engine が優勝

7月26日、マルチメディア分野の世界最高峰の学術会議であるICME 2021で開催された「圧縮UGC...

...

...

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って...

人工知能は鉄道の乗客の安全を守ることができるか?

高速鉄道網がますます充実するにつれ、列車は人々が長距離を移動する際に好まれる交通手段となってきました...

Facebook のインタラクティブ ニューラル ネットワーク可視化システム ActiVis がニューラル ネットワークの「ブラック ボックス」を公開

これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...

人工知能技術はスマートビルの未来をどのように変えるのでしょうか?

賢明なビル管理者は、AI がビルの自動化だけでなく、より適応性の高いものにするのにも役立つことを知っ...