画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

近年、テキストから画像への変換の分野は、特に AIGC (人工知能生成コンテンツ) の時代において大きな進歩を遂げています。 DALL-E モデルの登場により、Imagen、Stable Diffusion、ControlNet などの Text-to-Image モデルが学術界でますます多く登場しています。しかし、テキストから画像への変換の分野は急速に発展しているにもかかわらず、既存のモデルでは、テキストを含む画像を安定して生成する上で依然としていくつかの課題に直面しています。

既存の sota テキスト画像モデルを試したところ、モデルによって生成されたテキスト部分は基本的に判読不能であり、文字化けしたコードに似ており、画像全体の美観に大きな影響を与えることがわかりました。

既存のSOTAテキストグラフモデルによって生成されたテキスト情報は読みにくい

調査の結果、学術界ではこの分野の研究がほとんど行われていないことが判明しました。実際、ポスター、本の表紙、道路標識など、テキストを含む画像は日常生活で非常に一般的です。 AI がそのような画像を効果的に生成できれば、デザイナーの作業を支援し、デザインのインスピレーションを刺激し、デザインの負担を軽減するのに役立ちます。さらに、ユーザーは、テキスト グラフ モデルの結果のテキスト部分のみを変更し、その他の非テキスト領域の結果を保持したい場合があります。

そのため、研究者たちは、ユーザーが提供するプロンプトから直接画像を生成し、ユーザーが提供した画像内のテキストを変更できる包括的なモデルを設計したいと考えています。この研究はNeurIPS 2023に採択されました。

  • 論文アドレス: https://arxiv.org/abs/2305.10855
  • プロジェクトアドレス: https://jingyechen.github.io/textdiffuser/
  • コードアドレス: https://github.com/microsoft/unilm/tree/master/textdiffuser
  • デモアドレス: https://huggingface.co/spaces/microsoft/TextDiffuser

TextDiffuserの3つの機能

この論文では、レイアウトを生成する第 1 段階と画像を生成する第 2 段階の 2 つの段階で構成される TextDiffuser モデルを提案します。

TextDiffuser フレームワーク図

モデルはテキスト プロンプトを受け入れ、プロンプト内のキーワードに基づいて各キーワードのレイアウト (つまり、座標ボックス) を決定します。研究者らは、Layout Transformer を使用して、キーワードの座標ボックスをエンコーダー/デコーダーの形式で自己回帰的に出力し、Python の PILLOW ライブラリを使用してテキストをレンダリングしました。このプロセスでは、Pillow の既成 API を使用して各文字の座標ボックスを取得することもできます。これは、文字レベルのボックス レベルのセグメンテーション マスクを取得することと同じです。この情報に基づいて、研究者たちは安定拡散を微調整しようとしました。

彼らは 2 つのケースを検討しました。そのうちの 1 つは、ユーザーが画像全体を直接生成したい場合です (Whole-Image Generation と呼ばれます)。もう 1 つのケースは、論文ではテキスト修復とも呼ばれる部分画像生成です。これは、ユーザーに画像が与えられ、画像内の特定のテキスト領域を変更する必要があることを意味します。

上記 2 つの目標を達成するために、研究者は入力機能を再設計し、次元を元の 4 次元から 17 次元に変更しました。 4 次元のノイズ画像特徴、8 次元の文字情報、1 次元の画像マスク、および 4 次元のマスクされていない画像特徴が含まれています。全体画像生成の場合、研究者はマスク領域を画像全体に設定します。逆に、部分画像生成の場合は、画像の一部のみがマスクされます。拡散モデルのトレーニング プロセスは LDM のものと似ています。関心のある方は、元の論文の方法セクションの説明を参照してください。

推論フェーズでは、TextDiffuser は非常に柔軟であり、次の 3 つの方法で使用できます。

  • ユーザーの指示に従って画像を生成します。さらに、最初のステップであるレイアウト生成で生成されたレイアウトにユーザーが満足できない場合、座標やテキストの内容を変更できるため、モデルの制御性が向上します。
  • 2番目のステージから直接開始します。最終結果はテンプレート画像に従って生成され、テンプレート画像は印刷されたテキスト画像、手書きのテキスト画像、またはシーンのテキスト画像である可能性があります。研究者らは、テンプレート画像からレイアウトを抽出するために、文字セットセグメンテーションネットワークを特別にトレーニングしました。
  • また、第 2 段階から、ユーザーは画像を提供し、変更する必要がある領域とテキスト コンテンツを指定します。さらに、この操作は、生成された結果にユーザーが満足するまで複数回実行できます。

構築されたMARIOデータ

TextDiffuser をトレーニングするために、研究者らは、上の図に示すように、MARIO-LAION、MARIO-TMDB、MARIO-OpenLibrary の 3 つのサブセットを含む 1,000 万枚のテキスト画像を収集しました。

研究者は、データを選別する際にいくつかの側面を考慮しました。たとえば、画像がOCRで処理された後、テキスト量が[1,8]の画像のみが保持されました。 8 文字以上のテキストは除外しました。新聞や複雑な設計図など、これらのテキストには密度の高いテキストが多く含まれていることが多く、OCR の結果は一般的にあまり正確ではないためです。さらに、テキスト領域を 10% より大きく設定しました。このルールは、画像内のテキスト領域の割合が小さくなりすぎないようにするために設定されています。

MARIO-10M データセットでトレーニングした後、研究者は TextDiffuser と他の既存の方法との間で定量的および定性的な比較を実施しました。たとえば、下の図に示すように、全体画像生成タスクでは、この方法で生成された画像はテキストがより鮮明で読みやすくなり、テキスト領域が背景領域とより統合されます。

テキストレンダリングのパフォーマンスを既存の作業と比較する

研究者らは、表 1 に示すように定性的な実験も実施しました。評価指標には、FID、CLIPScore、OCR が含まれます。特に OCR 指標の場合、提案された方法は比較方法に比べて大幅に改善されています。

表1: 定性実験

部分画像生成タスクでは、研究者は特定の画像に文字を追加したり変更したりしてみました。実験結果から、TextDiffuser によって生成された結果は非常に自然であることが分かりました。

テキスト修復機能の視覚化

要約すると、本論文で提案された TextDiffuser モデルは、テキスト レンダリングの分野で大きな進歩を遂げ、読みやすいテキストを含む高品質の画像を生成できるようになりました。今後、研究者らは TextDiffuser の効果をさらに向上させていく予定です。

<<:  1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

>>: 

ブログ    
ブログ    

推薦する

...

ChatGPTが見知らぬ人の自撮り写真を流出!モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

最近、ChatGPTの返信に見知らぬ男性の写真が現れるという事件が多くのネットユーザーに衝撃を与えま...

...

人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

人工知能 (AI) とそのサブセットである機械学習 (ML) は、今日最も急速に成長しているテクノロ...

日本俳優連合がAI法案を提案、「声の肖像権」創設求める

俳優や声優(声優)の保護に取り組む日本俳優協会は6月14日、「生成型人工知能技術の活用に関する提言」...

エンドツーエンドの自動運転に向けて、Horizo​​n Robotics が Sparse4D アルゴリズムを正式にオープンソース化

Horizo​​n Roboticsは1月22日、純粋な視覚ベースの自動運転アルゴリズムであるSpa...

...

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

[51CTO.com クイック翻訳] Facebook を利用する何十億もの人々にとって、私たちのサ...

ドーパミンが来る! Google が新しい強化学習フレームワーク Dopamine を発表

Google は、TensorFlow をベースとし、柔軟性、安定性、再現性、高速ベンチマークを提供...

2019 年に登場する 10 の機械学習アプリケーション

[[257674]]まだ始まったばかりの 2019 年には、どのような新しいアプリケーションが登場す...

モザイクがワンクリックでHDになる?魔法のAI「ロスレス拡大」ツール

写真を鮮明に見るにはどうすればいいですか?サムネイルを何度も拡大すると、モザイクしか見えなくなる場合...

...

機械はどのように学習するのでしょうか?人工知能の「双方向戦闘」を詳しく解説

金庸の武侠小説『射雁英雄伝』には、桃花島に閉じ込められた「悪童」周伯同が「左右の格闘術」を編み出した...

...

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

韓国でセンセーショナルな「常温超伝導」事件が最近終息したようだ。韓国超伝導低温学会の検証委員会は最近...