北京大学とテンセントは、デザイナーと同じくらいクリエイティブなテキストロゴ生成モデルを提案した。

テキストロゴのデザインはデザイナーの創造性と経験に大きく依存しますが、その中でも各テキスト要素のレイアウトをどのように配置するかが中心的な問題となります。レイアウト設計では、フォントの形状、テキストのセマンティクス、テーマなど、多くの要素を考慮する必要があります。たとえば、異なる単語は通常、形が重なり合うことはできません。意味を強調する必要がある単語の場合、通常は大きなサイズが使用されます。面取りや回転などの幾何学的変換は、それぞれ力や喜びなどのテーマを反映できます。

業界の既存のソリューションのほとんどは、実装しやすい一連のルールを設計し、いくつかの事前設定されたテンプレートに従ってレイアウトを設計するものですが、生成される結果は単調なものが多く、創造性と美しさに欠けています。最近、北京大学コンピュータサイエンス研究所の王玄氏とテンセントは、この問題に対処するために、コンテンツ認識型のテキストロゴ画像生成モデルを提案しました。このモデルは、多数の既存のテキストロゴからレイアウト設計ルールを暗黙的に学習し、入力グリフに応じて新しいロゴを生成することができます。

この研究はCVPR2022に採択され、関連するデータセットとコードはオープンソース化されました。

論文: https://arxiv.org/abs/2204.02701
データセットとコード: https://github.com/yizhiwang96/TextLogoLayout

1. データセット

AI モデルのトレーニングには通常、大量のデータが必要ですが、業界にはこのタスク用のデータセットが存在しません。この問題を解決するために、本論文では TextLogo3K データセットを提案します。これは、Tencent Video プラットフォームを使用して、厳選された 3,470 個のテキストロゴ画像を収集して注釈を付けるものです。これらのロゴは、映画、テレビシリーズ、アニメーションのカバー画像から取得されます。このデータセットは、ピクセルレベルでグリフを正確に注釈付けし、グリフの境界ボックスと文字カテゴリにも注釈を付けます。

図1. TextLogo3Kのロゴ画像注釈

同時に、元のポスター画像における位置とセグメンテーション情報も提供されます。

図2. TextLogo3Kでのポスター画像のラベル付け

このデータセットは、学術研究目的でユーザーに無料で提供されます（商用利用は禁止されています）。このデータセットは、テキストロゴの生成に加えて、テキストの検出と認識、芸術的なフォント生成、テクスチャ特殊効果の移行、シーンテキストの編集などのタスクにも適用できます。

2. モデル設計

2.1 フローチャート

このモデルのフローチャートを以下に示します。

図3. 本論文のモデルのフローチャート

このモデルは、条件付き GAN に基づいてテキストロゴを生成します。革新的なデュアルディスクリミネーター構造 (シーケンスディスクリミネーターとイメージディスクリミネーター) を使用して、グリフの軌跡シーケンスとロゴ全体のイメージをそれぞれ識別します。同時に、微分可能な構成を利用して、位置座標からロゴイメージまでの微分可能なレンダリングプロセスを構築します。主なプロセスは次のとおりです。

まず、入力要素のバイモーダル特徴（グリフの視覚的特徴とテキストの意味的特徴）が利用され、条件付き特徴にエンコードされます。
座標ジェネレーターは、条件付き特徴とランダムノイズを入力として受け取り、各文字の位置座標、つまりグリフ境界ボックスの中心点座標、幅、高さを予測します。
各文字の位置座標は軌跡シーケンスを形成するため、条件に基づいてシーケンスの真偽を区別するためにシーケンス識別子が使用されます。このタスクの座標値は連続的であるため、シーケンス識別子が勾配を伝播できることが保証されることに注意してください。
ロゴ画像は、微分可能な連結を通じて各グリフを結合することによって得られます。
画像識別子は、ロゴ画像の詳細情報をさらに取得し、異なるグリフ間に大きな重複がないこと、およびグリフ間隔が適切であることを確認するために、シーケンス識別子の補足として導入されています。

ネットワークの全体的な最適化目的関数は次のとおりです。

ここで、はシーケンス識別子の損失、は画像識別子の損失、は明示的なグリフ重複損失です (詳細については論文を参照してください)。えは条件付きエンコーダを表し、G は座標ジェネレータを表し、はそれぞれコードテーブルシーケンスディスクリミネーターとイメージディスクリミネーターを表します。これらのうち、微分可能スプライシングとデュアルディスクリミネータの具体的な技術的詳細については、以降のセクションでさらに紹介します。

2.2 微分可能なステッチング予測された幾何学的パラメータを取得した後、各グリフイメージをこれらの幾何学的パラメータに従ってテキストロゴにさらにステッチする必要があります。さらに重要なのは、この連結プロセスは微分可能で、モデル全体をエンドツーエンドで最適化できる必要があることです。この目標を達成するために、本論文では、STN (空間変換ネットワーク) の変種に基づく微分可能なスプライシング手法を設計します。オリジナルの STN では、アフィン変換パラメータはニューラルネットワークを使用して直接予測されます。この論文の手法では、まずターゲットグリフの位置座標を予測し、次に元の座標からターゲット座標へのマッピング関係を確立し (下の図の左)、アフィン変換のパラメータを手動で解きます (下の図の右)。このようにして、ターゲットグリフの位置座標がキャンバスの範囲内にあることが保証され、STN の微分可能サンプリングアルゴリズムを利用できます。

図 4 アフィン変換パラメータを明示的に解決する一般に、テキストロゴ内の異なるグリフ間に重なりはありません (一部の意図的なデザインを除く)。そのため、各グリフ間のレイヤー関係を考慮する必要はありません。ロゴ画像は、各グリフ変換の画像を直接追加することで取得できます。上記の手順を組み合わせると、微分可能なスプライシングのプロセス全体が微分可能になります。

図5: 解決されたパラメータに基づいてロゴ画像を合成する

2.3 デュアルディスクリミネータ構造

文字の配置軌道は人々の読書習慣に適合し、さまざまなスタイルを表現する必要があります。しかし、これら 2 つの特性は、画像生成モデルで一般的に使用される畳み込みニューラルネットワーク (CNN) では簡単には捉えられません。この問題を解決するために、本論文では、シーケンス識別器と画像識別器を含むデュアル識別器モジュールを設計します。シーケンスディスクリミネータは、条件付き特徴を初期状態として使用し、幾何学的パラメータのシーケンスを入力として使用して、配置軌道の合理性を分析します。シーケンス識別子は、入力として幾何学的パラメータのみを受け取るため、細かい情報 (ストロークなど) をキャプチャすることはできません。したがって、このモデルでは、ロゴ画像（人工的に設計またはこのモデルによって生成されたもの）の合理性をさらに調査し、その信憑性を予測するための画像識別器を導入します。業界の一般的な慣行によれば、条件付き特徴は積み重ねられ、最初の畳み込み層の後に配置され、判別条件として使用されます。

3. 実験

3.1 レイアウト生成結果の表示

図 6 と 7 に示すように、このモデルは英語と中国語の両方のロゴを生成できます。

図6 英語データセットにおけるこのモデルの結果

図7 このモデルによる中国のデータセットの結果

「ours」の列はこのモデルによって生成された結果を示し、「GT」は設計者が設計した結果を示します。このモデルによって生成されるレイアウトは多様性に富んでいます。

例えば、（１）特定の字形に合わせてレイアウトを調整する。例えば、「B+探」では、「+」記号を「B」の右下隅と「探」の左下隅の間に巧みに配置する。

（２）「探偵鮑青田」や「春風十里は君ほど良くない」など、意味に基づいた改行。

3.2 他の方法との比較

この論文は、2D グラフレイアウト生成の研究である LayoutGAN (Li et al、ICLR 2018) と layoutNet (Zheng et al、TOG 2019) と比較しています。これら 2 つの方法は、空間レイアウトの順序情報と入力要素自体の意味情報を考慮していないため、このタスクを処理できません。図 8 に示すように、現在のモデルはより良い結果を生み出します。

図8 既存の方法との比較

3.3 レイアウトスタイル分析

主成分分析（PCA）法を用いて潜在空間ノイズzの可視化実験を行い、その結果を図9に示します。結果は、(1) 垂直レイアウト (B2、C2、H2、E3) は平面の左側に配置される傾向があること、(2) 水平レイアウト (A1-E1、H1、G2) は平面の中央と上部に配置される傾向があること、(3) 複数行レイアウト (A2、D2、E2、F2) は平面の右下側に配置される傾向があること、(4) 不規則なレイアウト (F1、G1) は平面の端に配置される傾向があることを示しています。潜在空間ノイズ z は、入力テキストの長さ変数に直交します。この視覚化方法は、デザイナーがレイアウトスタイルの潜在空間を探索し、好みのスタイルを選択できるように支援します。

図9 潜在空間ノイズzの可視化

3.4 主観的評価

この論文では、このモデルによって生成された結果に対するユーザーの主観的な評価を収集するためにユーザー調査を実施しました。ユーザーグループには、27 人のプロのデザイナーと 52 人のその他の専門家が含まれていました。

私たちは20組のテスト画像（モデル生成と手動設計）を使用し、ユーザーに（1）AIによって生成されたものを選択するよう求めました。以下の表の「精度」は、ユーザーがこのモデルの結果を選択する確率を示しており、低いほど優れています。（2）好みのものを選択します。以下の表の「選択率」は、ユーザーがこのモデルの結果を選択する確率を示しており、高いほど優れています。（3）AI生成の品質（1〜5）を評価します。以下の表の「生成品質」に反映されており、高いほど優れています。

結果から、このモデルは平均精度が約 50%、平均選択率が 40% と良好な結果を達成していることがわかります。また、デザイナーグループは AI の結果を識別する可能性が高く、品質要件もより厳しいことがわかりました。これは、この作業にさらなる改善の余地があることを示しています。

表1 主観的調査結果

3.5 ロゴ画像生成システム

本論文では、フォント生成モデルとテクスチャ転送モデルにヒントを得て、完全に自動化されたテキストロゴ画像生成システムも確立しています。システムはまず、ユーザーが入力したテキストとテーマに基づいて対応するフォントを生成し、次に合成されたグリフ画像とテキストを本論文で提案されたレイアウト生成ネットワークに送信してグリフ配置のレイアウトを取得し、最後にテクスチャ転送モデルを使用して変更されたロゴ画像を取得します。図 10 は、提案されたシステムの有効性を示すいくつかの合成例を示しています。

図10 ロゴ画像生成システム

IV. 結論

この論文では、テキストロゴ画像を合成するためのレイアウト生成モデルを提案します。このモデルは、文字の配置軌跡とレンダリングされたテキストロゴ画像の詳細情報を同時に評価するデュアルディスクリミネーターモジュールを革新的に提案します。

同時に、本論文では、微分可能なスプライシング方法を提案し、レイアウトパラメータからテキストロゴまでの微分可能なレンダリングプロセスを構築します。この論文では、大規模なデータセット TextLogo3K を構築し、多数の実験を実施してモデルの有効性を検証します。このデータは他のタスクにも適用できます。冒頭のロゴ画像の各ペアは、左側が AI によって生成され、右側が手動でデザインされたものです。正解できましたか?

<<: オフライン小売業で AI 自動チェックアウトサービスを構築するにはどうすればよいでしょうか?

>>: 兆パラメータ規模を突破し、究極の効率性と費用対効果を追求：中国チームが初の異種並列推奨システムトレーニングフレームワークをオープンソース化ペルシャ