手書きを模倣するAIが独自のフォントを作成

手書き模倣AIの研究背景

諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、手書きは書き手の個人的な特徴をよりよく反映できます。多くの人が、ソーシャルソフトウェアで自分のスタイルをよりよく表現するために、独自の手書きフォントセットを所有することを想像したことがあると思います。

しかし、英語の文字と違って、中国語の文字数は非常に多く、専用のフォントセットを独自に作成するのは非常にコストがかかります。たとえば、最新の国家標準 GB18030-2022 中国語文字セットには、80,000 を超える中国語文字が含まれています。ある動画サイトのブロガーが13本のペンを使って18時間かけて7,000字以上の漢字を書き、書きすぎて手がかじかむほどだったと報じられた。

上記の疑問から、著者らは、専用フォントの作成にかかるコストの高さという問題を解決するために、自動テキスト生成モデルを設計できるかどうかを考えるようになりました。この問題を解決するために、研究者らは手書きを模倣できる AI を構想しました。ユーザーから少数の手書きサンプル (約 12 個) を受け取るだけで、手書きに含まれる書体 (文字のサイズ、傾き、アスペクト比、ストロークの長さと曲率など) を抽出し、そのスタイルを模倣してより多くのテキストを合成することで、ユーザー向けの完全な手書きフォントセットを効率的に合成できます。

さらに、応用価値とユーザーエクスペリエンスの観点から、論文の著者はモデルの入力モードと出力モードについて次の点を考慮しました。1. シーケンスモードのオンライン手書きには、イメージモードのオフライン手書きよりも豊富な情報（下の図に示すように、軌跡ポイントの詳細な位置と書き込み順序）が含まれていることを考慮すると、モデルの出力モードをオンライン手書きに設定すると、ロボットライティングや書道教育など、より幅広い応用の見通しが得られます。 2. 日常生活では、タブレットやスタイラスなどの収集デバイスを介してオンラインテキストを取得するよりも、携帯電話を使用して写真を撮り、オフラインテキストを取得する方が便利です。そのため、生成されたモデルの入力モードをオフラインテキストに設定すると、ユーザーにとってより便利に使用できるようになります。

要約すると、本論文の研究目標は、様式化されたオンライン手書き生成方法を提案することです。このモデルは、ユーザーが提供するオフラインテキストに含まれる書き方を模倣できるだけでなく、ユーザーのニーズに応じてオンラインでコンテンツ制御可能な手書きを生成することもできます。

論文アドレス: https://arxiv.org/abs/2303.14736
オープンソースコード: https://github.com/dailenson/SDT

主な課題

上記の目標を達成するために、研究者は次の 2 つの重要な問題を分析しました。1. ユーザーが提供できる文字サンプルは少数であるため、これらの少数の参照サンプルのみからユーザー独自の書き方を学習することは可能でしょうか?つまり、少数の参照サンプルに基づいてユーザーの文章スタイルをコピーすることは可能でしょうか? 2. この論文の研究目標は、生成されたテキストのスタイルが制御可能であることを保証するだけでなく、コンテンツも制御可能であることを確認することです。したがって、ユーザーの書き方を学習した後、その書き方をテキストコンテンツと効率的に組み合わせて、ユーザーの期待に応える手書きを生成するにはどうすればよいでしょうか。次に、今回のCVPR 2023で提案されたSDT（style disentangled Transformer）方式が、これら2つの問題をどのように解決するかを見てみましょう。

解決

研究の動機研究者たちは、個人の手書きには通常 2 種類の書き方があることを発見しました。1. 同じ筆者の手書きには全体的な書き方の共通性があり、各文字は同様の傾きと縦横比を示していますが、書き方の共通性は筆者ごとに異なります。この特徴はさまざまな作家を区別するのに使用できるため、研究者はこれを作家のスタイルと呼んでいます。 2. 全体的なスタイルの共通性に加えて、同じ作家の異なるキャラクター間では、スタイルの細部に不一致があります。たとえば、「黑」と「杰」という 2 つの文字は、どちらも文字構造では同じ 4 点の水の部首を持ちますが、異なる文字ではこの部首の書き方がわずかに異なり、それが画の長さ、位置、曲率に反映されています。研究者は、文字の形状におけるこれらの微妙な文体パターンを文字スタイルと呼んでいます。上記の観察に触発されて、SDT は、ユーザーの手書きのスタイルを模倣する機能を向上させることを期待して、筆者とグリフのスタイルを個人の手書きから切り離すことを目指しています。

スタイル情報を学習した後、スタイルとコンテンツの特徴を単純に連結する従来の手書き生成方法とは異なり、SDT はコンテンツの特徴をクエリベクトルとして使用してスタイル情報を適応的にキャプチャし、それによってスタイルとコンテンツを効率的に融合し、ユーザーの期待に応える手書きを生成します。

方法論フレームワーク SDT の全体的なフレームワークを下図に示します。これは、デュアルブランチスタイルエンコーダー、コンテンツエンコーダー、およびトランスフォーマーデコーダーの 3 つの部分で構成されています。まず、スタイルエンコーダーのライターブランチとグリフブランチがそれぞれ対応するスタイル抽出を学習できるようにするための、2 つの補完的な対照的な学習目標を提案します。次に、SDT はトランスフォーマーのマルチヘッドアテンションメカニズムを使用して、スタイル機能とコンテンツエンコーダーによって抽出されたコンテンツ機能を動的に融合し、オンライン手書きテキストを段階的に合成します。

(a)筆者スタイル対照学習(SDT) 筆者スタイル抽出 (WriterNCE) のための教師あり対照学習目標を提案します。これは、同じ筆者に属する文字サンプルをクラスタ化し、異なる筆者に属する手書きサンプルを排除して、個々の手書きにおけるスタイルの共通性に筆者ブランチが明示的に焦点を当てるように導きます。

(b)グリフスタイルの対照学習より詳細なグリフスタイルを学習するために、SDT では、同じ文字の異なるビュー間の相互情報量を最大化するための教師なし対照学習目標 (GlyphNCE) を提案し、グリフブランチが文字の詳細なパターンの学習に重点を置くように促します。下の図に示すように、まず、同じ手書き文字を独立して 2 回サンプリングして、ストロークの詳細情報を含む正のサンプルのペアを取得します。

そして

、そして他の文字から負のサンプルをサンプリングする

。サンプリングが実行されるたびに、元のサンプルの詳細を含む新しいパースペクティブとして、少数のサンプルブロックがランダムに選択されます。サンプルブロックのサンプリングは均一な分布に従って行われるため、文字の特定の領域が過剰にサンプリングされるのを防ぐことができます。グリフブランチをより適切にガイドするために、サンプリングプロセスは、グリフブランチによって出力されるフィーチャシーケンスに直接作用します。

(c)スタイルとコンテンツ情報の融合戦略2つのスタイル特徴を取得した後、コンテンツエンコーダーによって学習されたコンテンツエンコーディングとそれらを効率的に融合するにはどうすればよいでしょうか。この問題を解決するために、SDTは任意のデコード時刻tにおいて、コンテンツ特徴を初期点とみなし、時刻qとtの前に出力された軌跡点を結合する。

新しいコンテンツコンテキストの形成

。次に、コンテンツコンテキストはクエリベクトルとして、スタイル情報はキーと値のベクトルとして考慮されます。クロスアテンションメカニズムの融合により、コンテンツコンテキストと 2 つのスタイル情報が順番に動的に集約されます。

実験

定量評価 SDT は、中国語、日本語、インド語、英語のデータセットで、特にスタイルスコアインジケーターにおいて最高のパフォーマンスを達成しました。以前の SOTA 方式と比較して、SDT は大きな進歩を遂げました。

定性評価 中国語生成に関して言えば、従来の方法と比較して、SDT によって生成された手書き文字は文字の崩れを回避できるだけでなく、ユーザーの書き方をうまく模倣することもできます。グリフスタイルの学習により、SDT は文字のストロークの詳細を生成することもできます。

SDT は他の言語でも優れたパフォーマンスを発揮します。特にインドの文字の生成では、既存の主流の方法では破損した文字が簡単に生成されてしまう可能性がありますが、当社の SDT では文字コンテンツの正確性を維持できます。

さまざまなモジュールがアルゴリズムのパフォーマンスに与える影響を次の表に示します。この論文で提案されたモジュールは相乗効果があり、ユーザーの手書きをコピーするパフォーマンスを効果的に向上させます。具体的には、ライタースタイルの追加により、文字の傾きやアスペクト比など、文字の全体的なスタイルの SDT の模倣が向上し、グリフスタイルの追加により、生成された文字のストロークの詳細が向上します。既存の方法の単純な融合戦略と比較して、SDT の適応型動的融合戦略は、さまざまな指標における文字生成パフォーマンスを総合的に向上させます。

2 つのスタイルの視覚分析2 つのスタイルの特徴に対してフーリエ変換を実行すると、次のスペクトル図が得られます。図から、書体には低周波成分が多く含まれ、グリフスタイルは主に高周波成分に重点を置いていることがわかります。実際、低周波成分にはターゲットの全体的な輪郭が含まれており、高周波成分はオブジェクトの詳細に重点を置いています。この発見は、分離したライティングスタイルの有効性をさらに検証し、説明しています。