手書きを模倣するAIが独自のフォントを作成

手書きを模倣するAIが独自のフォントを作成

手書き模倣AIの研究背景

諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、手書きは書き手の個人的な特徴をよりよく反映できます。多くの人が、ソーシャル ソフトウェアで自分のスタイルをよりよく表現するために、独自の手書きフォント セットを所有することを想像したことがあると思います。

しかし、英語の文字と違って、中国語の文字数は非常に多く、専用のフォントセットを独自に作成するのは非常にコストがかかります。たとえば、最新の国家標準 GB18030-2022 中国語文字セットには、80,000 を超える中国語文字が含まれています。ある動画サイトのブロガーが13本のペンを使って18時間かけて7,000字以上の漢字を書き、書きすぎて手がかじかむほどだったと報じられた。

上記の疑問から、著者らは、専用フォントの作成にかかるコストの高さという問題を解決するために、自動テキスト生成モデルを設計できるかどうかを考えるようになりました。この問題を解決するために、研究者らは手書きを模倣できる AI を構想しました。ユーザーから少数の手書きサンプル (約 12 個) を受け取るだけで、手書きに含まれる書体 (文字のサイズ、傾き、アスペクト比、ストロークの長さと曲率など) を抽出し、そのスタイルを模倣してより多くのテキストを合成することで、ユーザー向けの完全な手書きフォント セットを効率的に合成できます。

さらに、応用価値とユーザーエクスペリエンスの観点から、論文の著者はモデルの入力モードと出力モードについて次の点を考慮しました。1. シーケンスモードのオンライン手書きには、イメージモードのオフライン手書きよりも豊富な情報(下の図に示すように、軌跡ポイントの詳細な位置と書き込み順序)が含まれていることを考慮すると、モデルの出力モードをオンライン手書きに設定すると、ロボットライティングや書道教育など、より幅広い応用の見通しが得られます。 2. 日常生活では、タブレットやスタイラスなどの収集デバイスを介してオンラインテキストを取得するよりも、携帯電話を使用して写真を撮り、オフラインテキストを取得する方が便利です。そのため、生成されたモデルの入力モードをオフラインテキストに設定すると、ユーザーにとってより便利に使用できるようになります。

要約すると、本論文の研究目標は、様式化されたオンライン手書き生成方法を提案することです。このモデルは、ユーザーが提供するオフライン テキストに含まれる書き方を模倣できるだけでなく、ユーザーのニーズに応じてオンラインでコンテンツ制御可能な手書きを生成することもできます。

  • 論文アドレス: https://arxiv.org/abs/2303.14736
  • オープンソースコード: https://github.com/dailenson/SDT

主な課題

上記の目標を達成するために、研究者は次の 2 つの重要な問題を分析しました。1. ユーザーが提供できる文字サンプルは少数であるため、これらの少数の参照サンプルのみからユーザー独自の書き方を学習することは可能でしょうか?つまり、少数の参照サンプルに基づいてユーザーの文章スタイルをコピーすることは可能でしょうか? 2. この論文の研究目標は、生成されたテキストのスタイルが制御可能であることを保証するだけでなく、コンテンツも制御可能であることを確認することです。したがって、ユーザーの書き方を学習した後、その書き方をテキストコンテンツと効率的に組み合わせて、ユーザーの期待に応える手書きを生成するにはどうすればよいでしょうか。次に、今回のCVPR 2023で提案されたSDT(style disentangled Transformer)方式が、これら2つの問題をどのように解決するかを見てみましょう。

解決

研究の動機研究者たちは、個人の手書きには通常 2 種類の書き方があることを発見しました。1. 同じ筆者の手書きには全体的な書き方の共通性があり、各文字は同様の傾きと縦横比を示していますが、書き方の共通性は筆者ごとに異なります。この特徴はさまざまな作家を区別するのに使用できるため、研究者はこれを作家のスタイルと呼んでいます。 2. 全体的なスタイルの共通性に加えて、同じ作家の異なるキャラクター間では、スタイルの細部に不一致があります。たとえば、「黑」と「杰」という 2 つの文字は、どちらも文字構造では同じ 4 点の水の部首を持ちますが、異なる文字ではこの部首の書き方がわずかに異なり、それが画の長さ、位置、曲率に反映されています。研究者は、文字の形状におけるこれらの微妙な文体パターンを文字スタイルと呼んでいます。上記の観察に触発されて、SDT は、ユーザーの手書きのスタイルを模倣する機能を向上させることを期待して、筆者とグリフのスタイルを個人の手書きから切り離すことを目指しています。

スタイル情報を学習した後、スタイルとコンテンツの特徴を単純に連結する従来の手書き生成方法とは異なり、SDT はコンテンツの特徴をクエリ ベクトルとして使用してスタイル情報を適応的にキャプチャし、それによってスタイルとコンテンツを効率的に融合し、ユーザーの期待に応える手書きを生成します。

方法論フレームワーク  SDT の全体的なフレームワークを下図に示します。これは、デュアル ブランチ スタイル エンコーダー、コンテンツ エンコーダー、およびトランスフォーマー デコーダーの 3 つの部分で構成されています。まず、スタイル エンコーダーのライター ブランチとグリフ ブランチがそれぞれ対応するスタイル抽出を学習できるようにするための、2 つの補完的な対照的な学習目標を提案します。次に、SDT はトランスフォーマーのマルチヘッド アテンション メカニズムを使用して、スタイル機能とコンテンツ エンコーダーによって抽出されたコンテンツ機能を動的に融合し、オンライン手書きテキストを段階的に合成します。


(a)筆者スタイル対照学習(SDT) 筆者スタイル抽出 (WriterNCE) のための教師あり対照学習目標を提案します。これは、同じ筆者に属する文字サンプルをクラスタ化し、異なる筆者に属する手書きサンプルを排除して、個々の手書きにおけるスタイルの共通性に筆者ブランチが明示的に焦点を当てるように導きます。

(b)グリフ スタイルの対照学習より詳細なグリフ スタイルを学習するために、SDT では、同じ文字の異なるビュー間の相互情報量を最大化するための教師なし対照学習目標 (GlyphNCE) を提案し、グリフ ブランチが文字の詳細なパターンの学習に重点を置くように促します。下の図に示すように、まず、同じ手書き文字を独立して 2 回サンプリングして、ストロークの詳細情報を含む正のサンプルのペアを取得します。

そして

、そして他の文字から負のサンプルをサンプリングする

。サンプリングが実行されるたびに、元のサンプルの詳細を含む新しいパースペクティブとして、少数のサンプル ブロックがランダムに選択されます。サンプル ブロックのサンプリングは均一な分布に従って行われるため、文字の特定の領域が過剰にサンプリングされるのを防ぐことができます。グリフ ブランチをより適切にガイドするために、サンプリング プロセスは、グリフ ブランチによって出力されるフィーチャ シーケンスに直接作用します。

(c)スタイルとコンテンツ情報の融合戦略2つのスタイル特徴を取得した後、コンテンツエンコーダーによって学習されたコンテンツエンコーディングとそれらを効率的に融合するにはどうすればよいでしょうか。この問題を解決するために、SDTは任意のデコード時刻tにおいて、コンテンツ特徴を初期点とみなし、時刻qとtの前に出力された軌跡点を結合する。

新しいコンテンツコンテキストの形成

。次に、コンテンツ コンテキストはクエリ ベクトルとして、スタイル情報はキーと値のベクトルとして考慮されます。クロスアテンションメカニズムの融合により、コンテンツコンテキストと 2 つのスタイル情報が順番に動的に集約されます。

実験

定量評価  SDT は、中国語、日本語、インド語、英語のデータセットで、特にスタイル スコア インジケーターにおいて最高のパフォーマンスを達成しました。以前の SOTA 方式と比較して、SDT は大きな進歩を遂げました。


定性評価 中国語生成に関して言えば、従来の方法と比較して、SDT によって生成された手書き文字は文字の崩れを回避できるだけでなく、ユーザーの書き方をうまく模倣することもできます。グリフ スタイルの学習により、SDT は文字のストロークの詳細を生成することもできます。

SDT は他の言語でも優れたパフォーマンスを発揮します。特にインドの文字の生成では、既存の主流の方法では破損した文字が簡単に生成されてしまう可能性がありますが、当社の SDT では文字コンテンツの正確性を維持できます。

さまざまなモジュールがアルゴリズムのパフォーマンスに与える影響を次の表に示します。この論文で提案されたモジュールは相乗効果があり、ユーザーの手書きをコピーするパフォーマンスを効果的に向上させます。具体的には、ライター スタイルの追加により、文字の傾きやアスペクト比など、文字の全体的なスタイルの SDT の模倣が向上し、グリフ スタイルの追加により、生成された文字のストロークの詳細が向上します。既存の方法の単純な融合戦略と比較して、SDT の適応型動的融合戦略は、さまざまな指標における文字生成パフォーマンスを総合的に向上させます。

2 つのスタイルの視覚分析2 つのスタイルの特徴に対してフーリエ変換を実行すると、次のスペクトル図が得られます。図から、書体には低周波成分が多く含まれ、グリフ スタイルは主に高周波成分に重点を置いていることがわかります。実際、低周波成分にはターゲットの全体的な輪郭が含まれており、高周波成分はオブジェクトの詳細に重点を置いています。この発見は、分離したライティングスタイルの有効性をさらに検証し、説明しています。

見通し

手書きAIを通じて誰でも独自のフォントを作成し、ソーシャルプラットフォーム上で自分をより良く表現することができます。

<<: 

>>: 

ブログ    

推薦する

AI アプリケーションをテストするにはどうすればいいですか?

著者:サンジャナ・タクル徐潔成編纂人工知能技術は世界中で前例のないスピードで発展しています。短期間で...

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか?

[[228737]] 「人工知能(AI)」という言葉は、誰もがよく知っていると思います。この業界で...

AI技術は製薬業界でますます重要な役割を果たしている

製薬会社における人工知能 (AI) の活用は、より優れた診断の提供、より高品質の医薬品の開発、患者に...

データサイエンティストもAIに置き換えられる可能性がある

AI が人間の活動に取って代わるかどうかについての議論が激化するにつれ、データ サイエンティストは ...

...

Nvidia テルアビブ AI サミットが中止に!黄氏の社内メールが明らかに:Nvidiaの従業員も誘拐された

少し前、25歳の中国系イスラエル人少女、ノア・アルガマニの誘拐事件がネットユーザーの間で白熱した議論...

人工知能が新素材の研究開発を支援

現在、海外では人工知能が新素材の開発に役立っている事例が報告されています。英国リバプール大学の研究者...

...

フェイスブック従業員の半数が10年以内にリモート勤務、転勤、給与削減へ、ザッカーバーグは二級都市、三級都市で大量採用

[[327238]] Twitter社が永久に在宅勤務を行うと発表した後、ザッカーバーグ氏は今後5年...

2020年に人工知能がIT業界を変える

21 世紀は人類史上刺激的な時代であり、人々の日常生活に技術の進歩が起こっています。今では、患者の健...

オリンピックに乾杯! Baidu Smart Cloud と CCTV Sports Client が共同で新しいオリンピック放送体験を創造します。

[[416815]]東京オリンピックが閉幕しました。中国選手団は金メダル38個、銀メダル32個、銅...

マイクロソフト、世界規模の公開顔認識データベース MS Celeb を削除

フィナンシャル・タイムズによると、マイクロソフトは、約10万人の1000万枚以上の画像が含まれていた...

年末ですね!ファーウェイクラウド開発者デーと2023イノベーションサミットが成功裏に開催されました

12月20日、ファーウェイクラウド開発者デーと2023イノベーションシェアリングサミットが成功裏に開...

スタンフォードのAIエージェント研究が熱い! 「好奇心リプレイ」アルゴリズムにより、AIは自分自身を振り返り、積極的に新しい世界を探索することができる。

一夜にして、AI エージェントが突然インターネット全体を支配しました。業界のリーダーたちは、その焦点...

推奨される自動化およびオーケストレーションツール10選

自動化およびオーケストレーション ネットワーク ツールは、人間のオペレーターよりも高速かつ正確にタス...