MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

豊富な写真と美しいレイアウトで記事を作成、編集する方法に悩んだことはありませんか?あるいは、芸術的なインスピレーションやデザインのアイデアが不足して悩んでいますか? AIテクノロジーはアートデザインに役立つのでしょうか?本日ご紹介する論文「ビジュアルテキストプレゼンテーションレイアウトの自動生成」は、アメリカコンピュータ協会のジャーナルである ACM Transactions on Multimedia Computing, Communications and Applications (TOMM) で 2017 Nicolas D. Georganas 最優秀論文賞を受賞しました。この論文が、リッチメディアコンテンツの作成と共有に関するユニークなアイデアと方法を提供してくれることを願っています。

論文の共著者は、Yang Xuyong (Microsoft Research Asia と中国科学技術大学の共同博士課程学生、Weicheche 共同創設者)、Mei Tao (Microsoft Research Asia 上級研究員、Association for Computing Machinery の著名な科学者、国際パターン認識学会フェロー)、Xu Yingqing (Microsoft Research Asia 元上級研究員、清華大学美術学院情報芸術デザイン学部長)、Rui Yong (Microsoft Research Asia 元副社長、Lenovo CTO)、Li Shipeng (Microsoft Research Asia 元副社長、Hard Egg CTO) です。研究所の研究者および卒業生の皆様、おめでとうございます!

今日のリッチメディアコンテンツの量は前例のないほどです。人々は常に膨大な量の情報、特に複雑なコンテンツを含む画像やテキスト情報を作成し、共有しています。その中で、テキストと画像が混在するコンテンツモデルが主流になっています。コンテンツ作成のプロセスにおいて、人々が直面する大きな課題は、多様な画像やテキスト情報に基づいて、目を引くレイアウト(たとえば、雑誌の表紙、ポスター、PPT プレゼンテーションなど)をどのようにデザインするかということです。この質問は、商業印刷、オンラインジャーナルや雑誌、ユーザー生成コンテンツの表現にとって非常に重要です。グラフィック コンテンツの組版には、視覚的コミュニケーション、情報アート デザイン、色彩と美学、グラフィック プランニング、幾何学的構成など、多くの専門知識が必要です。従来、グラフィックやテキストのレイアウトデザイン作業には、豊富な専門知識を持つデザイナーが必要なだけでなく、多くの人的リソースも消費されていました。画像やテキストの内容に応じてコンピューターが自動的にレイアウトするようにすることは、非常に難しい問題です。

2013年末より、マイクロソフトリサーチアジアの研究者と清華大学美術学院のアートデザインの専門家が、科学と芸術が融合したこの分野で緊密な協力を行ってきました。彼らは、デザインの美的原理と計算可能な画像の特徴を組み合わせ、計算可能な自動組版フレームワークのプロトタイプを創造的に提案しました。このプロトタイプは、一連の重要な問題(写真に埋め込まれたテキストの視覚的な重み、視覚空間の重み、心理学における色彩調和要因、視覚認知と意味理解における情報の重要性など)を最適化することにより、視覚的プレゼンテーション、テキスト意味論、設計原則、認知理解などの分野の専門家の事前知識を同じマルチメディアコンピューティングフレームワークに自然に統合し、「視覚的なテキストレイアウトの自動設計」という新しい研究方向を生み出します。

図 1: アルゴリズムを使用して自動的に生成されたグラフィックとテキストのレイアウト効果。注: 元の入力は純粋な画像 (つまり、テキストなし) と純粋なテキスト (メイン タイトルやサブタイトルなど) であり、出力はテキストと画像が混在した結果 (画像に埋め込まれたテキスト) になります。

この研究では、普遍的な美的認識を数学的に体系的に表現し、主題に関連するグラフィックとテキストの組版設計テンプレートのセットを構築し、計算可能なグラフィックとテキストの合成フレームワークのプロトタイプのセットを提案しました。これは、マクロレベルでトップダウンの美的認識を統合するだけでなく、ミクロレベルでボトムアップのグラフィックとテキストの特徴も組み込んでいます。本論文では、顔、テキスト検出、視覚的顕著性検出アルゴリズムを統合して、画像全体の重要度マップと注意マップを構築するための視覚的注意検出アルゴリズムを初めて提案しました。テキストレイアウトのアルゴリズムでは、テキストブロックの形状と画像内の重要度マップの相互作用をエネルギー最適化問題として定量化しました。

は、図 1 の目立つ視覚オブジェクトへのテキストの侵入のコストです。つまり、テキストと重要な視覚オブジェクトの交差を最小限に抑えます。アイドル視覚スペースの無駄を表します。つまり、画像内の利用可能な視覚スペースを最大限に活用して、テキストの目立つ度合いを最大化します。テキスト ブロックの意味的重要度 i と視覚知覚重要度 i の不一致を表します。つまり、最も重要なテキスト コンテンツを画像内の最も重要な視覚領域に一致させて、読むときに重要な情報をすばやく取得します。エネルギー最適化ソリューション プロセスは、設計テンプレートの美的認識原則の監視下で実行され、単なるコンピューターの最適ソリューションではなく、最終的なソリューションが視覚的な美的ニーズを満たすことを保証します。

テキストスペースがレイアウトされた後、画像の前景と背景の重要な色が分析され、色彩調和の最適化フレームワーク内で全体的な色彩調和が維持されます。テキストと背景色の差が最大化されるため、最終的な混合テキストと画像レイアウトは、元の画像の色の調和を全体的に尊重し、テキストの読みやすさをローカルに確保できます。グローバルカラーハーモニーの計算では、有名な「カラーハーモナイゼーション」で提案された心理的カラーモデルを採用し、この論文で提案されたさまざまなテーマにおける画像の前景色と背景のテーマカラーのモデル設定を組み合わせて、最も適切なグローバルテーマカラーを見つけます。局所的な視覚コントラストを最大化するために、この論文では、最も遠い色相角の黄金比サンプリング法を提案しています。これは、文字で覆われた背景の下にある画像の顕著な色を見つけてそれを色調と色相の空間にマッピングし、2次元の色相空間(色調、色相)で最も遠い点を見つけて、顕著な色の点から最も遠い点までの黄金比の点を取るというものです。フレームワーク全体を通じて、美的知覚の監視下でグラフィック デザイン全体を自動化できます。

図2 システムブロック図

この論文で提案されているシステムでは、ユーザーは特定のトピックの視覚的な背景画像といくつかのテキスト文章をアップロードできます。第 2 段階では、元の画像に対して、顕著性値、顔、テキスト、視線注意マップを組み合わせて処理し、視覚認識マップを取得します。次に、画像はターゲット レイアウト サイズに合わせてサイズ変更され、視覚認識マップに基づいて重要な領域が保持されます。サイズ変更された画像は、空間的に分散されたレイアウト テンプレートを配置するために使用できます。画像が調整されると、第 3 段階のエネルギー最適化プロセスを通じて、既存の単語、空間レイアウト、テキストが背景画像に重ねられます。テキストの色付けの第 4 段階では、まず切り取られた画像のカラー パレットが分析され、テーマの属性に応じてテーマの色が選択されます。特定の色相/トーン モデル、カラー パレット、セマンティック カラー、コンテンツ特性を適用することで、ローカルな色の調和とローカルな読みやすさを維持しながらテキストの色を変更することができます。

図 3 レイアウト アルゴリズム (a) 視線の注意 (黄色) を伴う視覚的重要度マップ (灰色)。(b) 上位 5 つのテンプレートから選択されたテンプレート。(c) 入力テキスト。(d) エネルギーが E(L) として定義され、フォントの高さを反復的に制御することでローカル最適化ソリューションで最小化されるタイポグラフィ プロセスの詳細。(e) ボトムアップの画像特性とトップダウンの空間レイアウトによって制約されたタイポグラフィの結果。

図4 色彩分析と最適化の概略図

この論文は発表後、学術界で広く注目を集め、2016 年以降 ACM データベースで 260 回以上ダウンロードされています。さらに、この研究は重要な理論的意義を持つだけでなく、幅広い応用価値も持っています。例えば、論文で提案された画像コンテンツベースの色検出アルゴリズムは、実際の製品である Office Sway に適用されています。現在、世界60カ国以上、40万人以上のユーザーが毎月新製品Office Swayを使ってデザインを行っています。

この論文では、マルチメディア、アートデザイン、色彩心理学の深い統合を示し、人工知能の手法をアートデザインに適用します。色彩心理学のモデルはマルチメディアデザインに「心」の窓を開き、美的デザイン思考はマルチメディア分析に想像力の翼を広げると言えます。

論文をダウンロード: https://www.microsoft.com/en-us/research/publication/automatic-generation-of-visual-textual-presentation-layout/

論文著者

[[200633]]

  • 楊旭勇、マイクロソフトリサーチアジアと中国科学技術大学の共同研修を受けた博士課程の学生、Weichecheの共同創設者

  • メイ・タオ、マイクロソフトリサーチアジア上級研究員、計算機協会の著名な科学者、国際パターン認識学会フェロー

  • 徐英青、元マイクロソフトアジア研究所上級研究員、清華大学美術学院情報芸術デザイン学部長

  • ルイ・ヨン、元マイクロソフトリサーチアジア副社長、レノボCTO

  • 李 成鵬、元マイクロソフトリサーチアジア副社長、イングダンCTO

さらに、本論文の協力者である中国科学技術大学の博士課程学生である Wu Yue 氏と清華大学美術学院の大学院生である Yu Junjie 氏に特別な感謝の意を表します。

<<:  ディープラーニング以外に機械翻訳には何が必要ですか?

>>:  Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

ブログ    

推薦する

...

...

今後のマシンビジョンのトレンド

統計によると、人間が得る情報の 83% は目から得られます。目が「心の窓」と考えられているのも不思議...

AI は言語をより早く習得するために何ができるでしょうか?

新しい言語を学ぶことは間違いなく挑戦です。特に 18 歳以上の人にとっては、これまで触れたことのない...

MITの最新の成果:AIが人間の脳が言語を処理する仕組みを解明

最新世代の予測言語モデルは、言語の根底にある意味の一部も学習したようです。驚くべきことに、これらのモ...

2022年のNature年次指数が発表され、最も急成長した50の機関のうち31は中国の機関です。

​たった今、2022年のNature年次インデックスレポートが発表されました。上位50の研究機関のう...

人工知能を理解し、適応する方法

私たちは毎年数百人の学生にデータサイエンスを教えていますが、彼らは皆 AI に魅了され、素晴らしい質...

ロボット介護は人間に比べて高齢者にとって負担が少ない?

最近、浙江省金華市のある家族の監視ビデオがインターネット上で話題になった。動画の全長は3分15秒。こ...

...

失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト...

ディープニューラルネットワークを使用して三体問題を1億倍速く解く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...