AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

初心者の画家が上手な手描きの肖像画を描くにはどうすればいいでしょうか?

時間をかけて練習するだけでなく、以下のツールも使えるかもしれません！

まず、次のように顔の輪郭を描く必要があります。

すると、コンピューターは肖像画の全体的な構造の線を参考のために表示します。

次に、顔の細部のヒントラインを示します。

最終的には、次のような作品を描くことができるようになります。

初心者が白紙を素手で使うよりずっといいと思いませんか？

肖像画を描くための2ステップガイド

このツールはdualFaceと呼ばれます。

初心者や一般ユーザーが適切な肖像画を描くのに役立つ理由は、最初の線に従って描画できるためです。

肖像画の全体的な枠組みと局所的な詳細のスケッチ線を提供します。

それに従うだけで、絵の訓練を受けていない不器用な人でも完成できます！

グローバルガイダンスの段階では、dualFace は、ユーザーが描いた大まかなアウトラインに基づいて、内部データベースから関連する複数の顔を検索できます。

ポートレートを閉じて、キャンバスの背景に顔の輪郭の候補を表示します。

ローカルガイダンス段階では、dualFace はグローバルガイダンスによって描かれた輪郭を使用して、深層生成モデルを使用して顔画像を合成します。

次に、合成結果の詳細（目、鼻、口など）を補助線として指定します。

グローバルステージでは、ポートレートはデータベース内の実際の肖像画であることに注意してください。ローカルステージは合成された仮想ポートレートです。

両方のステージで同じポートレートを使用しないのはなぜですか?

これは、コンピューターによるガイダンスをより多様化するために行われます。結局のところ、データベース内の人数は限られています。

モデルは、より詳細に肖像画を区別できます。

さらに、dualFace には切り替え機能があり、ユーザーは最も適切なローカルガイダンスを選択できます。

ローカルガイドが期待どおりでないとユーザーが判断した場合は、ボタンをクリックして描画プロセスを完全なガイドに戻すことができます。

局ステージ。

これら 2 つのステージの動作は次のとおりです。

グローバルブート

グローバルガイダンスステージは、データ生成、輪郭マッチング、インタラクティブガイダンスの 3 つのステップに分かれています。

データ生成は、データベース内の顔画像を顔の輪郭に変換することです。

彼らは双方向セグメンテーションネットワーク (BiSeNet) を使用して、元の顔画像の意味ラベルマスクを生成しました。ここから

顔の輪郭はセマンティックラベルマスクから抽出されます。マスクの各ピクセル（目、鼻、口など）には

元の画像の顔タグ ID (後で検索しやすくするため)。

さらに、輪郭画像は対応する元の顔画像と一緒に保存されます。

輪郭マッチングステップでは、ユーザーが描いた輪郭とデータベースに保存されている輪郭画像との類似度を計算し、最も近い輪郭を取得します。

クローズアップ画像。 GALIF（ガボール局所線ベース特徴、局所線に基づくガボール）を使用する

スケッチ検索とローカル形状マッチングのための画像特徴記述子（R特徴記述子）を使用します。

インタラクティブなガイダンスステップでは、ユーザーの継続的に更新されるストロークに基づいて、最も類似した「候補オブジェクト」をリアルタイムで取得し、それらを変換します。

シャドウマップ。

現地ガイド

全体的な構造図を提供した後、システムは詳細な線の提供を開始します。

ローカルガイダンスステージは、マスク生成とポートレートスケッチ生成の 2 つのステップで構成されます。

マスク生成ステップでは、グローバルステージでのユーザーの描画と、グローバルステージで生成されたデータを使用します - データ生成部分

ライブラリのフェイスマスクでは、システムは以下に示すように最終的なマスクを生成できます。

肖像画生成ステップでは、MaskGANを使用して前の段階に一致する「実際の人物」の肖像画を生成し、APdrawi

ngGAN は肖像画をスケッチに変換します。

その中で、2つの生成モデルは独立して訓練されているので、それらを接続するために、このステップでは勾配ブースティング決定も使用する。

GBDT ツリーは、顔のランドマークを計算し、マージされたマスクをバイナリ背景輪郭に変換するために使用されます。

この段階では、複数の詳細な肖像画のスケッチを生成でき、ユーザーは後続の描画の参照として最も必要なものを選択できます。

テスト。最初に描いたアウトラインが不完全でも問題ありません。「ストロークマスクマッピング」によって、欠けている部分を最適化できます。

「自動的に完了します。」

以上が二段階指導の具体的な実施プロセスです。

次に、ツールの有効性を定性的に検証するためにユーザー調査を実施しました。

抽象的な入力を正しく識別できません

DualFace は、Windows 10 プラットフォーム上で Python で記述されたリアルタイム描画プログラムです。

グローバルガイダンス段階では、マウスを放すたびに画像を取得するのに平均0.36秒かかりますが、ローカルガイダンス段階では、

ポートレート画像の撮影には2.78 秒かかります。

以下は、テスターの全体、ローカル、全体的なユーザーエクスペリエンスに関するアンケート調査の結果です。満点は5点、平均点は

3.9以上。

全体的なユーザーエクスペリエンスの点では、すべての参加者が、このツールによって肖像画をより上手に描くことができると感じました。

他の描画ツールと比較して、dualFace は空間関係や顔の詳細の描画評価において高い結果を達成しました。

平均スコアはそれぞれ4.5と4.32でした。

したがって、dualFace は、正しい顔の空間関係と詳細な顔の特徴を通じて、ユーザーがより良い結果を得られるようガイドできます。

他の描画プログラムでは実現できない肖像画の作成が可能です。

また、下の一番右の写真を見ると、dualFace で描画する時間は最短で 4 分 15 秒、最長で 17 分 15秒であることが分かります。

約10分後。ユーザーの描画スキルはさまざまですが、より多くの時間を費やすことで必然的に描画の質が向上します。

図の結果。

実験の結果は次のとおりです。

システムによって提供される案内マップのレベルは同様であることがわかりますが、最終結果はユーザーの実際の状況によって依然としてある程度制限されます。

描画レベル

しかし、前述のように、最後のグループは眉毛と目を描いただけであり、システムは制限されず、

完全なガイドマップ。

もちろん、彼らのアプローチにも限界があります。抽象的なスケッチを合理的なフェイスマスクに変換できない可能性があります。

例えば、次の図でユーザーが描いた輪郭の口が誤って鼻の一部とみなされ、次のような一連の結果になります。

写真の鼻は正しくありません。

これは、顔データベースに実際の写真が含まれており、dualFace はリアルなスタイルの肖像画の描画のみをサポートしているためです。

そのため、これを使用して顔の表情や誇張された漫画の形状などの高度なセマンティックスケッチを実現することは困難です。

著者について

このプロジェクトの研究者は、日本の北陸先端科学技術大学院大学と東京大学の研究者です。

前者は1990年に設立された研究機関としての特徴を持つ日本の国立大学であり、日本が支援する科学研究の重点分野を数多く有しています。

そのレベルは東京大学や京都大学に匹敵し、情報科学分野の研究は極めて先進的です。

研究メンバー7人のうち、論文の第一著者と第二著者を含む4人が中国人である。

試用版は GitHub からダウンロードできます。

https://github.com/shasph/dualFace

論文の宛先:

https://www.arxiv-vanity.com/papers/2104.12297/

<<: AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

>>: 協働ロボットがインダストリー4.0戦略の中核となる理由

データサイエンスが音楽業界に革命を起こす

ブログ

計算能力≠知恵！ MIT教授の「意識の源」に関する新理論：人間の認知はコンピューティングとは何の関係もない

ブログ

最大65万ドル！ 2021年の米国大手企業のプログラマーの収入をみる

ブログ

自動運転における車線逸脱警報システムの技術サポート

ブログ

デジタル変革戦略における AI の位置づけを決める際に尋ねるべき 5 つの質問

ブログ

ロボットが高齢者の在宅生活を変える

ブログ

ロボティックプロセスオートメーションの導入を成功させるための 8 つのヒント

ブログ

ファーウェイクラウド、プロセス全体の簡素化と自動化によりAI開発モデルをアップグレードするModelArts 2.0をリリース

ブログ

AIが絵の描き方を教えてくれる

肖像画を描くための2ステップガイド

グローバルブート

現地ガイド

抽象的な入力を正しく識別できません

著者について

データサイエンスが音楽業界に革命を起こす

計算能力≠知恵！ MIT教授の「意識の源」に関する新理論：人間の認知はコンピューティングとは何の関係もない

最大65万ドル！ 2021年の米国大手企業のプログラマーの収入をみる

自動運転における車線逸脱警報システムの技術サポート

デジタル変革戦略における AI の位置づけを決める際に尋ねるべき 5 つの質問

ロボットが高齢者の在宅生活を変える

ロボティックプロセスオートメーションの導入を成功させるための 8 つのヒント

ファーウェイクラウド、プロセス全体の簡素化と自動化によりAI開発モデルをアップグレードするModelArts 2.0をリリース

推薦する

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

公式スタンプ！ 35の大学がAI専門建設資格の第1期生を取得

人工知能が話題になって3年。雇用情勢は依然として明るいのか？

任正非氏と世界の人工知能専門家との対話の全文記録：ファーウェイの5G技術は米国にのみ販売されている

2021 年に備えるべきビジネスインテリジェンスのトレンドトップ 10

サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

すべてのビジネスデータを使用しても、AI に完全に入力することはできませんか?この小さなサンプル学習キットをお試しください

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

モデル量子化とエッジAIがインタラクションを定義する方法

スマートインフラがコミュニティを良くする5つの方法

2021 年に IT 自動化と AI はどこに向かうのでしょうか?