AIが絵の描き方を教えてくれる

AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

初心者の画家が上手な手描きの肖像画を描くにはどうすればいいでしょうか?

時間をかけて練習するだけでなく、以下のツールも使えるかもしれません!

まず、次のように顔の輪郭を描く必要があります。

すると、コンピューターは肖像画の全体的な構造の線を参考のために表示します。

次に、顔の細部のヒントラインを示します。

最終的には、次のような作品を描くことができるようになります。

初心者が白紙を素手で使うよりずっといいと思いませんか?

肖像画を描くための2ステップガイド

このツールはdualFaceと呼ばれます。

初心者や一般ユーザーが適切な肖像画を描くのに役立つ理由は、最初の線に従って描画できるためです。

肖像画の全体的な枠組みと局所的な詳細のスケッチ線を提供します。

それに従うだけで、絵の訓練を受けていない不器用な人でも完成できます!

[[402177]]

グローバルガイダンスの段階では、dualFace は、ユーザーが描いた大まかなアウトラインに基づいて、内部データベースから関連する複数の顔を検索できます。

ポートレートを閉じて、キャンバスの背景に顔の輪郭の候補を表示します。

ローカルガイダンス段階では、dualFace はグローバルガイダンスによって描かれた輪郭を使用して、深層生成モデルを使用して顔画像を合成します。

次に、合成結果の詳細(目、鼻、口など)を補助線として指定します。

グローバル ステージでは、ポートレートはデータベース内の実際の肖像画であることに注意してください。ローカルステージは合成された仮想ポートレートです。

両方のステージで同じポートレートを使用しないのはなぜですか?

[[402178]]

これは、コンピューターによるガイダンスをより多様化するために行われます。結局のところ、データベース内の人数は限られています。

モデルは、より詳細に肖像画を区別できます。

さらに、dualFace には切り替え機能があり、ユーザーは最も適切なローカルガイダンスを選択できます。

ローカル ガイドが期待どおりでないとユーザーが判断した場合は、ボタンをクリックして描画プロセスを完全なガイドに戻すことができます。

局ステージ。

これら 2 つのステージの動作は次のとおりです。

グローバルブート

グローバルガイダンスステージは、データ生成、輪郭マッチング、インタラクティブガイダンスの 3 つのステップに分かれています。

データ生成は、データベース内の顔画像を顔の輪郭に変換することです。

彼らは双方向セグメンテーション ネットワーク (BiSeNet) を使用して、元の顔画像の意味ラベル マスクを生成しました。ここから

顔の輪郭はセマンティック ラベル マスクから抽出されます。マスクの各ピクセル(目、鼻、口など)には

元の画像の顔タグ ID (後で検索しやすくするため)。

さらに、輪郭画像は対応する元の顔画像と一緒に保存されます。

輪郭マッチングステップでは、ユーザーが描いた輪郭とデータベースに保存されている輪郭画像との類似度を計算し、最も近い輪郭を取得します。

クローズアップ画像。 GALIF(ガボール局所線ベース特徴、局所線に基づくガボール)を使用する

スケッチ検索とローカル形状マッチングのための画像特徴記述子(R特徴記述子)を使用します。

インタラクティブなガイダンスステップでは、ユーザーの継続的に更新されるストロークに基づいて、最も類似した「候補オブジェクト」をリアルタイムで取得し、それらを変換します。

シャドウマップ。

現地ガイド

全体的な構造図を提供した後、システムは詳細な線の提供を開始します。

ローカルガイダンスステージは、マスク生成とポートレートスケッチ生成の 2 つのステップで構成されます。

マスク生成ステップでは、グローバルステージでのユーザーの描画と、グローバルステージで生成されたデータを使用します - データ生成部分

ライブラリのフェイスマスクでは、システムは以下に示すように最終的なマスクを生成できます。

肖像画生成ステップでは、MaskGANを使用して前の段階に一致する「実際の人物」の肖像画を生成し、APdrawi

ngGAN は肖像画をスケッチに変換します。

その中で、2つの生成モデルは独立して訓練されているので、それらを接続するために、このステップでは勾配ブースティング決定も使用する。

GBDT ツリーは、顔のランドマークを計算し、マージされたマスクをバイナリ背景輪郭に変換するために使用されます。

この段階では、複数の詳細な肖像画のスケッチを生成でき、ユーザーは後続の描画の参照として最も必要なものを選択できます。

テスト。最初に描いたアウトラインが不完全でも問題ありません。「ストロークマスクマッピング」によって、欠けている部分を最適化できます。

「自動的に完了します。」

以上が二段階指導の具体的な実施プロセスです。

次に、ツールの有効性を定性的に検証するためにユーザー調査を実施しました。

抽象的な入力を正しく識別できません

DualFace は、Windows 10 プラットフォーム上で Python で記述されたリアルタイム描画プログラムです。

グローバルガイダンス段階では、マウスを放すたびに画像を取得するのに平均0.36秒かかりますが、ローカルガイダンス段階では、

ポートレート画像の撮影には2.78 秒かかります。

以下は、テスターの全体、ローカル、全体的なユーザーエクスペリエンスに関するアンケート調査の結果です。満点は5点、平均点は

3.9以上。

全体的なユーザー エクスペリエンスの点では、すべての参加者が、このツールによって肖像画をより上手に描くことができると感じました。

他の描画ツールと比較して、dualFace は空間関係や顔の詳細の描画評価において高い結果を達成しました。

平均スコアはそれぞれ4.5と4.32でした。

したがって、dualFace は、正しい顔の空間関係と詳細な顔の特徴を通じて、ユーザーがより良い結果を得られるようガイドできます。

他の描画プログラムでは実現できない肖像画の作成が可能です。

また、下の一番右の写真を見ると、dualFace で描画する時間は最短で 4 分 15 秒、最長で 17 分 15秒であることが分かります。

約10分後。ユーザーの描画スキルはさまざまですが、より多くの時間を費やすことで必然的に描画の質が向上します。

図の結果。

実験の結果は次のとおりです。

システムによって提供される案内マップのレベルは同様であることがわかりますが、最終結果はユーザーの実際の状況によって依然としてある程度制限されます。

描画レベル

[[402179]]

しかし、前述のように、最後のグループは眉毛と目を描いただけであり、システムは制限されず、

完全なガイドマップ。

もちろん、彼らのアプローチにも限界があります。抽象的なスケッチを合理的なフェイスマスクに変換できない可能性があります。

例えば、次の図でユーザーが描いた輪郭の口が誤って鼻の一部とみなされ、次のような一連の結果になります。

写真の鼻は正しくありません。

これは、顔データベースに実際の写真が含まれており、dualFace はリアルなスタイルの肖像画の描画のみをサポートしているためです。

そのため、これを使用して顔の表情や誇張された漫画の形状などの高度なセマンティックスケッチを実現することは困難です。

著者について

このプロジェクトの研究者は、日本の北陸先端科学技術大学院大学と東京大学の研究者です。

前者は1990年に設立された研究機関としての特徴を持つ日本の国立大学であり、日本が支援する科学研究の重点分野を数多く有しています。

そのレベルは東京大学や京都大学に匹敵し、情報科学分野の研究は極めて先進的です。

研究メンバー7人のうち、論文の第一著者と第二著者を含む4人が中国人である。

試用版は GitHub からダウンロードできます。

https://github.com/shasph/dualFace

論文の宛先:

https://www.arxiv-vanity.com/papers/2104.12297/

<<:  AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

>>:  協働ロボットがインダストリー4.0戦略の中核となる理由

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データサイエンスと機械学習のためのツールと言語の最新情報

[[198310]]第 18 回 KDnuggets ソフトウェア アンケートには、今年もアナリティ...

ビジュアル Transformer アーキテクチャの進歩を整理した記事: CNN と比較して、ViT が勝っているのはどこでしょうか?

注意ベースのエンコーダー/デコーダー アーキテクチャである Transformer は、自然言語処理...

1.4GB 未満のビデオ メモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープン ソースです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2021年に人工知能はどのように発展するのでしょうか? 6つの予測

海外メディアの報道によると、人工知能はここ数年、着実な成長曲線を保っている。しかし、COVID-19...

世界図書デー: スマートテクノロジーがいかにして優れた読書環境を作り出すか

4月23日は第25回「世界本の日」です!今日は本を読みましたか?ゴーリキーはかつてこう言った。「本は...

PyCaret: 機械学習モデルの開発が簡単に

今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...

...

AIで製造業を解放する: 企業がアプリケーションシナリオを発見し、課題に対処する方法

まとめ現在、さまざまな業界がデジタルビジネスシナリオを実装または強化するために機械学習機能を構築して...

マイクロソフト、機械学習モデル向けの高性能推論エンジン ONNX をオープンソース化

Microsoft は、Linux、Windows、Mac プラットフォーム向けの ONNX 形式の...

...

...

...