漫画の着色に機械学習を使用する

漫画の着色に機械学習を使用する

何百ものトレーニング データの例を手描きせずに、シンプルなカラー スキームを自動的に適用できますか?

教師あり機械学習の大きな問題は、大量のカテゴリデータが必要になることです。特に、そのようなデータがない場合(世の中はビッグデータであふれていますが、ほとんどの人は未だにそのようなデータを持っていません)は、本当に問題です。

一部の企業は特定の種類の機密データを大量に利用できますが、ほとんどの組織やアプリケーションでは、適切な種類の機密データを十分に作成するのはコストがかかりすぎるため不可能です。ある時点では、これはまだデータがあまりない分野です (たとえば、まれな病気を診断する場合や、データが私たちが知っているわずかな情報と一致するかどうかを判断する場合など)。また、Amazon Turkers やサマージョブを使用して、必要なデータを手動で分類するのはコストがかかりすぎることもあります。映画ほどの長さのビデオの場合、フレームごとに分類するコストは、1 フレームあたり 1 セントでもすぐに膨れ上がってしまいます。

ビッグデータ需要の大きな問題

私たちのチームが現在解決しようとしている問題は、何百、何千もの手描きのトレーニング データがなくても、白黒のピクセル画像にシンプルなカラー スキームを自動的に提供するようにモデルをトレーニングできるかどうかです。

この実験(私たちは Dragon Painting と呼んでいます)では、ディープラーニングにおける分類データに対する膨大な需要に対処するために、次のアプローチを使用します。

  • 急速に増加する小規模データセットにはルールベースの戦略を使用します。
  • トレーニング データが非常に限られている場合に自動漫画レンダリングを実現するために、TensorFlow 画像変換モデルである Pix2Pix フレームワークを借用します。

私は、論文 (Isola らによる「Image-to-Image Translation with Conditional Adversarial Networks」) で説明されている機械学習画像変換モデルである Pix2Pix フレームワークを見たことがあります。このフレームワークでは、A が風景画像 B のグレースケール バージョンであると想定し、AB ペアでトレーニングした後に風景画像に色を付けます。私の問題もこれに似ていますが、唯一の問題はトレーニング データです。

このモデルをトレーニングするためのカラー画像を提供するために、一生をかけて絵を描いたり色を塗ったりしたくないので、必要なトレーニング データは非常に限られています。ディープラーニング モデルには、数千 (または数百) のトレーニング データが必要です。

Pix2Pix のケースに基づくと、少なくとも 400 ~ 1000 個の白黒データとカラーデータのペアが必要です。どれくらい描きたいかと聞かれましたよね?たぶん30だけ。漫画の花と漫画のドラゴンの小さなコレクションを描いて、それらをデータセットに含めることができるかどうかを確認しました。

80% ソリューション: コンポーネントごとに色分け

コンポーネントルールに従って白黒ピクセルをカラー化する

トレーニング データが不足している場合、最初に尋ねるべき質問は、問題に対する優れた非機械学習アプローチがあるかどうか、完全な解決策がない場合は部分的な解決策があるかどうか、そしてその部分的な解決策は私たちにとって役立つかどうかです。花やドラゴンに色を付けるには、本当に機械学習の手法が必要なのでしょうか?あるいは、色付けの幾何学的ルールを指定できるでしょうか?

コンポーネントごとに色分けする方法

今、私の問題を解決するための機械学習以外のアプローチがあります。私は子供に、自分の絵をどのように着色したいかを伝えることができました。花の中心をオレンジ色に、花びらを黄色に、ドラゴンの体をオレンジ色に、ドラゴンのトゲを黄色に塗るのです。

最初は、これが役に立たないように見えました。なぜなら、コンピューターは中心が何なのか、花びらが何なのか、本体が何なのか、そしてスパイクが何なのかを知らなかったからです。しかし、花とドラゴンの部分を連結コンポーネントの観点から定義し、絵画の 80% を着色するための幾何学的ソリューションを得ることができることがわかりました。80% では十分ではありませんが、戦略的違反変換、パラメーター、機械学習を使用して、部分的なルールベースのソリューションを 100% に導くことができます。

接続されたコンポーネントは、Windows ペイント (または同様のアプリケーション) の色を使用します。たとえば、バイナリの白黒画像に色を付ける場合、白いピクセルをクリックすると、白いピクセルは黒を通過せずに新しい色に変わります。漫画のドラゴンや花のスケッチでは、最も大きな白い部分は背景で、次に大きい部分は胴体(腕と脚を含む)または花の中心で、残りはトゲと花びらです。ドラゴンの目は例外で、背景からの距離で区別できます。

戦略的なルールとPix2Pixを使用して100%に到達します

私のスケッチの一部はルールに従っていません。不注意に引いた線が隙間を残したり、後ろ足がトゲで着色されたり、中央に小さなデイジーが描かれたときに花びらと中心が入れ替わったりします。

幾何学的ルールを使用して色付けできない 20% については、他の方法で対処する必要があります。そこで、Pix2Pix モデルを使用します。このモデルでは、ルールに違反する例を含め、少なくとも 400 ~ 1000 個のスケッチ/色のペアをデータセットとして必要とします (Pix2Pix 論文の最小データセット)。

したがって、ルールに違反するすべての例については、手動で色を付ける (後ろ足など) か、ルールに従ったスケッチ/色のペアをいくつか選択してルールを破ることになります。 A 内のいくつかの線を削除するか、同じ関数 (f) を使用して中央に配置された花 A と B をさらに変換して、データセットに追加できる、中央に配置された小さな花の新しいペア f(A) と f(B) を作成します。

ガウスフィルタと同相写像を使用して最大化する

コンピューター ビジョンでは、幾何学的変換を使用してデータセットを拡張するのが一般的です。たとえば、ループ、パン、ズームなどです。

しかし、ひまわりをデイジーに変えたり、ドラゴンの鼻をボールとトゲに変えたりする必要がある場合はどうでしょうか?

あるいは、データの量を増やして過剰適合を無視する必要がある場合はどうでしょうか?次に、最初のデータセットの 10 ~ 30 倍の大きさのデータセットが必要になります。

ひまわりはr -> rキューブによってデイジーに変換されます

ガウスフィルタの強化

単位円の特定の同相写像は、美しいデイジー (r -> r 立方体など) を作成でき、ガウス フィルターはドラゴンの鼻を変形できます。これらは両方とも、急速に成長しているデータセットに非常に役立ち、生成される大量のデータこそが私たちが必要としているものです。ただし、アフィン変換ではできない方法で描画のスタイルを変更し始める可能性もあります。

これにより、単純なカラー化スキームを自動的に設計する方法についてのこれまでの考察よりもさらに別の疑問が生じます。外部の観察者とアーティスト自身の両方にとって、アーティストのスタイルを定義するものは何でしょうか?彼らはいつ自分たちの絵画スタイルを確立したのでしょうか?独自の描画アルゴリズムがないなんてあり得ないですよね?ツール、アシスタント、共同作業者の違いは何ですか?

どこまで行けるでしょうか?

塗装への投資はどの程度まで抑えられるのでしょうか?特定のアーティストの作品として認識できるテーマとスタイルを維持しながら、どれだけのバリエーションと複雑さを生み出すことができるでしょうか?無限のキリン、ドラゴン、花が描かれたパレードの巻物を完成させるには何が必要ですか?このような写真があったら、何ができるでしょうか?

これらは、私たちが今後の研究で引き続き検討していく問題です。

しかし今では、ルール、拡張機能、Pix2Pix モデルが機能します。花の色付けは結構うまくできたので、ドラゴンの色付けもできたらいいなと思います。

結果: 花のモデルをトレーニングして花を着色します。

結果: ドラゴンモデルのトレーニングのトレーニング結果。

さらに詳しく知るには、PyCon Cleveland 2018 での Gretchen Greene の講演「DragonPaint – 小さなデータから漫画に色を付ける」にご参加ください。

<<:  2018年栄智連ITイネーブラーサミットのゲストラインナップが発表されました

>>:  誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

ブログ    
ブログ    

推薦する

...

自動運転のための不確実性を考慮した動作計画:強化学習ベースのアプローチ

[[429196]] 2021年10月1日にarXivにアップロードされた論文「強化学習を使用した不...

顔認識に興味がありますか? JavaScriptで実装された顔検出方法

私はビデオや画像における顔のタグ付け、検出、顔認識技術に常に興味を持っています。顔認識ソフトウェアや...

Googleの上級研究員が解雇される:論文論争の裏側

[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...

「機械学習アーキテクチャ」 現実世界の機械学習システムのアーキテクチャ

機械学習では、ML モデルの作成とパッケージ化を支援する ML 開発プラットフォームの概要を説明しま...

高密度の手動ラベルなしで下流の高密度予測タスクを実行するための自己教師学習法がリリースされました

[[399115]]事前トレーニングにより、下流のタスクのパフォーマンスが大幅に向上することが示され...

AIは機械設計にどのような影響を与えるのでしょうか?

人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...

...

OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...

AIをホームセキュリティに活用する方法

人工知能の台頭は、ホームセキュリティを含む多くの業界に大きな影響を与えています。人工知能は、監視カメ...

Dry goods: アルゴリズムの学習に役立つオープンソース プロジェクト

[[321744]]今日、LeetCode の問題やさまざまなアルゴリズム ルーチンを分析できる優れ...

「フルスタック自社開発」自動運転に大きな後退か?

01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...

...

3つの主要なトレンド予測:なぜ2021年に流行によりAIが主流になるのか?

2021 年に AI は創薬、在宅勤務、エッジ コンピューティングをどのように変えるのでしょうか?...

YOLOプロジェクト復活!マスターが後を継ぎ、YOLOの父が2か月間引退し、v4バージョンが正式にリリースされました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...