シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます

将来の妻や夫がどんな人か分からないですか?さあ、まずはAIを使って予測してみましょう。

[[312332]]

長年独身だったあなたの大切な人がどんな姿になっているかを空想したことがありますか?最近、ディープラーニング コミュニティで、ニューラル ネットワークを通じて大切な人の外見を生成するオープン ソース プロジェクトが人気を集めています。どんな人と一緒になるか知りたいですか?生成された効果を試したネットユーザーもいる。

プロジェクトアドレス: https://github.com/irfanICMLL/CoupleGenerator

作者自身も2017年からオープンソースプロジェクトとして公開されており、当時はTensorFlowを使用していたが、最近プロジェクトがGitHubにアップデートされたと紹介している。

オブジェクトを取得するには、8800回のトレーニングステップのみが必要です

このプロジェクトでは、100組以上の新婚夫婦の結婚式の写真が使用され、画像はクローラーを使用してBaiduからクロールされました。

これらの結婚式の写真はすべて、お祝いの雰囲気のある単一の赤い背景、はっきりとした顔と顔の特徴という統一されたテンプレートを使用しており、モデルのトレーニングに親しみやすく便利です。

トレーニング サンプルの 1 つ。クロール方法: https://blog.csdn.net/qq_27879381/article/details/65015280#comments

モデルの構築とトレーニングでは、プロジェクトは画像の特徴を学習するためのスケルトン ネットワークとして VGG を使用します。 VGG は、2014 年に Karen Simonyan と Andrew Zisserman によって公開された一般的なニューラル ネットワーク アーキテクチャであり、複数のレイヤーを積み重ねることがコンピューター ビジョンのパフォーマンスを向上させる重要な要素であることを実証しました。 VGGNet には 16 または 19 のレイヤーが含まれており、主に小さな 3×3 畳み込み演算と 2×2 プーリング演算で構成されています。

VGG の利点は、プーリング操作を使用せずに複数の小さな畳み込みカーネルを積み重ねることで、パラメータの数を制限しながらネットワークの表現の深さを増やすことができることです。たとえば、単一の 7×7 層を使用する代わりに、3 つの 3×3 畳み込み層を積み重ねることで、いくつかの制限を克服できます。

まず、これは 1 つの非線形関数ではなく 3 つの非線形関数を組み合わせることで、決定関数の識別力と代表性を高めます。 2 番目に、受容野は変更されないまま、パラメータの数が 81% 削減されます。さらに、小さな畳み込みカーネルの使用は正規化子の役割も果たし、さまざまな畳み込みカーネルの有効性を向上させます。

結果を生成するプロセスでは、モデルは pix2pix メソッドを使用します。 Pix2pix は、GAN アーキテクチャに基づくスタイル転送モデルです。これは、Zhu Junyan らが執筆した論文「Image-to-Image Translation with Conditional Adversarial Networks」から生まれました。この論文は CVPR 2017 で公開されて以来、多くのフレームワークに実装されています。

Pix2pix は、ペアになった画像データを使用して、ある画像から別の画像に変換する方法を学習し、リアルな画像を生成します。

pix2pix を使用して、さまざまなスタイルや目的の画像を変換します。

Pix2pix では、ジェネレーターはエンコーダー/デコーダーまたは U-Net アーキテクチャを採用しています。

2 つの Pix2pix ジェネレータ アーキテクチャ。

では、このプロジェクトはどのように活用すればよいのでしょうか?

使い方

このプロジェクトでは、著者は次のようなコンテンツを提供しています。

  • CKPT モデル ファイル:

https://cloudstor.aarnet.edu.au/plus/s/YHDWgez1g3RFc6o

  • VGG 重みファイル:

https://github.com/machrisaa/tensorflow-vgg

  • トレーニングデータ:

https://cloudstor.aarnet.edu.au/plus/s/VWZJaWfbla3kFch

使用中は、VGG 重みファイルとトレーニング データをダウンロードし、コードを実行環境にダウンロードして、autotest.sh ファイルを実行する必要があります。

効果

8800 ステップのトレーニング後、モデルは指定された画像に対して次の生成結果を提供します。

トレーニングデータがあまりないことを考慮すると、生成される画像の品質にはまだ改善の余地があります。さらに、モデルがいくつかの興味深い特徴も学習していることに気づくでしょう。たとえば、元の画像の右上隅には結婚証明書があり、生成された画像でもこの特徴が保持されています。

プロジェクト著者紹介

このプロジェクトの作者は、現在オーストラリアのアデレード大学で Shen Chunhua 教授の指導の下、コンピューターサイエンスの博士号を取得している非常に美しい若い女性です。

[[312335]]

劉一凡。

劉さんは北京航空航天大学のオートメーション科学と電気工学学院で学士課程と修士課程を修了し、2016年に北京市優秀卒業生に選ばれました。 2018 年 11 月に博士号取得のためにアデレード大学に入学する前、彼女は Microsoft Research Asia の上級研究員であり、2018 ACM 優秀会員である Jingdong Wang 教授の客員学生でした。

Liu 氏の主な研究対象は、画像セマンティックセグメンテーションを含むニューラルコンピューティングとパターン認識の分野です。学術研究面では、2017年から2019年にかけて、CVPR、ICCV、PAKDD、IEA/AIE、PACLINGなどの国際学術会議に第一著者または共著者として発表した論文が多数採択され、その中には口頭発表論文も含まれていました。

これは彼女の個人ホームページです: https://irfanicmll.github.io/

実際のテスト結果はどうですか?

プロジェクトの効果を試すために、プロジェクトの事前トレーニング済みの重み (8800 回の反復) と VGG16 の事前トレーニング済みの重みもダウンロードしました。データ セットが非常に小さいため、まずはプロジェクト内のデータで効果を試します。以下に示すように、プロジェクトのデータセット ディレクトリ内の画像をテストに使用します。左側には 2 セットの入力画像が表示され、右側には出力画像が表示されます。生成された結果から判断すると、性別に関係なく、常にもう一方の外見を生成でき、少し肌の滑らかさも実現されています。

肖像画だけあげたらどうですか?現在、モデルの生成ルールは、入力画像の左側の肖像画を出力するというもののようです。肖像画が 1 つだけ入力された場合、効果は悪くなる可能性があります。この考えを検証するために、上記の 2 枚の写真を 1 枚の肖像画に切り取り、モデルに入力しました。さすがに今は世代があまりよくないですね。以下に示すように、左側に 2 セットの入力サンプルがあり、右側に出力エフェクトがあります。

データがテスト データセットから取得されない場合はどうなりますか?デフォルトの入力ルールをカップル写真にして再度試してみました。データセットにないカップルのポートレートサンプルを入力し、モデルの生成効果を確認します。下の図のように、左側が入力画像、右側が出力結果ですが、生成された画像は認識しにくいです。カップルの画像はオンライン検索結果から取得されました。

確かに、既存のデータを使用して将来のオブジェクトの出現を予測するというアイデアは良いものですが、データの量が少なすぎるため、モデルの一般化能力はまだ必要なレベルに達していません。一般的に、独身者はパートナーの写真を生成するためにこれだけに頼ることはできません。

プロジェクト作者はまた、データの量が比較的少なく、効果はあまり良くないが、コードとデータをさらなるトレーニングに利用することは誰でも歓迎され、プロジェクトの進捗にもさらに注目していくと述べた。

<<:  機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

>>:  自動運転の知識 ポピュラーサイエンス 自動運転車の7つのコア技術

ブログ    
ブログ    

推薦する

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

[[344785]] 2020 年の夏、同僚の Laks Srinivasan と私は、RoAI ...

自動運転はどこまで徹底できるのか?運転席をなくすことさえできる。

Baiduの無人運転アプリケーションを見ました。私は車の所有者が自動で駐車するのを助けるアウディの...

顔認識はセキュリティの発展の障害になるのでしょうか?

現在、顔認識は人々の生活のあらゆる側面に組み込まれています。携帯電話のロック解除、顔をスワイプしての...

米メディア:人工知能の発展には5つの大きなトレンドが予想される

3月15日、アメリカの隔週刊ウェブサイト「フォーブス」は「2021年の人工知能:期待できる(または期...

...

Keras によるステートフル LSTM リカレント ニューラル ネットワークの理解

[[327815]]この記事を読むと、次のことがわかります。 1. シーケンス予測問題のための単純な...

「安佳」の人工知能版? 「AI仲介人」が近々登場?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

2021年に人工知能がビジネスをどう変えるのか

従来のビジネス慣行からスマートなアプリケーションベースの慣行へと技術が進歩する中、企業は2021年に...

...

ビッグデータ、クラウドコンピューティング、人工知能は密接に結びついている

今の時代、どんな製品の開発にも実は学習プロセスが必要です。人工知能技術が急速に進歩したのは、まさに各...

...

2020 年に役に立つ機械学習ツール

TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...

...

認知知能は魔法のようなもの:2021 年の主要なブレークスルーを振り返る

著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...