トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIを使ってトランプ大統領の顔を猫に変えたり、自分の顔を美しいオルセンと組み合わせたりしたいとしたら、どうしますか?

おそらく、2 つの AI ツールを思い浮かべるでしょう。しかし、Deepfake で生成された顔は不自然すぎる上、GAN で生成された偽の顔は深くカスタマイズすることが困難です。

現在、韓国のチームによって開発されたスタイル転送モデル StarGANv2 は、この問題を完璧に解決できます。

GANに以前から注目してきた学生であれば、2017年末に高麗大学とClova AI研究所が立ち上げたスタイル転送モデルであるStarGANを覚えているはずです。

顔写真を入力するだけで、StarGAN は髪型、性別、年齢を変更した後のあなたの姿を教えてくれます。

StarGANv2は同じ研究チームによってリリースされたアップグレード版であり、CVPR 2020に含まれています。最近、彼らは公式の実装コードを GitHub でリリースし、ネットユーザーによってすぐに試されました。

StarGANv2 には、人間の顔用と動物の顔用の 2 つのトレーニング データセットがあります。

もともとこの2つは「別々」だったが、一部の人々はこの2つを混ぜて、トランプ氏の顔を動物の顔の事前トレーニングモデルに入力することを主張した。その結果、猫に変わったトランプ氏の顔は次のようになります。

犬の顔と合成するとこうなります。モデルさんは犬にスーツまで着せています。

インストールと使用方法

このような興味深いモデルをインストールするにはどうすればいいでしょうか?幸いなことに、StarGANv2 開発チームは完全なコードと事前トレーニング済みのモデルを提供しました。

まず、プロジェクトをローカルにクローンします。

  1. git クローンhttps://github.com/clovaai/stargan-v2.git
  2. cd スターガン-v2/

依存関係をインストールします:

  1. conda create -n スターガン- v2 python = 3.6.7
  2. conda をアクティブ化 stargan-v2
  3. conda インストール -y pytorch= 1.4 . 0 torchvision= 0.5 . 0 cudatoolkit= 10.0 -c pytorch
  4. conda インストール x264==' 1 ! 152.20180717 ' ffmpeg= 4.0 . 2 -c conda-forge
  5. pip で opencv-python== 4.1 . 2.30 ffmpeg-python== 0.2 . 0 scikit-image== 0.16 . 2 をインストールします
  6. pip インストール pillow== 7.0 . 0 scipy== 1.2 . 1 tqdm== 4.43 . 0 munch== 2.5 . 0

次に、事前トレーニング済みのデータセットをダウンロードします。最初の 2 つは顔データセットと事前トレーニング済みのモデルで、後者は動物の顔です。

  1. bash download.sh 事前トレーニング済みネットワーク-celeba-hq
  2. bash ダウンロード.sh ウィング
  3. bash ダウンロード.sh 事前トレーニング済みネットワーク-afhq

最後に、変換する写真をデータセット内の画像と同じアスペクト比にトリミングし、次のコマンドを入力して画像を変換します。

  1. python main.py --mode サンプル --num_domains 2 --resume_iter 100000 --w_hpf 1 \
  2. --checkpoint_dir expr/checkpoints/celeba_hq \
  3. --result_dir expr/results/celeba_hq \
  4. —src_dir 資産/代表者/celeba_hq/src \
  5. --ref_dir 資産/代表者/celeba_hq/ref

その効果は他のGANよりもはるかに優れている

StarGANv2 は 4 つのモジュールで構成されています。

  1. ジェネレーターは、入力画像を特定のドメインのスタイル エンコーディングを反映した出力画像に変換します。
  2. マッピング ネットワークは、潜在コードをトレーニング中にランダムに選択された複数のドメインのスタイル エンコーディングに変換します。
  3. スタイル エンコーダーは画像のスタイル エンコーディングを抽出し、ジェネレーターが参照ガイド付き画像合成を実行できるようにします。
  4. 識別器は、複数のドメインから本物の画像と偽の画像を区別します。

著者はスタイル転送実験のためにランダムに 10 枚の画像を選択しましたが、結果として得られた FID は他の同様のモデルよりもはるかに小さくなりました。

また、4 つのモデルによって生成された画像を A​​MT プラットフォームにアップロードして手動で選択しました。テスターの大多数は、StarGANv2 によって生成された画像の方が高品質であると考えました。

手動選択の結果からも、StarGANv2 は動物の顔を生成するのに優れていることがわかります。ネットユーザーがトランプ氏のアバターを動物モデルで作り変えたいと思うのも不思議ではありません。

ポータル

論文アドレス: https://arxiv.org/abs/1912.01865v2

公式実装コード: https://github.com/clovaai/stargan-v2

<<:  安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

>>:  モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

ブログ    
ブログ    

推薦する

開発速度が20倍にアップしました! GPT Pilot スター プロジェクトが Github のホット リストに掲載され、AI をゼロから構築

新たなスタープロジェクトが誕生! AI 開発者コンパニオンである GPT Pilot を使用すると、...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...

...

...

人工知能は偏見の岐路に立っている

企業がより多くの機械学習や人工知能モデルを本番環境に導入するにつれて、システム内の偏りに対する認識が...

AIの活用を拡大するには? 人工知能には「1%の問題」がある

人工知能(AI)については多くの報道や解説がなされてきました。奇跡を起こすことができると言う人もいれ...

AutoXの完全無人タクシーが試験運用のため正式に一般公開

1月28日、深センの大手自動運転企業AutoXは自動運転の新たな段階に入り、平山区に中国初の完全自動...

人工知能は将来どのように発展するのでしょうか?

20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...

自動化が医療にもたらす革命

長年にわたり、自動化はほぼすべての業界に浸透してきました。自動化は、工場の機械が組立ラインの生産を高...

なぜ巨人たちはドローンに群がるのか?

近年、我が国のドローン産業は急速な発展を遂げています。飛行制御、ナビゲーション、通信、センシングなど...

GenAI はデータ分析分野のどこに位置づけられるのでしょうか?

今日のビジネスにおける人工知能の多くの応用のうちの 1 つが予測分析です。データ セットを分析してパ...

インテリジェントロボットを活用してビジネス運営を強化する方法

インテリジェントロボットはビジネスの世界で大きな注目を集めています。スマートロボットの使用には、効率...

高校の授業に人工知能が進出。全国40校がこの教材を導入

人工知能が高校の教室に導入されつつあります。最近、我が国初の中学生向けAI教科書『人工知能の基礎(高...

...

3DES 暗号化アルゴリズムは S/MIME プロトコルに最適な選択肢でしょうか?

Q: S/MIME プロトコルでは 3DES 対称暗号化はどのように実装されていますか? A:実際...