トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIを使ってトランプ大統領の顔を猫に変えたり、自分の顔を美しいオルセンと組み合わせたりしたいとしたら、どうしますか?

おそらく、2 つの AI ツールを思い浮かべるでしょう。しかし、Deepfake で生成された顔は不自然すぎる上、GAN で生成された偽の顔は深くカスタマイズすることが困難です。

現在、韓国のチームによって開発されたスタイル転送モデル StarGANv2 は、この問題を完璧に解決できます。

GANに以前から注目してきた学生であれば、2017年末に高麗大学とClova AI研究所が立ち上げたスタイル転送モデルであるStarGANを覚えているはずです。

顔写真を入力するだけで、StarGAN は髪型、性別、年齢を変更した後のあなたの姿を教えてくれます。

StarGANv2は同じ研究チームによってリリースされたアップグレード版であり、CVPR 2020に含まれています。最近、彼らは公式の実装コードを GitHub でリリースし、ネットユーザーによってすぐに試されました。

StarGANv2 には、人間の顔用と動物の顔用の 2 つのトレーニング データセットがあります。

もともとこの2つは「別々」だったが、一部の人々はこの2つを混ぜて、トランプ氏の顔を動物の顔の事前トレーニングモデルに入力することを主張した。その結果、猫に変わったトランプ氏の顔は次のようになります。

犬の顔と合成するとこうなります。モデルさんは犬にスーツまで着せています。

インストールと使用方法

このような興味深いモデルをインストールするにはどうすればいいでしょうか?幸いなことに、StarGANv2 開発チームは完全なコードと事前トレーニング済みのモデルを提供しました。

まず、プロジェクトをローカルにクローンします。

  1. git クローンhttps://github.com/clovaai/stargan-v2.git
  2. cd スターガン-v2/

依存関係をインストールします:

  1. conda create -n スターガン- v2 python = 3.6.7
  2. conda をアクティブ化 stargan-v2
  3. conda インストール -y pytorch= 1.4 . 0 torchvision= 0.5 . 0 cudatoolkit= 10.0 -c pytorch
  4. conda インストール x264==' 1 ! 152.20180717 ' ffmpeg= 4.0 . 2 -c conda-forge
  5. pip で opencv-python== 4.1 . 2.30 ffmpeg-python== 0.2 . 0 scikit-image== 0.16 . 2 をインストールします
  6. pip インストール pillow== 7.0 . 0 scipy== 1.2 . 1 tqdm== 4.43 . 0 munch== 2.5 . 0

次に、事前トレーニング済みのデータセットをダウンロードします。最初の 2 つは顔データセットと事前トレーニング済みのモデルで、後者は動物の顔です。

  1. bash download.sh 事前トレーニング済みネットワーク-celeba-hq
  2. bash ダウンロード.sh ウィング
  3. bash ダウンロード.sh 事前トレーニング済みネットワーク-afhq

最後に、変換する写真をデータセット内の画像と同じアスペクト比にトリミングし、次のコマンドを入力して画像を変換します。

  1. python main.py --mode サンプル --num_domains 2 --resume_iter 100000 --w_hpf 1 \
  2. --checkpoint_dir expr/checkpoints/celeba_hq \
  3. --result_dir expr/results/celeba_hq \
  4. —src_dir 資産/代表者/celeba_hq/src \
  5. --ref_dir 資産/代表者/celeba_hq/ref

その効果は他のGANよりもはるかに優れている

StarGANv2 は 4 つのモジュールで構成されています。

  1. ジェネレーターは、入力画像を特定のドメインのスタイル エンコーディングを反映した出力画像に変換します。
  2. マッピング ネットワークは、潜在コードをトレーニング中にランダムに選択された複数のドメインのスタイル エンコーディングに変換します。
  3. スタイル エンコーダーは画像のスタイル エンコーディングを抽出し、ジェネレーターが参照ガイド付き画像合成を実行できるようにします。
  4. 識別器は、複数のドメインから本物の画像と偽の画像を区別します。

著者はスタイル転送実験のためにランダムに 10 枚の画像を選択しましたが、結果として得られた FID は他の同様のモデルよりもはるかに小さくなりました。

また、4 つのモデルによって生成された画像を A​​MT プラットフォームにアップロードして手動で選択しました。テスターの大多数は、StarGANv2 によって生成された画像の方が高品質であると考えました。

手動選択の結果からも、StarGANv2 は動物の顔を生成するのに優れていることがわかります。ネットユーザーがトランプ氏のアバターを動物モデルで作り変えたいと思うのも不思議ではありません。

ポータル

論文アドレス: https://arxiv.org/abs/1912.01865v2

公式実装コード: https://github.com/clovaai/stargan-v2

<<:  安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

>>:  モンローとドラゴンマザーがあなたと話すことを学びましょう。静止画とビデオだけです

ブログ    
ブログ    
ブログ    

推薦する

人工知能プラットフォームソリューションにおける品質エンジニアリング設計

翻訳者 | 朱 仙中校正:孫淑娟導入私たちは人工知能の黄金時代にいます。 AI ソリューションを導入...

私たちは皆、AIについて間違っていました! MIT教授が批判:データへの過度の焦点

ルイス・ペレス・ブレバは、マサチューセッツ工科大学 (MIT) の教授であり、MIT エンジニアリン...

電力管理における人工知能の重要性

私たちの生活のあらゆる側面がテクノロジーと絡み合っている時代において、電力業界も例外ではありません。...

...

...

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

Frontier Insights の今号では、ドローンが商品を配送する際に進路を見つけやすくする...

150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...

エッジインテリジェンス: AIの次の波

人工知能と機械学習 (ML) の採用が増加するにつれて、計算目的でアルゴリズムの形で大量のデータを処...

Bengio が参加、LeCun が気に入る: グラフ ニューラル ネットワークの権威あるベンチマークがオープンソースに

[[317692]]グラフニューラルネットワークはどの程度発展しましたか?現在、評価専用のベンチマー...

自動運転車はどれくらい遠いのでしょうか?

現在、5Gや人工知能産業が活況を呈しており、さまざまな大手企業が利益を最大化するために「応用シナリオ...

必要なのはソースコードだけです! 7Bコードの小型モデルは同サイズでは無敵で、その性能はChatGPTやGoogle Geminiに匹敵する

「GitHub Copilot のようなコード補完ツールは、100 万人以上の開発者に使用されており...

WOTカンファレンスは11月に深センで開催されます!テクノロジー界の「トップグループチャット」をお見逃しなく

数日前に話題になった「中国ビッグモデル「トップストリームグループチャット」ノート」を見た人は多いはず...

インテリジェント時代の到来により、インテリジェントロボットが私たちの仕事と収入を奪ってしまうのでしょうか?

インテリジェント社会の到来とともに、インテリジェントロボットは私たちの生活や仕事にますます多く登場す...

バイリアン・スマートが2021 NIDIアジェンダ中国新小売・デジタルイノベーションサミットに出席

6月22日、2021NIDIアジェンダ中国新小売・デジタルイノベーションサミットが上海で盛大に開催さ...

AI合成音声の潜在的な用途は何ですか?

AI Voice はディープラーニングを使用して、実際の人間の音声のピッチ、トーン、リズムをより正...