このAIはマスクをハゲにし、テスラの設計を手伝った

このAIはマスクをハゲにし、テスラの設計を手伝った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

若い頃のマスク氏が女性の服を着たときの姿はこんな感じです。

なんて可愛い女の子なんだろう〜

しかし、ひげを加えると、すぐに別の「味」が生まれます。

数年後にマスク氏が禿げ頭になったらどんな姿になるかも見ることができます。 (手動犬頭)

まあ、マスク氏は依然としてマスク氏であり、依然として「地球上で最も裕福な新人」だ。

これは、指定された条件に従って顔を生成できる StyleGAN2 - StyleFlowをベースにした新しいテクノロジーを使用して実現されます。

女性の服を着替える、ハゲになる、ヒゲを描くなどの上記機能に加え、姿勢を変える、照明を調整する、表情を変えるなどのエフェクトも統合されており、車内でも使用できます。

条件に基づいて顔を生成する

1 つの属性条件を編集すると、GAN 潜在空間内での相互作用により、他の属性に不要な変更が簡単に発生する可能性があることがわかっています。この背景に基づいて、本論文では StyleFlow を提案します。

具体的には、属性条件付きサンプリングと属性制御編集という 2 つの側面を検討します。

まず、属性条件付きサンプリングを行います。特定の特性を持つ高品質の実画像をサンプリングします。

次に、プロパティは編集を制御します。特定の画像は、ソース画像の特性を最大限に保持しながら、編集後の画像がターゲット プロパティを持つように編集されます。

StyleFlow によって推測されるパスは入力画像に基づいているため、各顔の独自性に適応できます。

まず、ソース イメージから始まる逆方向推論を使用し、次に一連の CNF ブロックを通じて順方向推論を実行して、属性条件編集をサポートします。

図中、zは事前分布の変数を表し、wはStyleGANの中間重みベクトルを表します。

また、後方および前方推論は、時間変数の CNF 関数を評価する ODE ソルバーによって実装されることにも注意してください。

その中で、属性ベクトルは条件学習機能の鍵となり、順方向推論と逆方向推論の両方に使用できます。

次に、StyleFlow の属性条件付きサンプリングを使用して、Z0 を再サンプリングして属性を定義します。

最後に、StyleGAN の顔と車の潜在空間を使用してアプローチを評価し、実際の写真と StyleGAN で生成された画像の両方で、さまざまな属性に沿った編集のきめ細かい分離を示します。

たとえば、人間の顔の場合、カメラのポーズ、照明の変化、表情、顔の毛、性別、年齢はさまざまでした。

1対多のバッチ操作も可能です。

[[375383]]

最後に、研究者らは、多数の定性的および定量的比較、ならびに既存の技術との比較を通じて、StyleFlow の優位性を実証しました。

その背後にいるチーム

この技術はキング・アブドラ科学技術大学(KAUST)とAdobeが共同で開発し、第一著者はKAUSTのRameen Abdal氏です。

R&D チームにはもう 1 人の中国人がいます。Zhu Peihaoです。

[[375384]]

彼はノースイースタン大学でオートメーションの学士号を取得し、その後中国科学院大学に進学してコンピューターサイエンスを学びました。

修士号を取得した後、彼はキング・アブドラ科学技術大学のコンピュテーショナル・ビジョン・センターに入学し、博士号を取得しました。

顔を生成するだけでなく、車も作れるのでしょうか?

最後に、この技術が「クルマづくり」に及ぼす影響についてお話ししますね〜

色を変更します。

任意の角度に回転します。

普通の車が数秒でSUVに変身します〜

これらのデモにはテスラ効果はありませんが、それでも私は尋ねなければなりません:

それで、マスク氏は興味があるのでしょうか? (手動犬頭)

GitHub:
https://github.com/RameenAbdal/StyleFlow
デモビデオ:
https://www.youtube.com/watch?v=LRAUJUn3EqQ&feature=youtu.be
論文の宛先:
出典: http://arxiv.org/pdf/2008.02401.pdf
プロジェクトアドレス:
https://rameenabdal.github.io/StyleFlow/

<<:  AIを使って人間の子どもを「飼い慣らす」: ハードコアな子育ての楽しさを発見した父親

>>:  強化学習と3Dビジョンを組み合わせた新たなブレークスルー:高性能オンラインパレタイジングロボット

ブログ    

推薦する

それでおしまい? Gptsのプロンプト単語をランダムにクロールします

11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...

...

AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始

[[276827]]今日、インターネット サービスは根本的な変化を遂げており、徐々にインテリジェント...

...

AIの安全性:中国のAIに100本の毒

人間がAIを見つめると、AIも人間を見つめる。大規模 AI モデルの大規模な応用と進化において、ネッ...

AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

ビッグデータ時代の到来は、ビッグデータの波だけでなく、人工知能の台頭ももたらします。グーグルの人工知...

...

トロント大学のデュヴノーチームは確率微分方程式を組み合わせて、無限深ベイズニューラルネットワークを提案した。

[[433557]]ニューラル ネットワークの制限を無限の数の残差層の組み合わせとして見ると、その...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

人工知能と機械学習はエンタープライズアーキテクチャの一部となっている

これはおそらく、世界的なCOVID-19パンデミックによるものか、あるいはコンピューティング能力の継...

フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。

[[412771]]それは正しい!またフェイフェイ・リーだよ!フェイフェイ・リーについて最後に報道...

自然言語処理: エンタープライズ AI の新たなフロンティア

単純なスペルミスや単語の誤用によって会話ボットの応答が変わってしまう可能性がありますが、人間のエージ...

BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機...

2018年のAIトレンドはこちら

ビッグデータの計算分析は決して時代遅れではありません。それどころか、データ量が増え続けるにつれて、デ...