Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

今年初め、NVIDIA の研究エンジニアは、生成的敵対ネットワーク用のスタイルベースのジェネレーター アーキテクチャとして StyleGAN のソース コードをリリースしました。

たとえば、無数のリアルな顔を生成できます。

また、ロリからロイヤルシスターへの変身プロセスを見ることもできます。

強力ではありますが、あくまでも最初のバージョンなので、欠陥があるのは仕方ありません。現在、アップグレード版StyleGAN2が誕生しました。NVIDIAは最近、「StyleGANの画質の分析と改善」という最新の論文を発表しました。StyleGANの生成効果を分析し、不完全な作業に対する改善と最適化の方法を設計しました。どのようなアップグレードがあるのか​​見てみましょう。

1. 機能アーティファクトを排除する

上図に示すように、StyleGAN 画像には水滴に似たアーティファクトがあります。これらは生成時にはあまり目立ちませんが、この問題は常に存在しており、64×64 画像の生成時から存在しています。解像度が高くなるほど、水滴現象は深刻になります。この問題は StyleGAN2 ではもう発生しません。

Nvidia の研究者は StyleGAN アーキテクチャを再設計し、一般的なブロッビー アーティファクトの起源を研究し、ジェネレーターがアーキテクチャの設計上の欠陥を回避するためにそれらを生成していることを発見しました。 NVIDIA は、アーティファクトを除去するためにジェネレーターで使用される正規化を再設計しました。

上図に示すように、(a) は元の StyleGAN アーキテクチャ、(b) は元の StyleGAN アーキテクチャの詳細、(c) は元のアーキテクチャにいくつかの変更を加えたもの、(d) は変更されたアーキテクチャです。

改善後の効果は以下のとおりです。

前述のアーティファクトはなくなり、完全な制御性が維持されます。

2. 詳細生成の改善

StyleGAN で使用されている Progressive Growing トレーニング方法を見てみましょう。詳細は位置に対して強い好みを持っています。特徴が移動しても、位置は変化したりそれに応じて移動したりすることはできません。

StyleGAN 2の研究者が最適化しました。上の図に示すように、upとdownはそれぞれバイリニアアップサンプリングとダウンサンプリングを表しています。歯や目などの特徴が画像上をスムーズに移動すると、その部分が所定の位置に留まり、次に望ましい位置にジャンプすることがあります。下の図は関連するアーティファクトを示しています。生成された顔の特徴は同時に変化することがあります。

一般的に、StyleGAN 2 の改善点は次のとおりです。

生成された画像の品質が大幅に向上しました(FIDスコアが高く、アーティファクトが少ない)

歯や目などの細部をより完璧にする、段階的成長に代わる新しい方法が提案されている

スタイルミキシングの改善

より滑らかな補間(追加の正規化)

より速いトレーニング

力強い感じがしませんか?自分で体験してみませんか? 関連するアドレスは次のとおりです:

論文アドレス: https://arxiv.org/pdf/1912.04958.pdf

Githubアドレス: https://github.com/NVlabs/stylegan2

<<:  2020年AIセキュリティの「技術」と「トレンド」を理解する丨年末レビュー

>>:  人工知能の時代では、プログラマーは排除されるのでしょうか?

ブログ    
ブログ    

推薦する

中国情報通信研究院が2021年最初の「信頼できるAI成果」を発表、百度が5つの賞を受賞

[[416150]]グローバルな AI ガバナンスのコンセンサスを実装し、信頼できる AI テクノロ...

Intel がオープンソースの大規模スパースモデルトレーニング/予測エンジン DeepRec の構築を支援

DeepRec(PAI-TF)は、アリババグループの統合オープンソース推奨エンジン(https://...

アマゾン、AIが女性の求職者に低い評価を与えたため研究チームを解散に追い込まれる

[[246043]]アマゾンの機械学習チームは2014年以来、優秀な人材の求職活動をよりスマートにす...

...

ZTouch創設チーム:私たちの価値観を守り、新世代のグローバル企業のデジタルインテリジェンスパートナーになる

今日のデジタル時代では、顧客獲得の方法はよりシンプルになりましたが、さまざまなプラットフォームでの煩...

【文字列処理アルゴリズム】文字列包含アルゴリズムの設計とCコード実装

1. 要件の説明長い文字列と短い文字列が与えられた場合、短い文字列のすべての文字が長い文字列に含まれ...

...

人工知能が建築を変える3つの方法

人工知能の開発は、最も急速に成長している技術分野の 1 つです。 Apple、Google、Sams...

...

RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

今回、Google DeepMindは基本モデルに新たな動きを見せた。リカレント ニューラル ネット...

FacebookはVRキーボードを使ってデータを入力する方法を開発中

海外メディアの報道によると、仮想現実(VR)でオフィスワークを遂行するのは容易ではないという。本当に...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...

北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

1. 人工知能搭載のアイスクリームセルフサービス機が北京でデビューDairyXmas AI人工知能ア...