テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

古い写真を細部まで復元できるGFPGANを覚えていますか?

現在、そのコードは正式にオープンソースになっています。

公式はGitHubに3つの学習済みモデルをアップロードしています。3つのバージョンの効果は以下のとおりです。

その中で、V1.3は最も最近に更新されたバージョンであり、修復効果はより自然です。同時に、低品質の入力でも高品質の結果を出力できます。

GFPGAN はリリース以来、GitHub で17,000 を超えるスターを獲得し、ホット リストのトップにもなりました。

Twitter 上では試用プレイの熱狂の波も巻き起こしました。

このプロジェクトはTencent PCG ARC Laboratoryによって提案され、関連論文がCVPR2021に掲載されました。

3つの事前トレーニング済みモデルから選択可能

オープンソース コードは、主に事前トレーニングとトレーニングの 2 つの部分に分かれています。

事前トレーニングでは、GFPGAN の V1.3 バージョンを例として取り上げ、事前トレーニング済みモデルのダウンロード アドレスを示します。

 wget https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth -P Experiments/pretrained_models

次に、たった 1 行のコードで事前トレーニング済みモデルの推論を開始できます。

 python inference_gfpgan.py - i 入力/ whole_imgs - o 結果- v 1.3 - s 2

詳細は以下の通りです。

 使用方法: python inference_gfpgan.py - i inputs / whole_imgs - o results - v 1.3 - s 2 [ options ] ...

-h このヘルプを表示
-i input 入力画像またはフォルダ デフォルト: inputs / whole_imgs
-o output 出力フォルダ デフォルト: results
-v version GFPGAN モデルのバージョンオプション: 1 | 1.2 | 1.3デフォルト: 1.3
-s アップスケール画像最終的なアップサンプリングスケール デフォルト: 2
- bg_upsampler 背景アップサンプラーデフォルト: realesrgan
- bg_tile 背景サンプラータイルサイズテスト中にタイルがない場合は0 ですデフォルト: 400
-suffix 復元された接尾辞
-only_center_face 中心のみ復元します
- 整列入力整列です
-ext 画像拡張子オプション: auto | jpg | pngauto は入力同じ拡張子使用することを意味しますデフォルト: auto

ここで、公式は 3 つの事前トレーニング済みモデル間の違いも示しています。

初期バージョンと比較すると、後者の 2 つのバージョンでは復元精度が大幅に向上しました。

V1.2ではシャープネスがより顕著になり、美容効果も加わったため、場合によっては不自然に見えてしまいます。

バージョン 1.3 ではこの問題は明らかに解決されており、出力がより自然になり、二次修復も可能になりました。ただし、欠点としては、顔の特徴が変わることがあることです (下の写真のアン・ハサウェイの例など)。

つまり、V1.3 は V1.2 よりも完全に優れているわけではなく、必要に応じて適切なモデルを選択できます。

次はトレーニングの部分です。

まず、選択されたデータセットは FFHQ です。

次に、ダウンロードした事前トレーニング済みモデルとその他のデータを experiments/pretrained_models フォルダーに配置します。

その他のデータは次のとおりです:

事前トレーニング済みの StyleGAN2 モデル、FFHQ 顔位置合わせモデル ファイル、ArcFace モデル。

次に、対応する構成ファイル options/train_gfpgan_v1.yml を変更します。

ここでは、顔の位置合わせオプションのないシンプルなバージョン (train_gfpgan_v1_simple.yml) を試すこともできます。

ついにトレーニングを開始できます。

 python -m torch.distributed.launch --nproc_per_node = 4 --master_port = 22021 gfpgan /train.py -opt options /train_gfpgan_v1.yml --launcher pytorch また 公式には2つ注意事項があります

まず、より高品質な顔画像を入力することで、復元効果を高めることができます。

第二に、トレーニング中に美化などの画像の前処理が必要になる場合があります。

V1.2 バージョンをトレーニングすることを選択した場合、公式では微調整ガイドも提供されます。

GFPGAN V1.2 は、導入が容易なクリーンなアーキテクチャを使用しています。これは双線形モデルから変換されたものなので、変換前に元のモデルを微調整する必要があります。

デモ

オープンソースコードに加えて、公式は複数のオンライン試用チャネルも開設しました。

ここでは、HuggingFace を使用して具体的な効果を示します。

まずは修復されたモナ・リザを見てみましょう。顔のノイズが除去されただけでなく、髪に巻かれたスカーフまではっきりと見えます。

修復されたアインシュタインの顔のしわは笑うとより目立つようになり、髪の毛や無精ひげも修復された。

最後に、復元された若き日の馬化騰の写真を見てみましょう。写真はまるで昨日撮影されたかのように鮮明です。

盲目の顔の修復 + 大量の事前情報

GFPGANは、主にブラインドフェイス修復を使用して、さまざまな顔画像を迅速かつ高解像度で修復できます。   (盲目の顔の修復)。

従来の顔の復元方法は、主に同じシーン内の特定の劣化した顔画像を復元することに重点を置いています。

たとえば、これまでの顔の復元方法では、オバマ氏の写真が白人の顔に復元されてしまうことがありました。これは、データセットの偏りに加えて、アルゴリズムが各顔の特徴をモデル化できなかったことが原因である可能性もあります。

ブラインド顔復元はこの問題を非常にうまく解決します。これは、点広がり関数が不明または不確実な場合に、復元する低品質の顔画像から鮮明で高品質のターゲット顔画像を復元するプロセスを指します。

これは本質的には非マッチング顔復元方法です。

しかし、これまでのブラインド顔復元法の中には細部の性能が十分でなかったものもあったため、著者は GFPGAN に豊富な事前情報を導入し、高品質の出力効果を確保しました。

具体的には、GFP-GAN モデル フレームワークでは、劣化除去モジュールと事前トレーニング済みの GAN が主に事前確率として使用されます。

2 つのモジュールは、潜在エンコーディング マッピングと複数のチャネル分割空間特徴変換レイヤー (CS-SFT) を介して接続されます。

トレーニングの過程では、まず低品質の顔に対してノイズ低減などの大まかな処理を施し、その後顔情報を保持する必要があります。

忠実度に関しては、研究者は顔の構成要素の損失を導入して、どの詳細を強調して保持する必要があるかを判断し、次にアイデンティティ保持損失を使用してそれらを修復しました。

チームについて

この論文の筆頭著者は、Tencent ARC Lab(深圳アプリケーション研究センター)の研究者である Xintao Wang 氏です。

彼は浙江大学で学士号を取得し、香港中文大学で博士号を取得しました。

博士課程では、Tang Xiaoou教授とChen Change Loy教授に師事しました。

彼の研究対象にはコンピュータービジョンとディープラーニングがあり、特に画像とビデオの復元に重点を置いています。

GitHub アドレス:

https://github.com/TencentARC/GFPGAN

論文の宛先:

https://arxiv.org/abs/2101.04061

トライアルアドレス:

https://huggingface.co/spaces/akhaliq/GFPGAN

<<:  日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

>>:  GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

ブログ    
ブログ    

推薦する

人工知能やブロックチェーンはビッグデータの範疇に入るのでしょうか?

まず、全体的な技術システム構造の観点から見ると、ビッグデータは人工知能やブロックチェーン技術と密接に...

賈強淮: Ant大規模知識グラフの構築とその応用

1. アトラスの概要まず、ナレッジグラフの基本的な概念をいくつか紹介します。 1. ナレッジグラフと...

...

...

人工知能は教育にどのような変化をもたらすのでしょうか?

[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...

673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...

21 世紀においてインテリジェント オートメーションは誇張されすぎているのでしょうか?

[[427549]] Analytics Insight では、21 世紀においてインテリジェント...

Googleの上級研究員が解雇される:論文論争の裏側

[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...

自動運転マップ構築モデルを1つの記事で理解する

1 高精度地図高精度地図HDMapは自動運転において愛憎入り混じった役割を果たしており、近年、業界の...

2018年中国人工知能都市ランキングトップ15

最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...

...

AIが認知症患者の自立した生活にどのように役立つか

[[279905]]写真はインターネットから照明や音楽を Alexa や Siri などの音声制御テ...

NIST: AIの偏りはデータだけにとどまらない

現時点では、ほとんどの AI がある程度問題のある偏見に基づいて構築され、現在もそれを使用しているこ...

CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...

...