この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 古い写真を細部まで復元できるGFPGANを覚えていますか? 現在、そのコードは正式にオープンソースになっています。 公式はGitHubに3つの学習済みモデルをアップロードしています。3つのバージョンの効果は以下のとおりです。 その中で、V1.3は最も最近に更新されたバージョンであり、修復効果はより自然です。同時に、低品質の入力でも高品質の結果を出力できます。 GFPGAN はリリース以来、GitHub で17,000 を超えるスターを獲得し、ホット リストのトップにもなりました。 Twitter 上では試用プレイの熱狂の波も巻き起こしました。 このプロジェクトはTencent PCG ARC Laboratoryによって提案され、関連論文がCVPR2021に掲載されました。 3つの事前トレーニング済みモデルから選択可能オープンソース コードは、主に事前トレーニングとトレーニングの 2 つの部分に分かれています。 事前トレーニングでは、GFPGAN の V1.3 バージョンを例として取り上げ、事前トレーニング済みモデルのダウンロード アドレスを示します。 wget https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth -P Experiments/pretrained_models 次に、たった 1 行のコードで事前トレーニング済みモデルの推論を開始できます。 python inference_gfpgan.py - i 入力/ whole_imgs - o 結果- v 1.3 - s 2 詳細は以下の通りです。 使用方法: python inference_gfpgan.py - i inputs / whole_imgs - o results - v 1.3 - s 2 [ options ] ここで、公式は 3 つの事前トレーニング済みモデル間の違いも示しています。 初期バージョンと比較すると、後者の 2 つのバージョンでは復元精度が大幅に向上しました。 V1.2ではシャープネスがより顕著になり、美容効果も加わったため、場合によっては不自然に見えてしまいます。 バージョン 1.3 ではこの問題は明らかに解決されており、出力がより自然になり、二次修復も可能になりました。ただし、欠点としては、顔の特徴が変わることがあることです (下の写真のアン・ハサウェイの例など)。 つまり、V1.3 は V1.2 よりも完全に優れているわけではなく、必要に応じて適切なモデルを選択できます。 次はトレーニングの部分です。 まず、選択されたデータセットは FFHQ です。 次に、ダウンロードした事前トレーニング済みモデルとその他のデータを experiments/pretrained_models フォルダーに配置します。 その他のデータは次のとおりです: 事前トレーニング済みの StyleGAN2 モデル、FFHQ 顔位置合わせモデル ファイル、ArcFace モデル。 次に、対応する構成ファイル options/train_gfpgan_v1.yml を変更します。 ここでは、顔の位置合わせオプションのないシンプルなバージョン (train_gfpgan_v1_simple.yml) を試すこともできます。 ついにトレーニングを開始できます。 python -m torch.distributed.launch --nproc_per_node = 4 --master_port = 22021 gfpgan /train.py -opt options /train_gfpgan_v1.yml --launcher pytorch また、 公式には2つの注意事項があります。 まず、より高品質な顔画像を入力することで、復元効果を高めることができます。 第二に、トレーニング中に美化などの画像の前処理が必要になる場合があります。 V1.2 バージョンをトレーニングすることを選択した場合、公式では微調整ガイドも提供されます。
デモオープンソースコードに加えて、公式は複数のオンライン試用チャネルも開設しました。 ここでは、HuggingFace を使用して具体的な効果を示します。 まずは修復されたモナ・リザを見てみましょう。顔のノイズが除去されただけでなく、髪に巻かれたスカーフまではっきりと見えます。 修復されたアインシュタインの顔のしわは笑うとより目立つようになり、髪の毛や無精ひげも修復された。 最後に、復元された若き日の馬化騰の写真を見てみましょう。写真はまるで昨日撮影されたかのように鮮明です。 盲目の顔の修復 + 大量の事前情報GFPGANは、主にブラインドフェイス修復を使用して、さまざまな顔画像を迅速かつ高解像度で修復できます。 (盲目の顔の修復)。 従来の顔の復元方法は、主に同じシーン内の特定の劣化した顔画像を復元することに重点を置いています。 たとえば、これまでの顔の復元方法では、オバマ氏の写真が白人の顔に復元されてしまうことがありました。これは、データセットの偏りに加えて、アルゴリズムが各顔の特徴をモデル化できなかったことが原因である可能性もあります。 ブラインド顔復元はこの問題を非常にうまく解決します。これは、点広がり関数が不明または不確実な場合に、復元する低品質の顔画像から鮮明で高品質のターゲット顔画像を復元するプロセスを指します。 これは本質的には非マッチング顔復元方法です。 しかし、これまでのブラインド顔復元法の中には細部の性能が十分でなかったものもあったため、著者は GFPGAN に豊富な事前情報を導入し、高品質の出力効果を確保しました。 具体的には、GFP-GAN モデル フレームワークでは、劣化除去モジュールと事前トレーニング済みの GAN が主に事前確率として使用されます。 2 つのモジュールは、潜在エンコーディング マッピングと複数のチャネル分割空間特徴変換レイヤー (CS-SFT) を介して接続されます。 トレーニングの過程では、まず低品質の顔に対してノイズ低減などの大まかな処理を施し、その後顔情報を保持する必要があります。 忠実度に関しては、研究者は顔の構成要素の損失を導入して、どの詳細を強調して保持する必要があるかを判断し、次にアイデンティティ保持損失を使用してそれらを修復しました。 チームについてこの論文の筆頭著者は、Tencent ARC Lab(深圳アプリケーション研究センター)の研究者である Xintao Wang 氏です。 彼は浙江大学で学士号を取得し、香港中文大学で博士号を取得しました。 博士課程では、Tang Xiaoou教授とChen Change Loy教授に師事しました。 彼の研究対象にはコンピュータービジョンとディープラーニングがあり、特に画像とビデオの復元に重点を置いています。 GitHub アドレス: https://github.com/TencentARC/GFPGAN 論文の宛先: https://arxiv.org/abs/2101.04061 トライアルアドレス: https://huggingface.co/spaces/akhaliq/GFPGAN |
<<: 日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア
>>: GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します
まず、全体的な技術システム構造の観点から見ると、ビッグデータは人工知能やブロックチェーン技術と密接に...
1. アトラスの概要まず、ナレッジグラフの基本的な概念をいくつか紹介します。 1. ナレッジグラフと...
[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...
少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...
[[427549]] Analytics Insight では、21 世紀においてインテリジェント...
[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...
1 高精度地図高精度地図HDMapは自動運転において愛憎入り混じった役割を果たしており、近年、業界の...
最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...
[[279905]]写真はインターネットから照明や音楽を Alexa や Siri などの音声制御テ...
現時点では、ほとんどの AI がある程度問題のある偏見に基づいて構築され、現在もそれを使用しているこ...
私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...