HDに検閲済み!デューク大学が開発したAIが1秒でモザイクを復元

HDに検閲済み!デューク大学が開発したAIが1秒でモザイクを復元

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

ピクセルが足りない場合は、後の写真編集で補いますか?

Zhihuで低ピクセルの写真編集を検索すると、ヘルプ投稿が多すぎて、すべてを読み終えることができませんでした。また、PSテクニック、プラグインツール、さまざまな写真編集アプリに関するチュートリアルも多すぎて目が回ってしまうほどでした。重要な点は、効果がどうなるかまったくわからないことです。

しかし、デューク大学の研究チームは最近、低ピクセルの問題をすべて解決できるPULSEと呼ばれるAI写真編集技術を開発しました。画像の元の解像度を64倍に拡大できるとされており、どんなに画質の悪い画像でも数秒で高精細でリアルな画像に変えることができます。モザイク状の顔画像や毛穴、シワ、髪の毛までも鮮明に復元できます。

モザイクが数秒で高解像度の肖像画に変わる

PULSE は、潜在空間探索によって写真をサンプリングする新しい超解像度アルゴリズムです。従来の方法では最大 8 倍しか拡大できなかったのに対し、16 x 16 ピクセルの低解像度 (Low Resolution、LR) を 1024 x 1024 ピクセルの高解像度 (High Resolution、HR) に数秒で 64 倍に拡大できます。

まずは一例を見てみましょう。写真編集業界で最も加工が難しいとされるLRヘッドショットも、PULSEを使えばわずか数秒で高精細かつ繊細な画像に生まれ変わります。

さらに重要なのは、PULSE は顔の主要な特徴を特定し、より高い解像度で同様の詳細セットを生成できることです。写真に写っている肖像画はぼやけていますが、PULSE は眉毛、まつげ、髪の毛、顔の形などの顔の細部も「想像」して、高精細でリアルな肖像画を作成できます。

しかし、過度なぼかしによって生成されたポートレートは、単なる仮想の新しい顔であり、実際には存在しません。したがって、この技術は個人の識別には使用できません。たとえば、監視カメラで撮影されたピントが合っていない、認識できない画像は、PULSE を通じて実際のポートレートに復元することはできません。

「実在しない、本物のように見える新しい顔を生成できるほどの超高解像度の画像が生成されたことはこれまでなかった」とデューク大学のチームに所属するコンピューター科学者、シンシア・ルーディン氏は語った。

同時に、この研究で使用された技術は、医学、顕微鏡、天文学、衛星画像などの分野で広く活用できると付け加えた。また、研究チームは論文をプレプリントライブラリarVixに公開しており、IEEE国際コンピュータービジョンおよびパターン認識会議(CVPR 2020)にも掲載されています。

従来の写真編集を超えた「ロスカット」

LR 画像の場合、HR 解像度部分を LR 画像に一致させて超高解像度 (SR) を得るという従来の方法では、HR 画像の感度が低下したり、画像にムラができたり、画像が歪んだりすることがよくあります。

この研究では、デューク大学の研究チームが新たなアイデアを模索し、新しい超解像アルゴリズムPULSEを提案しました。LR画像をトラバースして詳細をゆっくりと追加するのではなく、HRに対応するLRを見つけて、「損失を減らす」ことでSR画像を取得します。

オリジナルLR(最初の行)、PULSE出力HR(真ん中の行)、HR対応LR(最後の行)

PULSE は生成的敵対的ネットワーク (GAN) を使用します。これは、名前が示すように、敵対的なゲームプレイを通じてターゲット トレーニングを実行するトレーニング モデルです。その主な構造には、ジェネレーターとディスクリミネーターが含まれます。同じ写真トレーニング セットで、1 つは受信した画像をトレーニングして出力することを担当し、もう 1 つは出力を受信して​​十分にリアルかどうかを確認することを担当します。

元の画像と比較した後のテスト結果は次のとおりです。

図中、1 行目は元の画像、2 行目は「損失を低減」して得られた HR に対応する LR、3 行目は PULSE によって得られた HR です。元の画像とはまだ若干の違いがありますが、復元度はすでに非常に高いことがわかります。

論文によると、SRにおけるPULSEの利点を検証するために、デューク大学の研究チームは4つの異なる画像スケーリング方法を使用して比較研究を実施した。この研究では、CelebA HQデータセットから1440枚の画像を使用し、LR顔画像、特に目、唇、髪などの詳細について、スケール係数x8およびx64で実験を実施しました。

PULSE は、特に X64 解像度で明らかな利点を示し、特に目や唇などの細部でぼやけたポートレートが完全に復元されます。これは他の方法ではほぼ不可能です。

また、テスト結果については、研究者らは知覚的超解像でよく使われるMOSテスト方法を使用し、5人の評価者に画像結果を1~5のスケールで採点してもらいました。その結果、HRソースの高解像度画像解像度は3.74点だったのに対し、PULSEは3.60点に達し、その差はわずか0.14で、実際の高品質画像のレベルにほぼ達したと言えます。

しかし、研究者たちはPULSEがまだ完璧ではないことを認めている。生成される高解像度の画像は、プロのオリジナル画像とは多少異なります。しかし、テクノロジーとツールが進歩するにつれて、このテクノロジーも少しずつ改善されていきます。

現在、研究チームは PULSE を Github オープンソース プラットフォームにリリースし、569 個のスターを獲得しています。写真編集に困っている友達はインストールして試してみてください〜(Githubアドレス:https://github.com/adamian98/pulse)

<<:  AIを使用するための実践的な方法論:次の5つのステップに従ってください

>>:  コンピュータービジョン技術によって変革が期待できる3つの業界

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人間の生理学的パラメータのモニタリング分野に焦点を当て、Pulse Geekはウェアラブルでこの分野に参入し、AIを活用して心臓の守護者となる

近年、人工知能技術は、医療、金融、小売、教育、その他のサブ産業を含む多くの垂直分野に応用されています...

人工知能がメディア業界に破壊的変化をもたらし、10の新たな雇用を生み出す

九寨溝マグニチュード7.0の地震、ロボット記者が25秒間で540語と写真4枚を執筆!人間記者、揺れて...

生成AIの可能性を活用してビジネスの成功を推進する

絶えず進化するデジタル環境において、「人工知能」(AI)という用語はもはや馴染みのない概念ではありま...

サム・アルトマンが2023年の年末総括を発表、17の大格言がネット全体に響き渡る!

2023年も終わりに近づいています。過去1年を振り返ると、ChatGPTの登場が世界的なAIブーム...

ステッカーでAIから見えなくなったら、AIにとんでもないバグが発生した

研究により、印刷されたステッカーだけで AI システムを「騙す」ことができ、検出システムが目の前にい...

自然言語処理(NLP)の歴史と方向性

自然言語処理の歴史は紆余曲折に満ちた物語です。それは無駄な研究から始まり、何年にもわたる実りある研究...

マイクロソフトはBing Chatを今後も無料のままにすると約束

近年、OpenAI、Microsoft、Google など多くの企業やスタートアップチームが独自のチ...

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...

機械に漢字の一画一画の謎を理解させるにはどうすればいいでしょうか?

[[227335]]背景インテリジェントな顧客サービスから機械翻訳、テキスト要約の生成からユーザー...

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?これは病院にとって学術的な問題ではありません。 2...

...

最近、ソラは子供たちの間でパニックを引き起こしています!

昨晩、娘がぼんやりしてリビングルームに立っていたので、私は彼女に尋ねました。「何をしているの?」彼女...

TensorRT が顔認識を高速化する方法

[[329844]]顔認識のリアルタイム パフォーマンスを向上させるために、私たちのチームは従来のニ...