デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。

Zhihuで「低解像度」「画質が悪い」と検索すると、「解像度が低い写真を改善する方法」「画質が悪い写真を保存する方法」などの質問が多数表示されます。

では、モザイクレベルの画像を数秒で高解像度に変換するとどうなるのでしょうか?デューク大学の研究者は AI アルゴリズムを使用して、次のことを伝えます。

GitHub リンク: https://github.com/adamian98/pulse

前例のない「モザイク」が瞬時に高画質化

デューク大学の研究者は、PULSE(Photo Upsampling via Latent Space Exploration)と呼ばれる AI アルゴリズムを提案しました。

このアルゴリズムは、ぼやけて認識できない顔の画像を、これまでよりも細かくリアルなディテールを持つコンピューター生成画像に変換できます。

入力された低解像度画像に基づいて、システムは一連の高解像度画像を生成します。

前の方法を使用してぼやけた「ヘッドショット」を鮮明にする場合、写真を元の解像度の 8 倍までしか拡大できません。

しかし、デューク大学のチームは、わずか数秒で16×16ピクセルの低解像度(LR)画像を64倍の1024×1024ピクセルの高解像度(HR)画像に拡大できる新しい方法を提案しました。

同社のAIツールは、本来存在しない特徴を「想像」することができる。毛穴、小じわ、まつ毛、髪の毛、無精ひげなど、元のLR写真では見えない細部も、同社のアルゴリズムで処理するとはっきりと見えるようになる。

具体的な例を見てみましょう。

左の画像は元の低解像度画像、右の画像はシステムによって作成された高解像度画像です。

「これほど少ないピクセル数でこれほど詳細な超解像度画像を作成することはこれまで不可能だった」と、チームを率いたデューク大学のコンピューター科学者シンシア・ルーディン氏は語った。

実際の応用に関しては、論文の共著者であるサチット・メノン氏は次のように述べている。「これらの研究では、顔を概念実証としてのみ使用しました。

しかし、理論的には、この技術は汎用性があり、医学や顕微鏡から天文学や衛星画像まで、さまざまな分野で画像品質の向上に使用できる可能性がある。 「

従来の業務を打破して最高の結果を達成する

低精細を高精細に変換する同様の手法はこれまでも数多くありましたが、64倍という画素拡大レベルを実現したのは業界でも初めてです。

従来の方法: ピクセルマッチング、バグが発生しやすい

このような問題に対処する場合、従来の方法では通常、LR 画像を取得して、必要な追加ピクセル数を「推測」し、以前に処理された HR 画像内の対応するピクセルを LR 画像に一致させようとします。

単純にピクセルを一致させた結果、髪の毛や肌の質感などの領域にピクセルの不一致が生じます。

さらに、この方法では、HR 画像の光感度などの知覚的詳細も無視されます。そのため、最終的には滑らかさと感度に問題が発生し、結果は依然としてぼやけて見えたり、非現実的に見えたりします。

これまでの方法の中には奇妙な結果をもたらすものもありました。

新しい手法:低解像度画像の「リンク」

デューク大学のチームが提案した新しい方法は、新たなアイデアを開拓したと言える。

PULSE システムは、LR 画像を取得した後、新しい詳細をゆっくりと追加するのではなく、AI によって生成された HR 画像を反復処理し、これらの HR 画像に対応する LR 画像を元の画像と比較し、最も近い画像を見つけます。

たとえて言うと、LR 画像で「点をつなぐ」ゲームを行い、最も類似した LR バージョンを見つけて、逆方向に作業するのと同じです。この LR 画像に対応する HR 画像が最終的な出力結果です。

オリジナルのLR画像(上)、PULSEによるHR画像出力(中央)

HR画像に対応するLR画像(下)

研究チームは、同じ写真のデータセットでトレーニングされた、ジェネレーターとディスクリミネーターの 2 つのニューラル ネットワークで構成される生成的敵対的ネットワーク (GAN) を使用しました。

ジェネレーターはトレーニングされた顔をシミュレートして AI が作成した顔を提供し、一方、識別器はその出力を受け取り、偽物と間違われるほどリアルかどうかを判断します。

経験を積むにつれて、ジェネレーターはどんどん良くなり、最終的には識別器が違いを判別できなくなります。

実験には実際の画像がいくつか使用され、効果の比較が下の図に示されています。

上段が実画像、中段が実画像をダウンサンプリングして得られたLR画像です。

下の行は、LR 画像に基づいて PULSE によって生成された HR 画像を示しています。

生成された高解像度画像はまだ元の画像と若干のギャップがありますが、以前の方法よりもはるかに鮮明です。

評価: 他の方法より優れており、実際の写真に近いスコアを獲得

研究チームは、有名な高解像度の顔データセット CelebA HQ でアルゴリズムを評価し、64 倍、32 倍、8 倍のスケーリング係数で実験を実行しました。

研究者らは 40 人に、PULSE と他の 5 つのスケーリング方法で生成された 1,440 枚の画像を 1 から 5 のスケールで評価するよう依頼しました。その結果、PULSE が最も優れたパフォーマンスを発揮し、実際の高品質の写真とほぼ同等のスコアを獲得しました。

HR は実際の高解像度ポートレート データセットであり、そのスコアは PULSE よりわずか 0.14 高いだけです。

チームメンバーは、PULSE は、元の画像が目や口を認識できない場合でも、ノイズの多い低品質の入力からリアルな画像を作成できると述べています。これは他の方法では実現できないことです。

他の方法と比較して、PULSE はよりリアルに詳細を処理できます。

しかし、研究者らは、このシステムはまだ本人確認には利用できないと述べている。「防犯カメラで撮影されたピントが合っていない、認識できない写真を、実際の人物の鮮明な画像に変えることはできない。存在しないが本物のように見える新しい顔を生成することしかできない。」

具体的な応用シーンとしては、上記以外にも、将来的には医療や天文学の分野でも活用される可能性があり、一般の人々にとって、このブラックテクノロジーがあれば、N年前に撮影された古い写真を高解像度にすることができる。これは編集者にとって素晴らしいニュースです。高解像度のイラストを探す手間が省けるからです。

<<:  コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

>>:  セキュリティとインテリジェンス: 銀行における IoT の導入と応用

推薦する

面接前に必ず読むべきソートアルゴリズムトップ10

[[419332]]導入プログラマーとして、上位 10 のソート アルゴリズムは必須であり、すべて...

...

人工知能とコンピュータービジョンの違いは何ですか?

人工知能 (AI) アプリケーションは、テクノロジーとの関わり方を変え始めており、私たちの生活をより...

インテリジェントな音声対話サービスはますます良くなり、従順であることも芸術である

スマートスピーカー、スマートフォン、スマートブレスレット、スマートエアコンなどのデバイスを購入するこ...

「アルゴリズムとデータ構造」JavaScript のリンク リスト

[[378875]]この記事はWeChatの公開アカウント「Unorthodox Front-end...

Google X 中国博士がロボットシミュレーターSimGANをリリース、ICLR2021が出版

[[407004]]工学部の学生は、さまざまなシミュレーターから切り離すことはできません。シミュレー...

わかりやすい! 「高校数学」勾配降下法の数学的原理を理解する

「時期尚早な最適化は諸悪の根源である。」 —ドナルド・アーヴィン・クヌース、コンピュータ科学者、数...

...

5歳の子供がAIを圧倒、「遊ぶ」だけで十分か?

この能力がアルゴリズムによって習得された後、AlphaGo は人間のチェスの名人を破り、OpenAI...

ホーキング博士が亡くなりました。彼が残した5つの予言をぜひ読んでみてください

ガーディアン紙、BBC、スカイニュースチャンネルなど複数の外部情報源によると、英国の物理学者スティー...

ベクトルデータベースが生成AIを強化する方法

ベクトル データベースは、LLM と外部情報の間のブリッジとして機能し、生成 AI システムの基本機...

...

マスク氏の元従業員が「宇宙工場」を建設し、スペースXのロケットで打ち上げられた新型コロナウイルス治療薬パクスロビドの製造を開始した。

人類が宇宙に建設した最初の工場がここにあります。しかも無人工場です!先週、この衛星はマスク氏のスペー...

...

...