デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。

Zhihuで「低解像度」「画質が悪い」と検索すると、「解像度が低い写真を改善する方法」「画質が悪い写真を保存する方法」などの質問が多数表示されます。

では、モザイクレベルの画像を数秒で高解像度に変換するとどうなるのでしょうか?デューク大学の研究者は AI アルゴリズムを使用して、次のことを伝えます。

GitHub リンク: https://github.com/adamian98/pulse

前例のない「モザイク」が瞬時に高画質化

デューク大学の研究者は、PULSE（Photo Upsampling via Latent Space Exploration）と呼ばれる AI アルゴリズムを提案しました。

このアルゴリズムは、ぼやけて認識できない顔の画像を、これまでよりも細かくリアルなディテールを持つコンピューター生成画像に変換できます。

入力された低解像度画像に基づいて、システムは一連の高解像度画像を生成します。

前の方法を使用してぼやけた「ヘッドショット」を鮮明にする場合、写真を元の解像度の 8 倍までしか拡大できません。

しかし、デューク大学のチームは、わずか数秒で16×16ピクセルの低解像度（LR）画像を64倍の1024×1024ピクセルの高解像度（HR）画像に拡大できる新しい方法を提案しました。

同社のAIツールは、本来存在しない特徴を「想像」することができる。毛穴、小じわ、まつ毛、髪の毛、無精ひげなど、元のLR写真では見えない細部も、同社のアルゴリズムで処理するとはっきりと見えるようになる。

具体的な例を見てみましょう。

左の画像は元の低解像度画像、右の画像はシステムによって作成された高解像度画像です。

「これほど少ないピクセル数でこれほど詳細な超解像度画像を作成することはこれまで不可能だった」と、チームを率いたデューク大学のコンピューター科学者シンシア・ルーディン氏は語った。

実際の応用に関しては、論文の共著者であるサチット・メノン氏は次のように述べている。「これらの研究では、顔を概念実証としてのみ使用しました。

しかし、理論的には、この技術は汎用性があり、医学や顕微鏡から天文学や衛星画像まで、さまざまな分野で画像品質の向上に使用できる可能性がある。「

従来の業務を打破して最高の結果を達成する

低精細を高精細に変換する同様の手法はこれまでも数多くありましたが、64倍という画素拡大レベルを実現したのは業界でも初めてです。

従来の方法: ピクセルマッチング、バグが発生しやすい

このような問題に対処する場合、従来の方法では通常、LR 画像を取得して、必要な追加ピクセル数を「推測」し、以前に処理された HR 画像内の対応するピクセルを LR 画像に一致させようとします。

単純にピクセルを一致させた結果、髪の毛や肌の質感などの領域にピクセルの不一致が生じます。

さらに、この方法では、HR 画像の光感度などの知覚的詳細も無視されます。そのため、最終的には滑らかさと感度に問題が発生し、結果は依然としてぼやけて見えたり、非現実的に見えたりします。

これまでの方法の中には奇妙な結果をもたらすものもありました。

新しい手法：低解像度画像の「リンク」

デューク大学のチームが提案した新しい方法は、新たなアイデアを開拓したと言える。

PULSE システムは、LR 画像を取得した後、新しい詳細をゆっくりと追加するのではなく、AI によって生成された HR 画像を反復処理し、これらの HR 画像に対応する LR 画像を元の画像と比較し、最も近い画像を見つけます。

たとえて言うと、LR 画像で「点をつなぐ」ゲームを行い、最も類似した LR バージョンを見つけて、逆方向に作業するのと同じです。この LR 画像に対応する HR 画像が最終的な出力結果です。

オリジナルのLR画像（上）、PULSEによるHR画像出力（中央）

HR画像に対応するLR画像（下）

研究チームは、同じ写真のデータセットでトレーニングされた、ジェネレーターとディスクリミネーターの 2 つのニューラルネットワークで構成される生成的敵対的ネットワーク (GAN) を使用しました。

ジェネレーターはトレーニングされた顔をシミュレートして AI が作成した顔を提供し、一方、識別器はその出力を受け取り、偽物と間違われるほどリアルかどうかを判断します。

経験を積むにつれて、ジェネレーターはどんどん良くなり、最終的には識別器が違いを判別できなくなります。

実験には実際の画像がいくつか使用され、効果の比較が下の図に示されています。

上段が実画像、中段が実画像をダウンサンプリングして得られたLR画像です。

下の行は、LR 画像に基づいて PULSE によって生成された HR 画像を示しています。

生成された高解像度画像はまだ元の画像と若干のギャップがありますが、以前の方法よりもはるかに鮮明です。

評価: 他の方法より優れており、実際の写真に近いスコアを獲得

研究チームは、有名な高解像度の顔データセット CelebA HQ でアルゴリズムを評価し、64 倍、32 倍、8 倍のスケーリング係数で実験を実行しました。

研究者らは 40 人に、PULSE と他の 5 つのスケーリング方法で生成された 1,440 枚の画像を 1 から 5 のスケールで評価するよう依頼しました。その結果、PULSE が最も優れたパフォーマンスを発揮し、実際の高品質の写真とほぼ同等のスコアを獲得しました。

HR は実際の高解像度ポートレートデータセットであり、そのスコアは PULSE よりわずか 0.14 高いだけです。

チームメンバーは、PULSE は、元の画像が目や口を認識できない場合でも、ノイズの多い低品質の入力からリアルな画像を作成できると述べています。これは他の方法では実現できないことです。

他の方法と比較して、PULSE はよりリアルに詳細を処理できます。

しかし、研究者らは、このシステムはまだ本人確認には利用できないと述べている。「防犯カメラで撮影されたピントが合っていない、認識できない写真を、実際の人物の鮮明な画像に変えることはできない。存在しないが本物のように見える新しい顔を生成することしかできない。」

具体的な応用シーンとしては、上記以外にも、将来的には医療や天文学の分野でも活用される可能性があり、一般の人々にとって、このブラックテクノロジーがあれば、N年前に撮影された古い写真を高解像度にすることができる。これは編集者にとって素晴らしいニュースです。高解像度のイラストを探す手間が省けるからです。

<<: コレクションにおすすめ！素晴らしい AWS 機械学習ツールキットの概要

>>: セキュリティとインテリジェンス: 銀行における IoT の導入と応用

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

Python ベースのパーセプトロン分類アルゴリズムの実践

WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

マイクロソフトが Windows 11 RP 22621/22631.2787 プレビューアップデートをリリース、モニター間の Copilot 機能などを追加

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか？

顔認識を使用してアバターにマスクとゴーグルを自動的に追加する方法

人工知能がビジネスの生産性を変革する方法

Javaで機械学習を始める方法

機械学習に必須の Python ライブラリトップ 10

推薦する

人工知能革命は雇用を創出するのか、それとも雇用を破壊するのか?

中国消費者協会：所有者や消費者は顔認識を強制されることはない。情報が漏洩すると非常に有害だからだ。

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

顔認識のためのディープラーニングとオブジェクト検出のステップバイステップガイド

「脳コンピューターインターフェースドレス」とはどのようなものでしょうか？ 1024個の独立した電極、機械学習、カスタムチップ

機械は倫理的な判断を下せるのか？

ADAPT: エンドツーエンドの自動運転の説明可能性を徹底的に探求する、理解の夜明け!

2024年のデジタル変革のトレンド

人工知能、機械学習、ディープラーニングとは、いったい何なのでしょうか?

マイクロソフト、AIアシスタントCopilotを搭載したWindows 11のメジャーアップデートをリリース

ジェネレーティブ AI がデジタル変革の優先事項に与える影響