この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 画像の読み込みについてまだ心配ですか? 最新の朗報としては、Google チームが、GAN とニューラル ネットワーク ベースの圧縮アルゴリズムを組み合わせたHiFiCという画像圧縮方式を採用したことです。この方式では、ビット レートが高度に圧縮されていても、高い忠実度で画像を復元できます。
以下は、このアルゴリズムによって表示される画像と JPG 形式の画像の比較です。 画像サイズが似ている場合(HiFiC サイズは 74kB、JPG 画像サイズは 78kB)、アルゴリズムによって示される画像圧縮効果がはるかに優れていることがわかります。 元の画像と比較すると、HiFiC による復元効果は依然として優れています。 (元の絵の真ん中に線が引かれていたのではないですか?) 現在は特別な時期であり、多くの外国人ネットユーザーが依然として自宅隔離中だ。NetflixやYouTubeの視聴回数は急増し、一部の動画サイトではデータ量の急増に対応するため、オンライン動画の再生画質を落とさざるを得ない状況にまでなっている。 しかし、高解像度の動画を観ることに慣れているネットユーザーらは、当然ながら突然の「ぼやけ攻撃」に不満を漏らした。 あるネットユーザーの言葉を借りれば、同様の技術が動画業界に応用されれば、Netflix や YouTube は特に喜ぶだろう。結局のところ、この高解像度、低ビットレートの画像復元は本当に魅力的だ。
実際、HiFiC アルゴリズムの原理を理解すれば、実装するのはそれほど難しくないことがわかります。 元の画像に近い画像再構成アルゴリズムこれまで、関連研究ではニューラルネットワークを使用して画像を圧縮してきました。近年、敵対的生成ネットワークの台頭により、 GANを使用してリアルな画像を生成するアルゴリズムも数多くあります。 この 2 つを組み合わせる方法があれば、画像圧縮効果はより良くなり、人間の知覚に近くなるでしょうか? 画像圧縮モデルは、この 2 つの特性に基づいて設計されています。ニューラル ネットワーク ベースの画像圧縮アルゴリズムに基づいて、GAN を使用して生成された画像をさらに人間の視覚に近づけ、画像サイズと視覚のバランスを実現します。 HiFiC のアーキテクチャは 4 つの主要部分に分かれており、E はエンコーダ、G はジェネレータ、D はディスクリミネーター、P は E の出力 E(x) (ここでは y で表されます) の確率モデル、つまり P は y の確率分布をシミュレートするために使用されます。 GAN の動作の核となる考え方は、アーキテクチャ内のジェネレーター G が、何らかの方法でサンプルが本物であると判断するように、識別器 D を「だます」必要があるということです。 確率モデル P は、この操作を実現するための条件です。 次に、E、G、P は畳み込みニューラル ネットワークとしてパラメータ化され、レート歪み最適化の条件下で共同でトレーニングできるようになります。 同時に、研究者らはいくつかの既存の GAN アルゴリズム アーキテクチャを微調整し、HiFiC アーキテクチャにより適したものにしました。 研究では、GAN とディープラーニングを組み合わせた HiFiC アルゴリズムが予想外の結果を達成したことが判明しました。 モデル評価下の図は、現在主流となっているいくつかの画質評価基準を使用して、いくつかの最先端の画像圧縮アルゴリズムと HiFiC アルゴリズムを比較したものです。 図中、評価基準の後ろの矢印は、データが低いほど(↓)、データが高いほど(↑)画質が良いことを示しています。 比較しやすいように、結果には HiFiC アルゴリズム (図の赤い点)、GAN を使用しない比較アルゴリズム (図のオレンジ色の四角)、現在より進化した M&S アルゴリズム (図の青い四角)、および BPG アルゴリズム (図の青い点) が使用されました。 結果から判断すると、HiFiC アルゴリズムは FID、KID、NIQE、および LPIPS 評価基準では最高ですが、MS-SSIM および PSNR 基準では平均的なパフォーマンスを示します。 評価基準の違いからもわかるように、それぞれの画質基準が必ずしも圧縮技術を判断する最良の方法というわけではありません。 ユーザーレビューの比較結局のところ、画像は閲覧するためのものであり、最終的な意思決定権はユーザーに委ねられる必要があります。 画像が「鮮明」であるかどうかは、ある程度は人間の目によって判断されます。 これを念頭に置いて、チームは研究モデルを採用し、ボランティアのグループがアルゴリズムの比較に参加できるようにしました。 まず、テスト画像のランダムな切り抜き画像を見せ、ボランティアが切り抜き画像の1つに興味を持ったら、その部分を使ってすべてのアルゴリズムを比較しました。 ボランティアたちは、元の画像とアルゴリズムで処理された画像を比較した後、元の画像に「視覚的に」近いと思われる圧縮アルゴリズムを選択しました。 すべてのアルゴリズムが選択されると、HiFiC の実際の効果を測定するランキングが表示されます。 (HiFiCの添え字Hi、Mi、Loは、高から低までの3つの異なるビットレートしきい値を設定するアルゴリズムを表します) 上の図では、スコアが低いほど、ユーザーの目には画像が「鮮明」に見えます。図から、圧縮効果 0.237bpp の HiFiC(Mi) は、ビット レートが 2 倍の 0.504bpp の BPG アルゴリズムよりもユーザーの目に優れていることがわかります。 圧縮効果が 0.120bpp に達したとしても、0.390bpp の BPG アルゴリズムよりも優れています。 この研究は、画像圧縮技術の発展を再び促進しました。ネットユーザーが言うように、画像圧縮技術の発展により、4K映画をオンラインで視聴することが本当に可能になるかもしれません。 著者についてFabian Mentzer は現在、スイスの ETH Zurich でコンピューター ビジョンの研究を行っています。彼の研究対象には、ディープラーニング、画像圧縮、フィードフォワード ニューラル ネットワーク、画像分類などがあります。 この論文の主な作業は、Fabian Mentzer が Google でのインターンシップ中に完成させたもので、他の 3 人の著者はすべて Google チームのメンバーです。 このプロジェクトのソースコードとトレーニング済みモデルは近日中に公開されます。最新の進捗状況を確認するには、以下のポータルをクリックしてください。 ポータル プロジェクトリンク |
背景今年、chatgpt に代表される大型モデルの驚異的なパフォーマンスは、AICG の分野に完全に...
2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...
[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...
【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...
[[433039]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
5GとAIは未解決の問題に解決策を見つけることができる5G はエッジの究極の未来です。 5G は、普...
電子データ交換 (EDI) の歴史は、企業がより効率的に電子的にデータを交換する方法を模索し始めた ...
量子コンピュータは多くの産業の運営方法を変えるでしょう。量子コンピューティングは社会に大きな影響を与...
[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...
序文ちょうど夏休み中に、KaggleのZillow Prizeコンペに参加し、データマイニングと機械...
2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebas...