74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像の読み込みについてまだ心配ですか?

最新の朗報としては、Google チームが、GAN とニューラル ネットワーク ベースの圧縮アルゴリズムを組み合わせたHiFiCという画像圧縮方式を採用したことです。この方式では、ビット レートが高度に圧縮されていても、高い忠実度で画像を復元できます。

名前が示すように、GAN (Generative Adversarial Networks) では、2 つのニューラル ネットワークが相互に「トレーニング」できます。1 つのニューラル ネットワークは現実世界に近いデータを生成する役割を担い、もう 1 つのニューラル ネットワークは実際のデータと生成されたデータを区別する役割を担います。

簡単に言えば、1 つのニューラル ネットワークは「偽物」であり、もう 1 つのニューラル ネットワークは「偽物」です。システムがバランスに達すると、生成されたデータは実際のデータに非常に近くなり、「偽物でありながら本物」という効果が得られます。

以下は、このアルゴリズムによって表示される画像と JPG 形式の画像の比較です。

画像サイズが似ている場合(HiFiC サイズは 74kB、JPG 画像サイズは 78kB)、アルゴリズムによって示される画像圧縮効果がはるかに優れていることがわかります。

元の画像と比較すると、HiFiC による復元効果は依然として優れています。 (元の絵の真ん中に線が引かれていたのではないですか?)

現在は特別な時期であり、多くの外国人ネットユーザーが依然として自宅隔離中だ。NetflixやYouTubeの視聴回数は急増し、一部の動画サイトではデータ量の急増に対応するため、オンライン動画の再生画質を落とさざるを得ない状況にまでなっている。

しかし、高解像度の動画を観ることに慣れているネットユーザーらは、当然ながら突然の「ぼやけ攻撃」に不満を漏らした。

あるネットユーザーの言葉を借りれば、同様の技術が動画業界に応用されれば、Netflix や YouTube は特に喜ぶだろう。結局のところ、この高解像度、低ビットレートの画像復元は本当に魅力的だ。

すごいですね。ビデオでも同じことができたら、Netflix や YouTube もきっと喜ぶでしょう。

実際、HiFiC アルゴリズムの原理を理解すれば、実装するのはそれほど難しくないことがわかります。

元の画像に近い画像再構成アルゴリズム

これまで、関連研究ではニューラルネットワークを使用して画像を圧縮してきました。近年、敵対的生成ネットワークの台頭により、 GANを使用してリアルな画像を生成するアルゴリズムも数多くあります。

この 2 つを組み合わせる方法があれば、画像圧縮効果はより良くなり、人間の知覚に近くなるでしょうか?

画像圧縮モデルは、この 2 つの特性に基づいて設計されています。ニューラル ネットワーク ベースの画像圧縮アルゴリズムに基づいて、GAN を使用して生成された画像をさらに人間の視覚に近づけ、画像サイズと視覚のバランスを実現します。

HiFiC のアーキテクチャは 4 つの主要部分に分かれており、E はエンコーダ、G はジェネレータ、D はディスクリミネーター、P は E の出力 E(x) (ここでは y で表されます) の確率モデル、つまり P は y の確率分布をシミュレートするために使用されます。

GAN の動作の核となる考え方は、アーキテクチャ内のジェネレーター G が、何らかの方法でサンプルが本物であると判断するように、識別器 D を「だます」必要があるということです。

確率モデル P は、この操作を実現するための条件です。

次に、E、G、P は畳み込みニューラル ネットワークとしてパラメータ化され、レート歪み最適化の条件下で共同でトレーニングできるようになります。

同時に、研究者らはいくつかの既存の GAN アルゴリズム アーキテクチャを微調整し、HiFiC アーキテクチャにより適したものにしました。

研究では、GAN とディープラーニングを組み合わせた HiFiC アルゴリズムが予想外の結果を達成したことが判明しました。

モデル評価

下の図は、現在主流となっているいくつかの画質評価基準を使用して、いくつかの最先端の画像圧縮アルゴリズムと HiFiC アルゴリズムを比較したものです。

図中、評価基準の後ろの矢印は、データが低いほど(↓)、データが高いほど(↑)画質が良いことを示しています。

比較しやすいように、結果には HiFiC アルゴリズム (図の赤い点)、GAN を使用しない比較アルゴリズム (図のオレンジ色の四角)、現在より進化した M&S アルゴリズム (図の青い四角)、および BPG アルゴリズム (図の青い点) が使用されました。

結果から判断すると、HiFiC アルゴリズムは FID、KID、NIQE、および LPIPS 評価基準では最高ですが、MS-SSIM および PSNR 基準では平均的なパフォーマンスを示します。

評価基準の違いからもわかるように、それぞれの画質基準が必ずしも圧縮技術を判断する最良の方法というわけではありません。

ユーザーレビューの比較

結局のところ、画像は閲覧するためのものであり、最終的な意思決定権はユーザーに委ねられる必要があります。

画像が「鮮明」であるかどうかは、ある程度は人間の目によって判断されます。

これを念頭に置いて、チームは研究モデルを採用し、ボランティアのグループがアルゴリズムの比較に参加できるようにしました。

まず、テスト画像のランダムな切り抜き画像を見せ、ボランティアが切り抜き画像の1つに興味を持ったら、その部分を使ってすべてのアルゴリズムを比較しました。

ボランティアたちは、元の画像とアルゴリズムで処理された画像を比較した後、元の画像に「視覚的に」近いと思われる圧縮アルゴリズムを選択しました。

すべてのアルゴリズムが選択されると、HiFiC の実際の効果を測定するランキングが表示されます。 (HiFiCの添え字Hi、Mi、Loは、高から低までの3つの異なるビットレートしきい値を設定するアルゴリズムを表します)

上の図では、スコアが低いほど、ユーザーの目には画像が「鮮明」に見えます。図から、圧縮効果 0.237bpp の HiFiC(Mi) は、ビット レートが 2 倍の 0.504bpp の BPG アルゴリズムよりもユーザーの目に優れていることがわかります。

圧縮効果が 0.120bpp に達したとしても、0.390bpp の BPG アルゴリズムよりも優れています。

この研究は、画像圧縮技術の発展を再び促進しました。ネットユーザーが言うように、画像圧縮技術の発展により、4K映画をオンラインで視聴することが本当に可能になるかもしれません。

著者について

[[340920]]

Fabian Mentzer は現在、スイスの ETH Zurich でコンピューター ビジョンの研究を行っています。彼の研究対象には、ディープラーニング、画像圧縮、フィードフォワード ニューラル ネットワーク、画像分類などがあります。

この論文の主な作業は、Fabian Mentzer が Google でのインターンシップ中に完成させたもので、他の 3 人の著者はすべて Google チームのメンバーです。

このプロジェクトのソースコードとトレーニング済みモデルは近日中に公開されます。最新の進捗状況を確認するには、以下のポータルをクリックしてください。

ポータル

プロジェクトリンク
https://hific.github.io/

<<:  企業が人工知能を応用する際に直面する課題

>>:  AIスタートアップの構築から得た3つの重要な教訓

ブログ    
ブログ    
ブログ    

推薦する

デジタルコンテンツ制作のためのDIY AI

背景今年、chatgpt に代表される大型モデルの驚異的なパフォーマンスは、AICG の分野に完全に...

2023 年のフィンテック業界における AI トレンド トップ 10

2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...

午後を費やしてラベルのない画像10万枚にラベルを付け、上司の費用を3万ドル節約しました

[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...

機械学習アルゴリズムを使用して配信リンクを最適化する方法

【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...

メタバース内の物に触れるために、ザッカーバーグは6ドルの電子スキンを新たに作った。

[[433039]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

...

5G技術と人工知能のインテリジェントな組み合わせ

5GとAIは未解決の問題に解決策を見つけることができる5G はエッジの究極の未来です。 5G は、普...

AIを活用してよりスマートな電子データ交換を実現

電子データ交換 (EDI) の歴史は、企業がより効率的に電子的にデータを交換する方法を模索し始めた ...

量子コンピュータ、モノのインターネット、サイバーセキュリティの相互作用

量子コンピュータは多くの産業の運営方法を変えるでしょう。量子コンピューティングは社会に大きな影響を与...

...

...

新型コロナウイルスによりスマートシティがさらにスマート化

[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...

データマイニングコンテストのルーチンとディープラーニングの限界について話す

序文ちょうど夏休み中に、KaggleのZillow Prizeコンペに参加し、データマイニングと機械...

NLPの年間進捗状況は年に1回まとめられています。2021年の研究のホットスポットは何でしょうか?

2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebas...