74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像の読み込みについてまだ心配ですか?

最新の朗報としては、Google チームが、GAN とニューラルネットワークベースの圧縮アルゴリズムを組み合わせたHiFiCという画像圧縮方式を採用したことです。この方式では、ビットレートが高度に圧縮されていても、高い忠実度で画像を復元できます。

名前が示すように、GAN (Generative Adversarial Networks) では、2 つのニューラルネットワークが相互に「トレーニング」できます。1 つのニューラルネットワークは現実世界に近いデータを生成する役割を担い、もう 1 つのニューラルネットワークは実際のデータと生成されたデータを区別する役割を担います。
簡単に言えば、1 つのニューラルネットワークは「偽物」であり、もう 1 つのニューラルネットワークは「偽物」です。システムがバランスに達すると、生成されたデータは実際のデータに非常に近くなり、「偽物でありながら本物」という効果が得られます。

以下は、このアルゴリズムによって表示される画像と JPG 形式の画像の比較です。

画像サイズが似ている場合（HiFiC サイズは 74kB、JPG 画像サイズは 78kB）、アルゴリズムによって示される画像圧縮効果がはるかに優れていることがわかります。

元の画像と比較すると、HiFiC による復元効果は依然として優れています。（元の絵の真ん中に線が引かれていたのではないですか？）

現在は特別な時期であり、多くの外国人ネットユーザーが依然として自宅隔離中だ。NetflixやYouTubeの視聴回数は急増し、一部の動画サイトではデータ量の急増に対応するため、オンライン動画の再生画質を落とさざるを得ない状況にまでなっている。

しかし、高解像度の動画を観ることに慣れているネットユーザーらは、当然ながら突然の「ぼやけ攻撃」に不満を漏らした。

あるネットユーザーの言葉を借りれば、同様の技術が動画業界に応用されれば、Netflix や YouTube は特に喜ぶだろう。結局のところ、この高解像度、低ビットレートの画像復元は本当に魅力的だ。

すごいですね。ビデオでも同じことができたら、Netflix や YouTube もきっと喜ぶでしょう。

実際、HiFiC アルゴリズムの原理を理解すれば、実装するのはそれほど難しくないことがわかります。

元の画像に近い画像再構成アルゴリズム

これまで、関連研究ではニューラルネットワークを使用して画像を圧縮してきました。近年、敵対的生成ネットワークの台頭により、 GANを使用してリアルな画像を生成するアルゴリズムも数多くあります。

この 2 つを組み合わせる方法があれば、画像圧縮効果はより良くなり、人間の知覚に近くなるでしょうか?

画像圧縮モデルは、この 2 つの特性に基づいて設計されています。ニューラルネットワークベースの画像圧縮アルゴリズムに基づいて、GAN を使用して生成された画像をさらに人間の視覚に近づけ、画像サイズと視覚のバランスを実現します。

HiFiC のアーキテクチャは 4 つの主要部分に分かれており、E はエンコーダ、G はジェネレータ、D はディスクリミネーター、P は E の出力 E(x) (ここでは y で表されます) の確率モデル、つまり P は y の確率分布をシミュレートするために使用されます。

GAN の動作の核となる考え方は、アーキテクチャ内のジェネレーター G が、何らかの方法でサンプルが本物であると判断するように、識別器 D を「だます」必要があるということです。

確率モデル P は、この操作を実現するための条件です。

次に、E、G、P は畳み込みニューラルネットワークとしてパラメータ化され、レート歪み最適化の条件下で共同でトレーニングできるようになります。

同時に、研究者らはいくつかの既存の GAN アルゴリズムアーキテクチャを微調整し、HiFiC アーキテクチャにより適したものにしました。

研究では、GAN とディープラーニングを組み合わせた HiFiC アルゴリズムが予想外の結果を達成したことが判明しました。

モデル評価

下の図は、現在主流となっているいくつかの画質評価基準を使用して、いくつかの最先端の画像圧縮アルゴリズムと HiFiC アルゴリズムを比較したものです。

図中、評価基準の後ろの矢印は、データが低いほど（↓）、データが高いほど（↑）画質が良いことを示しています。

比較しやすいように、結果には HiFiC アルゴリズム (図の赤い点)、GAN を使用しない比較アルゴリズム (図のオレンジ色の四角)、現在より進化した M&S アルゴリズム (図の青い四角)、および BPG アルゴリズム (図の青い点) が使用されました。

結果から判断すると、HiFiC アルゴリズムは FID、KID、NIQE、および LPIPS 評価基準では最高ですが、MS-SSIM および PSNR 基準では平均的なパフォーマンスを示します。

評価基準の違いからもわかるように、それぞれの画質基準が必ずしも圧縮技術を判断する最良の方法というわけではありません。

ユーザーレビューの比較

結局のところ、画像は閲覧するためのものであり、最終的な意思決定権はユーザーに委ねられる必要があります。

画像が「鮮明」であるかどうかは、ある程度は人間の目によって判断されます。

これを念頭に置いて、チームは研究モデルを採用し、ボランティアのグループがアルゴリズムの比較に参加できるようにしました。

まず、テスト画像のランダムな切り抜き画像を見せ、ボランティアが切り抜き画像の1つに興味を持ったら、その部分を使ってすべてのアルゴリズムを比較しました。

ボランティアたちは、元の画像とアルゴリズムで処理された画像を比較した後、元の画像に「視覚的に」近いと思われる圧縮アルゴリズムを選択しました。

すべてのアルゴリズムが選択されると、HiFiC の実際の効果を測定するランキングが表示されます。（HiFiCの添え字Hi、Mi、Loは、高から低までの3つの異なるビットレートしきい値を設定するアルゴリズムを表します）

上の図では、スコアが低いほど、ユーザーの目には画像が「鮮明」に見えます。図から、圧縮効果 0.237bpp の HiFiC(Mi) は、ビットレートが 2 倍の 0.504bpp の BPG アルゴリズムよりもユーザーの目に優れていることがわかります。

圧縮効果が 0.120bpp に達したとしても、0.390bpp の BPG アルゴリズムよりも優れています。

この研究は、画像圧縮技術の発展を再び促進しました。ネットユーザーが言うように、画像圧縮技術の発展により、4K映画をオンラインで視聴することが本当に可能になるかもしれません。

著者について

Fabian Mentzer は現在、スイスの ETH Zurich でコンピュータービジョンの研究を行っています。彼の研究対象には、ディープラーニング、画像圧縮、フィードフォワードニューラルネットワーク、画像分類などがあります。

この論文の主な作業は、Fabian Mentzer が Google でのインターンシップ中に完成させたもので、他の 3 人の著者はすべて Google チームのメンバーです。

このプロジェクトのソースコードとトレーニング済みモデルは近日中に公開されます。最新の進捗状況を確認するには、以下のポータルをクリックしてください。

ポータル

プロジェクトリンク
https://hific.github.io/

<<: 企業が人工知能を応用する際に直面する課題

>>: AIスタートアップの構築から得た3つの重要な教訓

車をコントロールするスマートグラス？ FacebookとBMWが「トラブルを起こす」ために提携

ブログ

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

元の画像に近い画像再構成アルゴリズム

モデル評価

ユーザーレビューの比較

著者について

車をコントロールするスマートグラス？ FacebookとBMWが「トラブルを起こす」ために提携

OpenAI、超知能AIの制御に関する中核的な技術的課題に取り組むため新チームを結成

有名人のリアルタイムディープフェイク！名前を入力して数秒で顔を変える

Facebook がひっそりと AI 技術ツールを開発: 自動的にコードをスキャンして脆弱性を発見

AmodalSynthDrive: 自動運転のための合成アモーダル知覚データセット

かつては世界トップ50のロボット技術企業の一つだったスターロボット企業がまた一つ倒産した。

教師あり学習と教師なし学習：専門家がギャップを定義

推薦する

ロボティックプロセスオートメーションについて知っておくべき 10 のこと

ビッグデータと人工知能 - 機械的思考から統計的思考へ

ChatGPT-4、Bard、Claude-2、Copilot空間タスクの正確性の比較

テキストアドベンチャーゲームは人工知能の助けを借りて新たな命を吹き込まれる

人工知能産業の将来は、パンデミックの最中に過大評価されているのでしょうか?

インベントリ | 2018 年のトップ 10 新興テクノロジー: 人体は「医薬品工場」になる

ロボティック・プロセス・オートメーション（RPA）がCIOにとって優先課題である理由

2017 年グローバル人工知能人材ホワイトペーパー: 世界トップクラスの AI 人材の秘密を解明!

上海は質の高い農業の発展を推進：科学技術設備の改善と無人農場の建設

宇宙も「独学」です！このプロセスは機械学習アルゴリズムに似ており、物理法則を刷新するものである。