写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があることがよくあります。

動画が主流の時代ですから、文字だけの記事はグラフィック記事ほど目立ちません。そのため、私は記事を書くたびに、著作権フリーの画像サイトから、記事のテーマに合った、できれば高解像度の画像を選ぶようにしています。

しかし、常にアクシデントが起こります。時には、解像度が不十分だが最適な画像に遭遇すると、非常に困惑します。低解像度の画像を記事に直接挿入すると、視覚的に不快感を覚えるのは明らかです。PS や Windows に付属する描画ツールでさえ、画像の解像度を変更できますが、強制的に引き伸ばした結果は、画像が非常にぼやけてしまうことだけです。

画像を引き伸ばした後、画像の端に明らかなバリが現れていることがわかります。

画像をロスレスで拡大する方法はありますか?

実は、それは本当に存在するのです。GitHub のこのプロジェクト「waifu2x」でそれが実現できます。

プロジェクトのアドレスは https://github.com/nagadomi/waifu2x です。興味のある友人は勉強することができます。Web バージョンのアドレスは http://waifu2x.udp.jp/ です。

早速ですが、waifu2x を使用した後の画像と通常のストレッチの画像を比較してみましょう (左側がストレッチ、右側が waifu2x を使用した効果です)。

waifu2xを使用して画像を拡大すると、「5G」の端のバリが目立たなくなったことがわかります。一部の領域ではまだノイズの問題がありますが、全体的には直接ストレッチするよりもはるかに優れた効果があります。

では、なぜ waifu2x はロスレスで画像を拡大できるのでしょうか? これは、waifu2x が SR-CNN と呼ばれる畳み込みアルゴリズムを使用しているためです。 従来、画像の超解像問題は、低解像度画像 (LR) が入力されたときに高解像度画像 (HR) を取得する方法を研究します。

最近傍補間、双線形補間、双三次補間などの従来の画像補間アルゴリズムでは、ある程度この効果を実現できますが、これらのアルゴリズムによって得られる高解像度の画像効果は理想的ではありません。

SR-CNN は、CNN 構造 (つまり、ディープラーニングに基づく) を使用した最初のエンドツーエンドの超解像アルゴリズムです。ディープラーニング手法を使用してアルゴリズムプロセス全体を実装し、その効果は従来のマルチモジュール統合方法よりも優れています。

SR-CNN プロセスは次のとおりです: 最初の入力前処理。入力された低解像度 LR 画像は、バイキュービックアルゴリズムを使用してターゲットサイズに拡大されます。

アルゴリズムの次の目標は、入力された比較的ぼやけた LR 画像を畳み込みネットワークで処理し、元の画像の高解像度 HR 画像に可能な限り類似した超解像度 SR 画像を取得することです。

バイキュービック、SC、NE+LLE、KK、ANR、A+などの超解像アルゴリズムと比較すると、SR-CNNはほとんどの指標で最高のパフォーマンスを発揮し、復元速度も最先端にあります。また、RGBチャンネルのジョイントトレーニング効果が最も優れているため、写真と比較して、イラスト(お気に入りの2次元画像)を拡大する場合、waifu2xの方が有利になります。

SR-CNN 畳み込みアルゴリズムの詳細については、https://arxiv.org/abs/1501.00092 をご覧ください。

写真はロスなく拡大できますが、動画はどうでしょうか?

結果は確かに実現可能ですが、今回使用したツールは Topaz Gigapixel AI for Video と呼ばれます。このソフトウェアは何千ものビデオでトレーニングされており、複数の入力ビデオ フレームからの情報を組み合わせて、リアルなディテールと動きの一貫性を保ちながらビデオを 8K 解像度にアップスケールします。

AI ソフトウェアなので、高速なコンピューターが必要です。推奨されるシステム構成は、32 GB の RAM と 6 GB 以上のビデオ メモリを搭載した NVIDIA グラフィック カードです。古いコンピュータでもかろうじて動作しますが、速度は非常に遅くなります。

では、Topaz Gigapixel AI for Video はどのようにしてビデオを拡大するのでしょうか。実際、インストール時に、このソフトウェアは TensorFlow ライブラリと cuDNN ライブラリをインストールすることがわかります。つまり、このソフトウェアはディープラーニングに基づく畳み込みニューラル ネットワークを使用して各フレームを処理し、プロセス全体にわたって CUDA ユニットを実行していることは明らかです (そうでなければ、それほど遅くなりません)。

グラフィック カードに詳しい人なら、グラフィック カードがコンピューター ホストの重要なコンポーネントとして、コンピューター内でデジタル信号をアナログ信号に変換し、グラフィックの出力と表示を行うデバイスであることを知っています。

グラフィック カードはコンピューターのマザーボードに接続され、コンピューターのデジタル信号をアナログ信号に変換してモニターに表示します。同時に、グラフィック カードには画像処理機能もあり、CPU を補助して全体的な動作速度を向上させることができます。グラフィック カードは、プロのグラフィック デザインに携わる人にとって非常に重要です。

民間および軍事用のグラフィック カード チップの主なサプライヤーには、AMD と NVIDIA があります (Intel も今年はこの競争に加わる予定です)。

GPUの構造は比較的単純で、多数のコンピューティングユニットと非常に長いパイプラインを備えています。行列の乗算や加算など、均一なタイプの大量のデータを処理するのに特に適しています。そのため、AI分野でのグラフィックカードの応用は非常に広範囲になっています。CUDAは、NVIDIAが立ち上げた並列コンピューティングフレームワークで、自社のGPUでのみ使用できます。

このフレームワークをインストールすることによってのみ、複雑な並列コンピューティングを実行できます。主流のディープラーニング フレームワークはすべて GPU 並列アクセラレーション用の CUDA に基づいており、Tensorflow も例外ではありません。

残念ながら、Topaz Gigapixel AI for Video の価格はまだ比較的高価です。 約 200 ドルという価格は、多くの人を躊躇させるかもしれません。 しかし、古い映画やテレビ番組の復元や修復にはまだ非常に役立ちます。 現在、Bilibili で検索できるかなりの数の [4K 復元] ビデオがこのソフトウェアに基づいて作成されています。

考えてみてください。AIの出現は確かに生活における多くの実際的な問題を解決しました。畳み込みニューラルネットワークの急速な発展がなければ、昔の映画やテレビ番組の高解像度リメイクを見ることは想像の中にしか存在しなかったかもしれません。

<<:  ハードコア冬季オリンピック!上海交通大学が開発した、障害物を回避したり方向転換したりできるスキーロボットがオンラインになった。

>>:  自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

ブログ    
ブログ    

推薦する

SVM のマップ削減データマイニングアルゴリズム

元のアルゴリズムに並列戦略を適用するのは難しいため、他のアルゴリズムのバリアントである pegaso...

より賢い人工知能が人間に取って代わるのはもうすぐなのでしょうか?

人工知能の発展により、機械ははるかに賢くなりました。コンピュータプログラムさえ設定しておけば、多くの...

...

ICLR2021 対照学習 NLP 論文進捗レビュー

みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...

...

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

ChatGPTは人気を集めており、OpenAIはAIソフトウェア用のアプリストアの作成を検討している

今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...

エッジコンピューティングの探究: プロセッサ、アルゴリズム、メモリ

エッジコンピューティングとは最近、エッジコンピューティングは、人工知能やモノのインターネットの分野で...

データ構造とアルゴリズムの簡単な紹介

一般的なデータ構造にはどのようなものがありますか? 基本的な操作は何ですか? 一般的なソート アルゴ...

Cloudera China: データと AI は、企業が「反脆弱性」になるのにどのように役立つのでしょうか?

2023年には、個人にとっても企業にとっても「脆弱性」はほぼ普遍的な状態になります。世界経済が大き...

コード生成のためのツリーベースのTransformerアーキテクチャ

導入:コード生成は、プログラマーの生産性を大幅に向上させる可能性を秘めた重要な AI 問題です。自然...

自動運転バスが路上でテスト可能:北京が政策発表で主導権を握り、最初の8台の車両がまもなく運行開始

自動運転バスが歴史的な一歩を踏み出す! 3月31日、北京市高レベル自動運転実証区事務室は「北京市イン...

...

専門家:歩行者の安全問題を解決するために都市は自動運転だけに頼ることはできない

自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...