写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があることがよくあります。

動画が主流の時代ですから、文字だけの記事はグラフィック記事ほど目立ちません。そのため、私は記事を書くたびに、著作権フリーの画像サイトから、記事のテーマに合った、できれば高解像度の画像を選ぶようにしています。

しかし、常にアクシデントが起こります。時には、解像度が不十分だが最適な画像に遭遇すると、非常に困惑します。低解像度の画像を記事に直接挿入すると、視覚的に不快感を覚えるのは明らかです。PS や Windows に付属する描画ツールでさえ、画像の解像度を変更できますが、強制的に引き伸ばした結果は、画像が非常にぼやけてしまうことだけです。

画像を引き伸ばした後、画像の端に明らかなバリが現れていることがわかります。

画像をロスレスで拡大する方法はありますか?

実は、それは本当に存在するのです。GitHub のこのプロジェクト「waifu2x」でそれが実現できます。

プロジェクトのアドレスは https://github.com/nagadomi/waifu2x です。興味のある友人は勉強することができます。Web バージョンのアドレスは http://waifu2x.udp.jp/ です。

早速ですが、waifu2x を使用した後の画像と通常のストレッチの画像を比較してみましょう (左側がストレッチ、右側が waifu2x を使用した効果です)。

waifu2xを使用して画像を拡大すると、「5G」の端のバリが目立たなくなったことがわかります。一部の領域ではまだノイズの問題がありますが、全体的には直接ストレッチするよりもはるかに優れた効果があります。

では、なぜ waifu2x はロスレスで画像を拡大できるのでしょうか? これは、waifu2x が SR-CNN と呼ばれる畳み込みアルゴリズムを使用しているためです。 従来、画像の超解像問題は、低解像度画像 (LR) が入力されたときに高解像度画像 (HR) を取得する方法を研究します。

最近傍補間、双線形補間、双三次補間などの従来の画像補間アルゴリズムでは、ある程度この効果を実現できますが、これらのアルゴリズムによって得られる高解像度の画像効果は理想的ではありません。

SR-CNN は、CNN 構造 (つまり、ディープラーニングに基づく) を使用した最初のエンドツーエンドの超解像アルゴリズムです。ディープラーニング手法を使用してアルゴリズムプロセス全体を実装し、その効果は従来のマルチモジュール統合方法よりも優れています。

SR-CNN プロセスは次のとおりです: 最初の入力前処理。入力された低解像度 LR 画像は、バイキュービックアルゴリズムを使用してターゲットサイズに拡大されます。

アルゴリズムの次の目標は、入力された比較的ぼやけた LR 画像を畳み込みネットワークで処理し、元の画像の高解像度 HR 画像に可能な限り類似した超解像度 SR 画像を取得することです。

バイキュービック、SC、NE+LLE、KK、ANR、A+などの超解像アルゴリズムと比較すると、SR-CNNはほとんどの指標で最高のパフォーマンスを発揮し、復元速度も最先端にあります。また、RGBチャンネルのジョイントトレーニング効果が最も優れているため、写真と比較して、イラスト(お気に入りの2次元画像)を拡大する場合、waifu2xの方が有利になります。

SR-CNN 畳み込みアルゴリズムの詳細については、https://arxiv.org/abs/1501.00092 をご覧ください。

写真はロスなく拡大できますが、動画はどうでしょうか?

結果は確かに実現可能ですが、今回使用したツールは Topaz Gigapixel AI for Video と呼ばれます。このソフトウェアは何千ものビデオでトレーニングされており、複数の入力ビデオ フレームからの情報を組み合わせて、リアルなディテールと動きの一貫性を保ちながらビデオを 8K 解像度にアップスケールします。

AI ソフトウェアなので、高速なコンピューターが必要です。推奨されるシステム構成は、32 GB の RAM と 6 GB 以上のビデオ メモリを搭載した NVIDIA グラフィック カードです。古いコンピュータでもかろうじて動作しますが、速度は非常に遅くなります。

では、Topaz Gigapixel AI for Video はどのようにしてビデオを拡大するのでしょうか。実際、インストール時に、このソフトウェアは TensorFlow ライブラリと cuDNN ライブラリをインストールすることがわかります。つまり、このソフトウェアはディープラーニングに基づく畳み込みニューラル ネットワークを使用して各フレームを処理し、プロセス全体にわたって CUDA ユニットを実行していることは明らかです (そうでなければ、それほど遅くなりません)。

グラフィック カードに詳しい人なら、グラフィック カードがコンピューター ホストの重要なコンポーネントとして、コンピューター内でデジタル信号をアナログ信号に変換し、グラフィックの出力と表示を行うデバイスであることを知っています。

グラフィック カードはコンピューターのマザーボードに接続され、コンピューターのデジタル信号をアナログ信号に変換してモニターに表示します。同時に、グラフィック カードには画像処理機能もあり、CPU を補助して全体的な動作速度を向上させることができます。グラフィック カードは、プロのグラフィック デザインに携わる人にとって非常に重要です。

民間および軍事用のグラフィック カード チップの主なサプライヤーには、AMD と NVIDIA があります (Intel も今年はこの競争に加わる予定です)。

GPUの構造は比較的単純で、多数のコンピューティングユニットと非常に長いパイプラインを備えています。行列の乗算や加算など、均一なタイプの大量のデータを処理するのに特に適しています。そのため、AI分野でのグラフィックカードの応用は非常に広範囲になっています。CUDAは、NVIDIAが立ち上げた並列コンピューティングフレームワークで、自社のGPUでのみ使用できます。

このフレームワークをインストールすることによってのみ、複雑な並列コンピューティングを実行できます。主流のディープラーニング フレームワークはすべて GPU 並列アクセラレーション用の CUDA に基づいており、Tensorflow も例外ではありません。

残念ながら、Topaz Gigapixel AI for Video の価格はまだ比較的高価です。 約 200 ドルという価格は、多くの人を躊躇させるかもしれません。 しかし、古い映画やテレビ番組の復元や修復にはまだ非常に役立ちます。 現在、Bilibili で検索できるかなりの数の [4K 復元] ビデオがこのソフトウェアに基づいて作成されています。

考えてみてください。AIの出現は確かに生活における多くの実際的な問題を解決しました。畳み込みニューラルネットワークの急速な発展がなければ、昔の映画やテレビ番組の高解像度リメイクを見ることは想像の中にしか存在しなかったかもしれません。

<<:  ハードコア冬季オリンピック!上海交通大学が開発した、障害物を回避したり方向転換したりできるスキーロボットがオンラインになった。

>>:  自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

ブログ    
ブログ    

推薦する

シリコンチップ上に15万量子ビット:単一スピンの初の光学検出がNature誌に掲載

量子コンピュータは、従来のコンピュータでは解決に数十億年かかる問題を理論的に解決できますが、十分な量...

...

データサイエンティストが最もよく使用するアルゴリズム10選

最新の KDnuggets 調査では、データ サイエンティストの実際の業務で最もよく使用されるアルゴ...

AI生成画像に追加されたデジタル透かしは簡単に解読できると研究で判明

10月6日、EngadgetやWiredなどの海外メディアの報道によると、メリーランド大学の研究チー...

産業用ロボットアプリケーション業界の概要

現在の技術の進歩と産業の発展に伴い、産業用ロボットの応用分野も急速に拡大しています。企業は、労働コス...

スタンフォード大学がAI法の講座を開設。人工知能は法律の対象になり得るか?

昨年3月、アリゾナ州でウーバーの自動運転車が歩行者をはねて死亡させた。米国の検察当局が「ウーバーに責...

Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

今日、タイムクリスタルは再び新しいスターを迎え、Sceinceサブマガジンに登場しました。 タイムク...

AIチップのスタートアップ企業が実装の道を探り、開発が成熟

ここ数年、AIチップの新興企業が雨後の筍のように出現した。現在、初期の参加者グループは、優れたチップ...

Redis Clusterクラスタ内のデータ分散アルゴリズムについてお話しましょう

最近、Redis Cluster に注目していますが、これにはデータ分散の問題が関係しています。Re...

「ロボットが私にそうさせた」:ロボットは人々にリスクを取るよう促すことができると研究で判明

[[404036]] 「仲間からのプレッシャーがリスクの高い行動につながることはわかっています。オン...

YouTube 動画推奨アルゴリズムを破る方法

映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワーカーの場合、コンテン...

2 回のセッションの後、Ovio は次のように分析します: 私たちは人工知能の時代を迎えましたが、それは良い面と悪い面の両方があります。

2回の会期は3月20日に終了した。今年の全国人民代表大会では、政府活動報告に「人工知能」が再び記載...

eSIM テクノロジーはどのようにしてグローバル BVLOS ドローンの運用を簡素化できるのでしょうか?

近年、ドローンは農業から物流、世界的な軍事作戦まで、多くの産業に革命をもたらしました。 これらの飛行...