近年、ディープラーニング技術の急速な発展に伴い、AIベースの超解像技術は画像修復や画像強調の分野で幅広い応用展望を示し、学界や産業界から注目と注目を集めています。しかし、RTC ビデオの分野では、多くの AI アルゴリズムが実際のシナリオのアプリケーション要件を満たすことができません。この記事では、AI 技術の研究から展開までの実装上の問題に焦点を当て、RTC 分野における超解像技術の実装が直面する機会と課題を共有します。 1. 超解像技術の概要1. 超解像技術の導入超解像の概念は、1960年代にハリスとグッドマンによって初めて提唱されました。特定のアルゴリズムやモデルを通じて低解像度の画像から高解像度の画像を生成し、より詳細な情報を可能な限り復元する技術を指します。スペクトル外挿とも呼ばれます。しかし、研究の初期段階では、スペクトル外挿はいくつかの仮想的な条件下でのシミュレーションにのみ使用されており、広く認知されていませんでした。単一画像に対する超解像法が提案されて初めて、超解像技術は広く研究され、応用されるようになりました。現在では、画像強調やコンピュータービジョンの分野でも重要な研究方向となっています。 2.超解像技術の分類単一画像の超解像方法は、異なる原理に従って、補間ベース、再構成ベース、学習ベースの方法に分けられます。最初の 2 つの方法の実際のシナリオでの超解像効果は、アルゴリズムの原理が単純で、適用シナリオが限られているため、理想的ではありません。学習ベースの方法は、実際の効果が最も優れている超解像方法です。その中核には、アルゴリズム モデルの確立とトレーニング セットの選択という 2 つの部分が含まれます。アルゴリズムモデルとトレーニングセットに応じて、学習ベースの方法は、従来の学習方法とディープラーニング方法に分けられます。一般的に言えば、従来の学習方法のアルゴリズム モデルは比較的単純で、トレーニング セットは比較的小さくなります。ディープラーニング手法は、一般的に大量のデータを使用してトレーニングされる畳み込みニューラルネットワーク手法を指し、学術研究でも注目されているトピックです。そこで、次はディープラーニングをベースとした超解像手法の開発プロセスに焦点を当てたいと思います。 3. DLベースのSRSRCNN は、超解像問題にディープラーニング手法を使用する最初の試みです。これは、それぞれが異なる機能を担当する 3 つの畳み込み層で構成される比較的単純な畳み込みネットワークです。最初の畳み込み層は主に高周波特徴の抽出を担当し、2 番目の畳み込み層は低精細特徴から高解像度特徴への非線形マッピングを完了する役割を担い、最後の畳み込み層は高解像度画像を再構築する役割を担います。 SRCNN のネットワーク構造は比較的単純であり、超解像効果には改善の余地があるものの、超解像などの問題に対処する上でのディープラーニング手法の基本的な考え方を確立しています。その後のディープラーニング手法は基本的にこの考え方に従って超解像度再構成を実行しました。 その後、ESPCNやFSRCNNなどのネットワークはSRCNNをベースにいくつかの改良を加えました。ネットワーク層の数は依然として比較的浅く、畳み込み層の数は10を超えず、超解像効果も特に理想的ではありません。当時は、深層畳み込みネットワークのトレーニングに問題があったからです。一般的に、畳み込みニューラル ネットワークの場合、ネットワーク層の数が増えると、パフォーマンスも向上します。ただし、実際のアプリケーションでは、ネットワーク層の数がある程度増加すると、バックプロパゲーションの原理により、勾配消失の問題が発生し、ネットワークの収束が悪くなり、モデルのパフォーマンスが低下することがわかりました。この問題は、ResNet が残差ネットワーク構造を提案するまで解決されませんでした。 VDSR は、残差ネットワークと残差学習の考え方を超解像問題に初めて応用したものです。超解像ネットワークの層数を初めて 20 に増やしました。残差学習を使用して残差特徴を直接学習するため、ネットワークの収束が速くなり、超解像効果がより良くなるという利点があります。その後、いくつかの畳み込みニューラル ネットワークはより複雑な構造を提案しました。たとえば、SRGAN は生成的敵対ネットワークを使用して高解像度の画像を生成することを提案しました。SRGAN は 2 つの部分で構成されており、1 つは生成ネットワーク、もう 1 つは識別ネットワークです。生成ネットワークの役割は、低解像度の画像に基づいて高解像度の画像を生成することです。一方、識別ネットワークの役割は、生成ネットワークによって生成された高解像度の画像を偽であると判断することです。このように、ネットワークがトレーニングされると、生成ネットワークと識別ネットワークは常に互いに競争し、最終的にバランスが取れ、よりリアルなディテールとテクスチャを備えた高解像度の画像が生成され、主観的な視覚効果がより良くなります。 SRDenseNet、EDSR、RDN などの他の深層畳み込みネットワーク方式では、より複雑なネットワーク構造が使用されます。ネットワークの畳み込み層はますます深くなり、単一画像に対する超解像度効果はますます向上しています。 超解像技術の発展の全体的な傾向は、基本的に、従来の方法からディープラーニング方法へ、そして単純な畳み込みネットワーク方法からディープ残差ネットワーク方法へと要約できます。このプロセスでは、超解像モデルの構造がますます複雑になり、ネットワーク層がますます深くなり、単一画像の超解像効果がますます向上しますが、これにも一定の問題が生じます。 2. リアルタイムビデオタスクの要件とSRの課題RTC 分野では、ビデオ処理タスクのほとんどがライブ ブロードキャストや会議などのインスタント コミュニケーション シナリオであり、アルゴリズムのリアルタイム パフォーマンスに対する要件が高いため、ビデオ処理アルゴリズムのリアルタイム パフォーマンスが優先されます。次に、アルゴリズムの実用性があります。ユーザーがライブ放送や会議を使用している場合、カメラで撮影したビデオの品質が低く、ノイズが多く含まれることがあります。また、ビデオはエンコードおよび送信前に圧縮されるため、圧縮プロセスによっても画質が低下します。そのため、RTCの実際の適用シナリオは比較的複雑であり、超解像アルゴリズムなどの多くのビデオ処理方法は、研究中の比較的理想的なシナリオです。最後に、ユーザーエクスペリエンス、特にモバイルユーザーのエクスペリエンスを向上させ、アルゴリズムのコンピューティングリソース使用量を削減し、より多くの端末やデバイスに適用する方法も、ビデオタスクで考慮する必要があることです。 これらの要件を満たすには、現在の超解像手法、特にディープラーニングに基づく手法には多くの問題があります。現在、学術界における超解像に関する研究のほとんどはまだ理論段階に限られており、画像超解像、特にビデオ超解像を大規模に実装するには、いくつかの実用的な問題を解決する必要があります。 1 つ目は、ネットワーク モデルの問題です。現在の多くのディープラーニング手法では、より優れた超解像効果を実現するために、パラメーター数が増加した大規模モデルを使用していますが、これは多くの計算リソースを消費し、多くの実際のシナリオではリアルタイムで処理することができません。 2 つ目の問題は、ディープラーニング モデルの一般化能力です。さまざまなディープラーニング モデルでは、トレーニング セットの適応の問題があります。トレーニング中は異なるトレーニング セットが使用され、異なるシナリオでのパフォーマンスも異なります。公開データ セットでトレーニングされたモデルは、実際のアプリケーション シナリオで同じ優れたパフォーマンスを発揮しない可能性があります。最後に、実際のシナリオにおける超解像効果の問題があります。現在、学術界における超解像法は、主に比較的理想的なシナリオに関するもので、ダウンサンプリングされた画像から高解像度の画像への再構成を完了します。ただし、実際のシナリオでは、画像劣化にはダウンサンプリング要因だけでなく、画像圧縮、ノイズ、ぼかしなど、他の多くの要因も含まれます。 要約すると、RTC ビデオ タスクにおける現在の AI ベースの超解像度方法が直面している主な課題は、比較的小規模なネットワークに依存して、現実世界で良好な効果を伴うビデオ品質の向上を実現する方法、つまり「馬をより速く走らせながら、より少ない草を食べるようにする方法」に要約できます。 3. 映像超解像技術の開発方向まず第一に、ディープラーニング手法は依然として超解像アルゴリズムの主流となるでしょう。 従来の方法では超解像タスクのパフォーマンスが悪く、詳細が比較的貧弱だからです。ディープラーニング手法は、超解像の新しいアイデアを提供します。近年、畳み込みニューラルネットワークに基づく超解像法が徐々に主流となり、その成果は着実に向上しています。 上図からわかるように、近年ではAIによる超解像手法に関する論文数が従来の手法を圧倒的に上回っており、今後数年間でこの状況はさらに拡大していくと考えられます。いくつかの問題はあるものの、いくつかの軽量ネットワークの出現により、ディープラーニング手法は将来的に実用化において大きな進歩を遂げ、これらの問題は解決される可能性があります。ディープラーニング手法は、依然として超解像の主流の研究方向となるでしょう。 第二に、より小さなパラメータを持ついくつかの軽量ネットワークは、超解像アルゴリズムの実装を促進する上でより大きな役割を果たすでしょう。 EDSR や RDN などの深層残差ネットワークなどのさまざまな深層畳み込みネットワーク方式は、リアルタイム ビデオ伝送のニーズを満たすのが難しいため、いくつかの小規模で軽量なネットワークの方がリアルタイム タスクに効果的です。 第三に、将来の超解像手法は、実際のシーンのタスクにさらに重点を置くようになります。 学術分野におけるほとんどのSR手法は、ダウンサンプリング問題に対する超解像に重点を置いており、実際のシーンでのパフォーマンスはあまり良くありません。実際のシーンでは、画像劣化を引き起こすさまざまな要因があります。圧縮損失、コーディング損失、さまざまなノイズを含む超解像タスクなど、よりターゲットを絞った方法の方が実用的かもしれません。 4. NetEase Cloud AI 超解像アルゴリズムRTC フィールドでは、ビデオ ファイルが大きすぎるため、エンコードしてから受信側に送信し、デコードして再生する必要があります。エンコーディングの本質はビデオを圧縮することであるため、ネットワークが比較的貧弱な場合、エンコーディングの量子化パラメータは比較的大きくなり、深刻な圧縮が発生し、出力画像にブロック効果やその他の歪みが生じ、画質がぼやけてしまいます。この場合、デコードされたビデオを直接超解像すると、圧縮損失が増幅され、超解像効果が理想的ではなくなることがよくあります。これらの問題に対処するため、NetEase Cloudはコーディング損失の復元に基づくビデオ超解像法を提案しました。データ駆動とネットワーク設計の両方を重視した戦略を採用し、データ処理を通じて実際の歪みシナリオをシミュレートし、モデル設計からエンジニアリング実装までレイヤーごとの最適化を実行しました。AI超解像技術を制限する2つの主要な問題で一定の突破口を開き、モデルのリアルタイムパフォーマンスと実際のシーンの超解像効果の面で良好な結果を達成しました。 上記は、NetEase CloudがAI駆動型超解像技術の応用を推進する上での実践経験の一部です。皆様にとって刺激となり、参考になることを願っています。 |
<<: 画像や音声などのソーシャルデータを使用することで、人工知能技術は亡くなった親戚や友人とのコミュニケーションを可能にするかもしれない。
[[400902]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
本日、VRの第一人者でありOculusのCTOであるジョン・カーマック氏はFacebookにメッセー...
専門家や業界関係者は、人工知能がさまざまな業界や分野に広く浸透するにつれ、現場の応用に重点を置き基礎...
今日の急速に変化する物流の世界では、効率が鍵となります。世界経済は商品の円滑な流れに完全に依存してい...
[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...
近年、人口ボーナスの継続的な減少に伴い、無人作業の需要がますます顕著になり、ロボット産業は急速な発展...
【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...
機械学習は、大規模なデータセットを分析してパターンを識別する能力があることで知られています。基本的に...
ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...
自動化技術は現在あらゆる業界に浸透しつつあり、これはサプライチェーンにおいて特に顕著です。実際、自動...
皆さんこんにちは、Lugaです。今日も引き続き、人工知能(AI)エコシステムに関連する技術であるLa...
2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...
長年にわたり、AI テクノロジーの発展と変化に伴い、さまざまな業界や IT 意思決定者がこの分野に多...