7月26日、マルチメディア分野の世界最高峰の学術会議であるICME 2021で開催された「圧縮UGCビデオ品質評価」コンテストにおいて、ByteDanceのVolcano Engineマルチメディア研究所が結成した「QA-FTE」チームが、自社開発したVQScoreアルゴリズムで、同コンテストの「非参照ビデオ品質評価(NR-VQA)MOSトラック」で1位を獲得した。 このコンテストには、Volcano Engine Multimedia Laboratory のほか、世界的に有名な大学や企業から 11 チームが参加しています。コンテスト全体は、VQA 分野における 2 つの主流ソリューションに対応する 2 つのトラックで構成されています。 1. 非参照ビデオ品質評価 (NR-VQA) MOS トラック: 参照情報がない場合の破損したビデオの品質を評価します。 2. フルリファレンスビデオ品質評価 (FR-VQA) DMOS トラック: リファレンスビデオと破損したビデオ間の品質の違いを測定します。 Volcano Engine Multimedia Lab は、ノーリファレンス ビデオ品質評価 (NR-VQA) MOS トラックで最高得点をすべて獲得しただけでなく、フルリファレンス ビデオ品質評価 (FR-VQA) DMOS トラックのいくつかの指標でも最高得点を獲得しました。 「圧縮UGCビデオ品質評価」とは ビデオ品質評価とは、アルゴリズムモデルを使用して、ビデオが鮮明かどうか、ノイズがあるかどうか、画質が良いかどうかなどのビデオの品質を自動的に判断し、さまざまなスコアを付与するプロセスです。ビデオの品質は、ユーザーのビデオ視聴体験に直接影響します。 ビデオ品質を自動的に評価するアルゴリズム モデルを使用すると、ユーザーがビデオを制作するプロセスとシステムがビデオを処理するプロセスで、ビデオをより適切に処理するための手段を自動的に使用できます。 たとえば、評価の結果、ビデオの解像度が低すぎて鮮明に見えないことが判明した場合は、超解像度アルゴリズムを使用して鮮明にすることができます。また、評価の結果、ビデオにノイズが多すぎることが判明した場合は、ノイズ除去アルゴリズムを使用してノイズを減らすことができます。 たとえば、ビデオ自体がすでに非常にぼやけていることがわかった場合は、トランスコーディング ビット レートを下げてシステム帯域幅を節約し、視聴者がデータを節約できるようにすることができます。 たとえば、ユーザーがビデオを撮影しているときに、現在のシーンが逆光で登場人物の顔の特徴がはっきりしていないことに気付いた場合、照明と角度を調整するようにユーザーに促すことができます。 動画品質評価は動画の「入学試験」ともいえます。テストの点数に基づいて、アルゴリズム講師が生徒の適性に合わせて指導し、それぞれの動画をより美しく仕上げます。 しかし、従来の専門テレビ局が撮影した動画と比較すると、UGC 動画の採点はさらに難しい作業です。結局のところ、動画制作においては、ネットユーザーの想像力を過小評価することはできません。 例えば、UGC動画には、ユーザーが撮影した自然風景、食べ物、建築物、ポートレート、動物など、さまざまな主題のコンテンツが含まれています。中には、自然撮影ではなくゲーム録画したものもあり、さまざまな字幕も付いています。 たとえば、一部の動画は縦向きの動画ではありませんが、モバイル デバイスで再生できるように、上下に背景の塗りつぶしが追加されます。塗りつぶされたパターンは実際には非常に鮮明な色のブロックですが、中央のビデオは鮮明ではない可能性があります。両側の塗りつぶされたパターンが鮮明に見えるからといって、ビデオが鮮明であると判断することはできません。
例えば、この大きな頭の特殊効果では、特殊効果の部分は非常に鮮明ですが、特殊効果の外側のキャラクターの部分は少しぼやけています。これは鮮明ですか、それともそうでないですか? また、UGC撮影にはさまざまな状況が伴うため、ユーザーの手が震えると映像がぼやけたり、ノイズや露出オーバー、揺れ、歪みなどさまざまな問題が絡み合ったりして、アルゴリズムの評価が難しくなります。 Volcano Engine Multimedia Laboratory が開発したVQScoreアルゴリズムは、ビデオ品質のスコアリングに特化して設計されています。このアルゴリズムのトレーニングに使用されるデータ セットはすべて、クラウドソーシング ユーザーが独自の美的感覚と視聴体験に基づいてスコアリングしたものです。これにより、アルゴリズムのスコアリングがほとんどの一般視聴者の視聴体験と一致することが保証されます。これは 2 年以上にわたって蓄積されてきました。 現在、VQScoreシリーズのビデオ品質評価アルゴリズムは、DouyinやXigua Videoなどの製品に実装されているだけでなく、Volcano Engineビデオオンデマンドサービスの一部として一般にも公開されています。 ユーザーから始めて、データセットを巧みに「分解」する 競技プロセス全体を振り返ると、Volcano Engine Multimedia Lab もモデルスコアのボトルネックに遭遇し、どのように最適化してもスコアを向上させることができませんでした。 ここで注目すべきは、ゲーム全体のデータセットは、次のようないくつかのビデオ アプリの実際のビデオから取得されたものであるということです。 トレーニングセット: 6400 個のトレーニングビデオクリップ 検証セット: 検証ビデオクリップ 800 本 テスト セット: 参加モデルの比較とスコアリングに使用される 800 個のテスト ビデオ クリップ。参加者には提供されません。 各ビデオは、H.264/AVC エンコーダーによって、弱いものから強いものまでさまざまな程度の損傷を持つ 7 つの圧縮セグメントに圧縮されました。主催者は、主観テストを通じて、各ビデオ セグメントに対して 50 を超える主観的な MOS スコアを収集しました。 参加者がモデルのトレーニングに使用するデータは、コンテスト主催者の公式データから取得する必要があり、参加者自身のデータを使用することはできません。データはモデルをトレーニングするための原材料です。データが不十分な場合、アルゴリズムエンジニアは「料理が上手でも米がなければ料理はできない」という問題によく遭遇します。「米がない」わけではないのですが、「米」の量が足りないのです。 「お米」の量を増やすにはどうすればいいでしょうか? Volcano Engine Multimedia Lab の学生たちは、データセット内のビデオを 1 つずつ視聴することにしました。多くのサンプルを視聴した後、彼らは突破口を見つけました。 元の方法では、多くの時間領域情報が使用されていました。簡単に言えば、ビデオのタイムバーが進むにつれて、ビデオの各フレームが相関します。ビデオの主人公がアクションを完了したり、シーンが少し変わったりすると、前のフレームと次のフレームの間に接続があります。 競技データセット内のビデオのほとんどは長さが約 10 秒で、時間情報は非常に安定しており、画質も大きく変化しません。 データとユーザーに対する深い理解と、長年にわたるデータ処理の経験に基づいて、エンジニアは次のことを認識しました。 ユーザーは実際には時間領域に敏感ではなく、各フレームの画像情報、つまり空間情報に注意を払います。 ユーザーエクスペリエンスを考慮して、彼らはより実用的なトレードオフを行いました。 単一のビデオ データ セットを個別のフレームに分割して使用します。 時間情報に着目した手法では、データセット内の各ビデオがトレーニング用の単一のデータとして扱われ、合計6,400 個の入力データが使用されます。しかし、時間領域の情報を放棄し、10秒のトレーニングビデオをそれぞれ個別のフレームに分割すると、約300フレームのデータを取得できます。これは、トレーニングアルゴリズムのデータ セットを元のサイズの30倍に増やすことに相当し、6,400個の入力データを192,000個に変換できます。 また、この新しいアプローチには追加の利点もあります。それは、モデルがトレーニング セット内の回答を記憶し、テスト セットでうまく機能しなくなるという、過剰適合を回避できることです。 「時間領域の情報を多用すると過剰適合につながり、それはパイの大きな部分を確保するために小さな部分を犠牲にするのと同じことになります。」 参加モデルの技術的実装 このコンテストでは、Volcano Engine Multimedia Labは、従来のCNN(畳み込みニューラルネットワーク)を使用するだけでなく、NLP分野でのTransformerの大成功を考慮して、UGCビデオの品質評価にTransformerを使用することを決定しました。CNNとTransformerを組み合わせ、CNNを使用してローカル機能を抽出し、Transformer構造を使用して自己注意メカニズムを通じて主観的な品質スコアを予測するフレームワークを提案しました。 参照なしモデルのフレームワークを上の図に示します。 Volcano Engine Multimedia Lab は、畳み込みニューラル ネットワーク (CNN) を特徴抽出器として使用し、入力ビデオ パッチの深層特徴を計算します。 ResNet の異なるレイヤーから特徴を抽出し、空間次元で MaxPooling を使用して同じサイズにダウンサンプリングし、特徴次元で連結します。フィーチャの空間次元を平坦化し、線形投影を実行し、Transformer の入力として埋め込みを追加します。 採用された Transformer アーキテクチャは、L 層のマルチヘッド アテンション モジュール (MSA) とマルチ レイヤー パーセプトロン モジュール (MLP) を含む標準の Vision Transformer に準拠しています。 Transformer は MLP ヘッドに接続され、最終的な主観評価を回帰します。 トレーニングに使用される損失関数は、平均二乗誤差 l1-Loss と PLCC-Loss の加重加算で構成されます。 PLCC はバッチ内の予測値と groundturthlabel の相関関係を表します。その値は [-1,1] に正規化されます。PLCC 値が大きいほど、パフォーマンスは向上します。したがって、PLCC 損失は次のように表されます。 完全な参照モデル フレームワークを下の図に示します。参照パッチと対応する位置の歪みパッチを共有重み付きツインニューラルネットワークに入力してそれぞれ深層特徴を抽出し、特徴空間でL1距離を計算し、それを新しい特徴入力回帰モジュールマッピングにつなぎ合わせて主観的なDMOSスコアを取得します。 下の図に示すように、トレーニング プロセス中に、圧縮されたビデオ クリップと対応する参照ビデオ クリップ (FR フレームワーク用) から 256×256 の画像パッチがランダムに切り取られ、圧縮されたビデオの品質スコアが切り取られたパッチのトレーニング ラベルとして直接使用されます。テストでは、各フレームの四隅と中央から 256×256 サイズの 5 つのパッチを切り取り、それらのスコアを個別に計算し (FR フレーム)、すべてのパッチの平均スコアを圧縮ビデオの予測スコアとして使用します。 実験では、特徴抽出に使用される ResNet18 ネットワークは、分類タスク用に ImageNet で事前トレーニングされたネットワークの重みで初期化され、同じ学習率を使用してフレームワークの残りの部分でトレーニングされました。Transformer には 2 つのレイヤーが含まれ、MSA ヘッドの数は 16 でした。重み w1=1.00、w2=0.02 の条件下では、L1 損失と PLCC 損失がフレームワークを共同で最適化するために使用されます。 提案モデルのパフォーマンスは、テスト セットでの競技結果における各チームのパフォーマンス指標 (PLCC/SROCC/KROCC/RMSE) と SOTA FR/NR アルゴリズムの予測品質スコアの散布図を比較することで検証されます。PLCC/SRCC/KROCC が 1 に近いほど優れており、RMSE が 0 に近いほど優れています。 A. MOS トラック: SOTA NR-VQA メトリックとの比較: B. DMOSトラック: SOTA FR-VQA メトリックとの比較: 圧縮・破損ビデオのMOSスコアを直接予測するNR方式では、Volcano Engine Multimedia Laboratoryが提案するNRフレームワークがすべての評価指標で1位を獲得しています。また、参照ビデオと破損ビデオの品質差のDMOSスコアを予測するFR方式では、Volcano Engine Multimedia Laboratoryが提案するFRフレームワークが予測単調性(SROCC、KROCC)で1位、予測精度(PLCC、RMSE)で2位を獲得しています。 同時に、散布図から、提案手法は主観スコアとの相関が高く、他の SOTA FR/NR 手法を大幅に上回っていることがわかります。 ビデオの品質が、視聴完了、保持、注目度などのユーザー行動を含め、実際のビジネス QoE に直接影響を与えることは疑いの余地のない事実です。人間の主観的な感情を模倣することは非常に難しいため、多くの要因の影響を受けます。しかし、ユーザーの実際の認識と業界の既存の学術的な測定システム(PSNR、SSIM、VMAFなど)の間にはまだギャップがあり、その評価基準は完全に統一されていません。 その結果、高画質のオリジナル作品のサポート、低品質のビデオコンテンツの取り締まり、コスト削減のためにトランスコーディングギアを画質に正確に合わせるなど、ビデオ業界の制作における要求に応える適切なソリューションが存在しません。上記の理由から、ByteDance/Volcano Engine は、この状況に対処し、同社のビジネスにおける長期的な問題点を解決し、業界に参照フリーの品質評価基準を導入するために、VQScore の開発に多大な努力を払ってきました。 UGC コンテンツの研究は、実際のアプリケーション シナリオに近づいています。UGC 品質評価アルゴリズムは、ビデオ プラットフォームの全体的な画質を監視し、画質改善アルゴリズムを監督し、圧縮効率の改善を導く上で重要な役割を果たします。 Volcano Engine Multimedia Laboratoryが提案したTransformer構造は、アルゴリズムの性能向上を実現し、その後の関連アルゴリズム研究に大きな指導的意義を持つと報告されています。 |
<<: 産業用ロボットの急速な発展は社会にどのような影響を与えるのでしょうか?
米国国土安全保障省および米国国税庁の元最高情報責任者であり、現在は Learning Tree In...
これはレビュー記事です。 それは偏りもあります。 スペシャリストではなく、物事を作ったり問題を解決し...
[[326722]] [51CTO.com クイック翻訳] データ、テクノロジー、人材の統合により...
[[223288]]人工知能から拡張現実まで、今年、将来を見据えた企業のビジネスを牽引する破壊的なテ...
ビッグデータと人工知能はどれほどの力を持っているのでしょうか。ほとんどの人はまだそれを直感的に理解し...
第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...
現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...
翻訳者|朱 仙中レビュー | Chonglou導入近年、大規模言語モデルの開発は飛躍的に進歩しました...
テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...
自動化農業の需要を満たすには、栽培者は栽培シーズンを通して作物の成長と健康に関する正確な情報を入手し...
病院では、人工知能 (AI) は人間の医師よりもレントゲンの分析が得意です。法律事務所では、AI は...
人工知能(AI)は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション...
ビッグデータのシナリオでは、ますます多くのトランザクションがアルゴリズムを通じて完了します。インター...