従来の著作権保護業界は、時間がかかり、労働集約的で、コストがかかります。膨大な量のコンテンツを完全に保護することは困難であり、コンテンツ配信ではその配信のセキュリティを制御することが困難です。ブロックチェーン技術は、改ざん防止、追跡可能、分散合意などの特徴があり、デジタル著作権保護と自然に調和します。ブロックチェーン技術とAIマルチメディア侵害検出技術を組み合わせることで、著作権保護のコストが大幅に削減され、著作権保護の効率が向上しました。また、オンライン著作権の保管、取引、保護に新しい方法を提供します。そこで、アントグループ-デジタルテクノロジーラインは、ワンストップデジタルコンテンツ原本保護プラットフォーム「Quezao」を立ち上げました。画像、動画などのコンテンツをワンクリックでチェーンにアップロードでき、著作権証拠の保管が迅速に完了します。司法機関と公証機関の共同証言のもと、「海賊版権利保護」の確固たる証拠となります。 関連製品の紹介は公式サイトでご覧いただけます:https://www.mydcs.com/pages/index 著作権保護において、動画の侵害を検出する能力は極めて重要な部分です。現在、横行する海賊版動画は、動画サイトに多大な損失をもたらすだけでなく、コンテンツ制作者にも計り知れない経済的、精神的損失をもたらしています。 2021年4月、中国共産党中央宣伝部著作権局は、動画著作権侵害の取り締まりを強化することを提案した。近年、二次創作や動画編集など著作権侵害の手法が次々と登場しており、海賊版動画による著作権侵害の例も、単なる盗撮や透かしの追加など、容易に著作権侵害と判別できるものに限られません。そのため、著作権保護のためのビデオ侵害検出方法が特に重要になります。この一連の問題に対処するために、AIベースのマルチメディア比較アルゴリズム技術は、手動レビューのコストを大幅に節約し、侵害証拠収集の効率を向上させ、大規模な検索条件下で正確な識別を実現できます。これは、ビデオ侵害問題に対する効果的なソリューションです。 図1. Antが構築した大規模ビデオ侵害データセット(VCSL)における典型的な侵害例 しかし、著作権侵害検出、特にビデオ侵害の分野では、学術界と産業界の両方でいくつかのボトルネックがあり、それは主に次の 3 つの点に反映されています。
上記の 3 つの主要な問題に対応するため、この研究では、ビデオのコピー検出と侵害箇所の特定に関連する以下の研究を実施しました。
上記の結果は、トップクラスのコンピュータビジョンカンファレンス CVPR とトップクラスのマルチメディアカンファレンス ACM MM にそれぞれ受け入れられ、公開されました。
大規模ビデオクリップコピー検出データセット VCSL前のセクションで述べた既存のデータセットの問題に対応して、この研究では、次の要件を満たす包括的なデータセットを提案したいと考えています。
上記の 3 つの要件に基づいて、本研究では VCSL (ビデオ コピー セグメント ローカリゼーション) データセットのラベル付けを完了しました。研究者らは、YouTube と Bilibili から 122 本のシード ビデオを選択し、各シード ビデオにはキーワードも関連付けました。ラベル付けのプロセスでは、研究者らは実際の状況をシミュレートし、ラベル付け担当者に著作権を侵害している可能性のある動画を検索し、比較してラベル付けし、無関係な動画を除外して、実際に著作権を侵害している時間セグメントをマークするよう依頼しました。 表1. VCSLと学術界における他の既存データセットの比較 VCSLデータセットと他の学術データセットとの比較を表1に示します。VCSLの侵害ビデオペアの数と侵害クリップの数は、既存の学術データセットよりも2桁多いことがわかります。また、動画の長さ、侵害クリップの長さ、動画の種類の分布もより広範囲にわたります。 ビデオクリップのコピー検出のための新しい評価指標学術界では、断片レベルのコピー検出の評価指標としてMuscle-VCD[5]やVCDB[4]が提案されている。近年の学術研究では、主にVCDB[4]で定義された断片の精度と再現率が使用されている。 精度と再現率の分子は両方とも正しく検出されたセグメントであり、正しく検出されたセグメントとは、実際の侵害セグメントと 1 フレーム重複しているセグメントとして定義されます。精度の分母は検出されたすべてのフラグメントの数であり、再現率の分母は実際に真のコピーとしてラベル付けされたフラグメントの数です。さらに、VCDB の論文では、フレームの精度と再現率も定義されています。 フラグメント粒度に似ていますが、統計次元がフレーム粒度である点が異なります。 前述のセグメント精度/再現率とフレーム精度/再現率には限界があります。最も重要な点は、この評価指標はクリップとビデオのコピー検出にのみ適しており、入力として 2 つの完全なビデオではなく、ラベル付けされた侵害クリップと侵害の可能性があるビデオを必要とすることです。この評価方法は、実際のシナリオでは非現実的です。同時に、セグメント精度/再現率については、実際にマークされたセグメントと 1 フレーム重複していれば検出されたセグメントが正しいとみなす計算方法では、違反箇所を特定する評価指標の精度に対する認識が悪くなります。さらに、これらのメトリックでは、ビデオ コピーのいくつかの重要な特性、つまり以下で説明するセグメンテーションの同等性が考慮されていません。 これまでの評価基準では、ラベル付けされたクリップをビデオと比較する必要がありましたが、これは実際のアプリケーションには適していませんでした。この研究で提案された評価指標では、2 つの完全なビデオを入力として使用し、2 つのビデオ内のコピーの可能性があるセグメントを検出しました。さらに、本研究では、ビデオコピーを観察したラベル付きデータにおいて、ビデオコピーの特性、すなわちセグメンテーション等価特性を発見しました。この特徴は、コピーされた断片の境界を判別することが難しい場合があるという事実によるものです。下の図に示すように、ビデオ部分の中間フレームが変更され、他のビデオフレームが一時的に挿入されます(下の図2(a)を参照)。図2(b)の混合カットの状況も同様です。これらの場合、コピーされたビデオ断片を全体のセグメントと複数の連続セグメントとしてマークすることが合理的であると研究では考えています。したがって、新しい評価指標を設計する際には、評価指標がこのセグメンテーションに対して堅牢になるように、この研究ではこのフラグメントセグメンテーション同等特性を考慮する必要がある。 図2. 動画侵害事例、(a)、(b) 図の左側は時間順に並べられた動画フレームを示し、右側は動画フレームシーケンス類似性図を示しています。横軸と縦軸はそれぞれ2つの動画の時間軸を表しています。黒い枠は実際にマークされた侵害イベントセグメントを表しています。詳細な説明図は、後で図6の右側にも表示されます。 この評価指標の表現は、下の図に示すように、ビデオフレームの類似性グラフで表すことができます。コピーセグメントペアは類似度グラフ上の検出ボックスとして表され、コピーセグメントは類似度グラフ上の直線として表され、フレームの連続的な対応を示します。オレンジ色のボックスは実際のラベル付き GT コピー フラグメントを表し、青色のボックスはアルゴリズムによって出力された予測コピー フラグメントを表します。 図3. (ab)は本研究で提案したアルゴリズムの計算プロセスを示し、(cf)は本研究で提案した4つの評価指標と従来の指標との簡略化された比較を示しています。点線は、時間領域における侵害フレームの位置を示します。より複雑なパターンとして現れる、より複雑な侵害状況が存在する場合もあります。 具体的には、まず、図(a)に示すように、各GTボックスとすべての予測ボックスとの交差領域を見つけ、次に、この重なり合う領域のx軸とy軸上の和集合の長さを計算します。同時に、各GTボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母はGTボックスの長さの合計です。上図(a)に示すように、再現率が得られます。同様に、この研究では、まず、上の図 (b) に示すように、各予測ボックスとすべての GT ボックスとの交差領域を見つけ、次に、この重なり合う領域の x 軸と y 軸上の和集合の長さを計算します。同時に、各予測ボックスの長さと幅が計算されます。最終的に、分子は重なり合う領域の和の長さの合計、分母は予測ボックスの長さの合計です。上図(b)に示すように、精度が得られます。 この研究では、評価指標をセグメントの分割に対してより堅牢にするために、学術界で一般的に使用される領域ではなく、xy軸の投影を使用して計算したことは注目に値します。最後に、再現率と精度を組み合わせて F スコアを取得し、評価パラメータとして使用します。 ビデオクリップコピー検出アルゴリズムのベンチマークまず、ビデオコピー検出アルゴリズムの処理フローは、下の図に示すように、ビデオ前処理、ビデオ特徴抽出、ビデオ侵害箇所の 3 つの部分に分かれています。 図 4. ビデオコピー検出アルゴリズムの処理フロー。 この研究では、VCSLデータセットと新しい評価指標に基づいて、まず、ハフ投票、時間ネットワーク、動的計画法、動的時間ワーピングなど、現在一般的な侵害位置特定アルゴリズムを再現し、一般的なオープンソースのフレーム特徴アルゴリズムと組み合わせて、下図に示すベンチマークを取得しました。 その中で、SPDは昨年のACM MM21で研究チームが提案した侵害箇所特定アルゴリズムであり、ビデオ侵害箇所特定に最も効果のあるアルゴリズムでもあります。 SPD の下線 1 は、以前のオープン ソース データセット VCDB でのトレーニングの効果を表し、下線 2 は、VCSL データセットでのトレーニングの効果を表します。後者の方が前者よりも優れていることがわかり、これは大規模なデータセットの重要性も示しています。 ここでは、ACM MM21 で公開された論文「大規模なコンテンツ ベースのビデオ検索におけるセグメント類似性とアライメントの学習」についても簡単に紹介します。この論文では、主に自己教師ありキーフレーム抽出 (SKE) と類似性パターン検出 (SPD) の 2 つの部分で構成されるビデオ セグメント類似性とポジショニング ネットワーク (SSAN) を提案しました。キーフレーム検出 (SKE) は主に、堅牢で代表的なキーフレームを抽出し、類似の冗長フレームを削除するために使用されます。類似画像侵害位置検出 (SPD) は主に、類似のビデオクリップを見つけるために使用されます。 SSAN 全体をエンドツーエンドでトレーニングすることで、現時点で最高のフラグメントレベルの侵害検出効果を実現できます。 論文アドレス: https://dl.acm.org/doi/abs/10.1145/3474085.3475301 図5. キーフレーム抽出モジュール、フレームベースのビデオ検索、時間領域侵害位置特定モジュールを含むSSANアルゴリズムの構造 類似グラフ侵害箇所検出(SPD)モジュールでは、図に示すように、侵害箇所の問題をターゲット検出の問題に巧みに変換しました。この方法では、侵害箇所の結果を得るために必要な計算量はごくわずかで、複数の侵害を検出することができます。 図6. 左: 時間領域侵害箇所特定のためのSPDアルゴリズムの概略図。右: 類似度グラフ生成とオリジナルビデオ比較の概略図 |
>>: 食べられる「論理ゲート」:科学者たちはデザートを「ミニコンピューター」に変えた
NetEase Intelligence News: 人工知能はまもなく私たちの世界を変えるでしょ...
遺伝的アルゴリズムは、進化のプロセスに性質が似ている最適化手法です。これは乱暴な例えかもしれませんが...
機械学習の初心者であっても、中級プログラマーであっても、この質問に戸惑うかもしれません。チートシート...
SPF アルゴリズムは、各ルータをルートとして使用して、各宛先ルータまでの距離を計算します。各ルータ...
大規模言語モデル (LLM) の進歩により、AI エージェント (特に LLM エージェント) の活...
[[405721]]過去 10 年間で採用手法が進化するにつれ、人材獲得における人工知能の活用がます...
最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リ...
[[413545]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...
大規模モデルのアライメントパフォーマンスを評価する最も効率的な方法は何ですか?生成AIのトレンドでは...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIチップはクラウドとエッジに分かれています。クラウドチップは高いパフォーマンスが求められますが、...
画像出典: インターネット来年発売されるヒュンダイG90とGV80は、ヒュンダイのL3自動運転モデル...
自動運転の普及初期には交通渋滞が悪化するだろう。これは、自動運転についてのあなたの理解と異なりますか...