ビデオ会議圧縮アルゴリズム

ビデオ会議圧縮アルゴリズム

ビデオ会議 264 ビデオ圧縮 - SVC

H.264 には、階層化されたエンコードを可能にする SVC (Scalable Video Coding) というコンセプトもあります。具体的な意味はともかく、ビデオ通信で発生する可能性のある問題を想像してみましょう。

1. 帯域幅の問題: IP ネットワーク帯域幅が不安定です。ネットワーク帯域幅が減少すると、ビデオ ストリームは自動的にビット レートを下げて現在の帯域幅に適応する必要があります。ビデオ ストリームのビット レートが低下してもビデオ通信が終了するわけではありませんが、フレーム レートと解像度はそれに応じて低下します。これにより、フレーム レートを 60fps から 30fps、25fps、さらには 20fps に下げることができるなど、基本的なビデオ通信は維持されます。解像度は HD から SD 4cif または cif に下げることができます。これにより、ビット レートが大幅に削減されますが、同時にビデオ通信の通常の基本機能が確保されます (ユーザーは認識可能なグラフィックを表示し、クリアなサウンドを聞くことができます)。

2. 今後の通信では、専用のハードウェアビデオ端末、デスクトップソフト端末、モバイル端末の中でもPADや携帯電話など、さまざまな端末がビデオ会話に参加することになるでしょう。端末の多様性により、ビデオ ビットストリームに対する要件も異なります。たとえば、モバイル端末は一般的に帯域幅が比較的狭く、画面サイズが小さく、画面のアスペクト比が異なります。各端末は、ネットワーク帯域幅とハードウェア機能の両方に適した、自身にとって最も適切なビデオ ストリームを取得したいと考えています。たとえば、デバイスがビデオをエンコードしてストリーミングする場合、ビデオには HD から SD までのさまざまな解像度が含まれ、さまざまなフレーム レートがあります。端末はアプリケーションを起動し、それに適したコード ストリームを取得するだけで済みます。これはトランスコーディングを回避し、端末の帯域幅とハードウェア機能を適切に使用できる素晴らしい機能です。

これは、コード ストリームのスケーラビリティを実現すること、つまり、帯域幅と端末の要件に応じて、端末に送信されるビデオ ストリームの形式を自動的に調整するという、SVC の本来の目的です。ワンタイムコードは、さまざまなチャネルや端末に適用できます。ビデオ会議にはMCUデバイスが使われています。MCUの機能を調べてみると、SVC技術の利用にいかに適しているかが分かります。 SVC テクノロジを適用すると、理論的には MCU のコンピューティング リソースがいくらか節約されるはずです。しかし、1 つの SVC コード ストリームは、実際には互いに独立した複数のコード ストリーム セットで構成されており、これらすべてを伝送して保存すると、帯域幅と容量が必然的に増加します。したがって、この技術は中央デバイス(MCUなど)での使用に適しており、端末では使用されません。 SVC は、一度エンコードして、オンデマンドで配信することを望んでいます。

SVC テクノロジは現時点では広く使用されていませんが、RADVISION はこれをサポートすると主張しています。 MCU が現在行っていることは、最も低い機能に従ってエンコードして送信するか、配列機能に従ってエンコードして配列コード ストリームを送信するかのいずれかです。 SVC テクノロジーはビデオ圧縮規格を越えることはできません。つまり、H.264 またはその他の同一のビデオ圧縮規格の範囲内である必要があるため、受信側はこの規格をサポートしている必要があります。圧縮規格がクロスドメインである場合(たとえば、端末でサポートされる圧縮規格が異なる場合、たとえば、MPEG のみをサポートする場合、H.263 のみをサポートする場合、または H.264 のみをサポートする場合など)、端末デバイスは相互運用性を実現するためにトランスコーディングも実行する必要があります。

ビデオ会議圧縮アルゴリズム - H.264 ハイプロファイル

H.264 ハイプロファイル

リアルタイム ビデオは、より高品質かつより低い帯域幅へと進化し続けています。 H.264 ハイ プロファイル テクノロジーは、2010 年に Polycom によってビデオ会議システムに初めて使用されました。 h.264 ベースラインと比較すると、帯域幅がさらに半分近く節約されます。もちろん、個人的には疑問を持っており、高解像度グラフィックスの帯域幅は 40% ~ 50% 削減できるはずだと考えています。解像度が小さい場合は、ビット レート比はそれほど明白ではない可能性があります。ただし、重要なのは、高解像度のグラフィックスのビット レートを下げることです。高解像度のリアルタイム会議では、H.264 ベースラインを使用する場合、帯域幅の要件は依然として比較的高くなります。特に 1080P 30pfs または 60pfs を実行する場合。帯域幅を半分に削減できれば、2~4M の帯域幅を節約できます。MCU 側であれば、帯域幅の節約はさらに大きくなります。

ここでは、h.264 のいくつかのプロファイルについて簡単に紹介します。

AVC/H.264 では、最小プロファイル、メイン プロファイル、拡張プロファイル、ハイエンド プロファイルなど、さまざまなプロファイルが指定されています (これらのプロファイル自体は複数のレベルに分かれています)。

- 最も低いプロファイル (ベースライン プロファイルとも呼ばれます) は、I/P フレームをサポートし、非インターレース (プログレッシブ) と CAVLC のみをサポートします。

- 拡張プロファイルは I/P/B/SP/SI フレームをサポートし、プログレッシブと CAVLC のみをサポートします。

- メイン プロファイルは I/P/B フレームを提供し、プログレッシブ フレームとインターレース フレームをサポートし、CAVLC と CABAC もサポートします。

- ハイ プロファイルは、メイン プロファイルに 8x8 イントラ予測、カスタム量子化、ロスレス ビデオ エンコーディング、およびその他の YUV 形式を追加します。

(以下はポリコムのリテラシー文書からの直接引用です)

これらの機能を整然と整理するために、H.264 では、複雑さとパフォーマンスの増加に応じて、これらの機能をいくつかの仕様カテゴリにグループ化します。この図は、H.264 の 4 つの標準化仕様の関係を示しています。

H.264 プロファイル

今日のほとんどのビデオ通信システムは、ベースライン プロファイルを使用しています。ベースラインは、最も基本的な H.264 プロファイルと定義です。たとえば、画像をジグザグにしてから 4:2:0 クロマ サンプリングを使用します。ベースライン プロファイルでは、画像は複数の 4x4 ピクセル ブロックに分割され、各ブロックは個別に処理されます。ベースライン プロファイルのもう 1 つの重要な要素は、均一可変長コーディング (UVLC) とテキスト適応可変長コーディング (CAVLC) エントロピー コーディング テクノロジの使用です。コーディング効率はビデオに使用されるネットワーク帯域幅に大きな影響を与えます。コーディング技術の進歩により、以下で説明するように、ハイ プロファイルの効率はベースライン プロファイルよりも向上しています。

拡張プロファイルとメイン プロファイル標準には、ベースライン プロファイルの機能が含まれており、予測アルゴリズムに改善が追加されています。 1000 ~ 2000 倍の圧縮率を達成したい場合、個々のフレームを個別に送信することは明らかに不可能です (1 秒あたり 30 フレームの高品質ビデオを想像してください)。H.264 は時間領域と動き予測を広範に活用しているため、前のフレームとは異なる画像のみを送信できます。これにより、特に変化や動きの少ないシーンでは、驚くべき効率が得られます。

ハイプロファイルは、最も効率的なビデオエンコーディングを実現できる、H.264 の最も強力な標準仕様です。たとえば、コンテキスト適応型バイナリ算術符号化 (CABAC) による符号化によって得られる符号化ゲインは、ベースライン プロファイルで使用される UVLC/CAVLC 符号化よりも効率的です。

High Profile では、適応型変換も使用され、4x4 ピクセル ブロックを使用するか、8x8 ピクセル ブロックを使用するかが自動的に決定されます。たとえば、画像の詳細が密集している部分には 4x4 ピクセル ブロックが使用され、詳細がほとんど変化しない画像には 8X8 ピクセル ブロックが使用されます。

H.264 にはデコーダーのブロック図も用意されていますが、エンコード機能と多くの部分が重複しているため、簡潔にするためにこの記事では詳細には触れません。

ハイプロファイルの主なメリット

ビデオ品質を維持し、必要なネットワーク帯域幅を大幅に削減する機能は、ビデオ ネットワーキングのあらゆる側面に影響を及ぼします。その結果、High Profile は新規および既存のビデオ導入のコストを削減し、投資収益率 (ROI) を加速することができます。

引用終了

上の図を見ると、前に述べたように、アルゴリズムの圧縮効率が高くなるほど、アルゴリズムの複雑さは一般的に高くなります。リアルタイム圧縮を実現するには、チップに求められる技術能力が高くなります。したがって、注目度の高い技術の応用は、チップや半導体技術の発展にとって避けられないものとなります。将来的には、より複雑な H.265 へと移行するでしょう。

上記の記事では、ビデオ圧縮の目的はビデオの保存スペースまたはビデオの伝送帯域幅を削減することであると述べられています。ストレージと帯域幅が比較的安価な今日では、ビデオ圧縮なしでビデオの大容量ストレージ(ビデオ監視など)とリアルタイム伝送を実現することはほぼ不可能です。

ビデオ圧縮ステータス:

ビデオ圧縮コーディング規格には多くの種類がありますが、その中でもITUが主導するH.26xシリーズとISOが主導するMPEGシリーズが最も大きな影響力を持ち、最も広く使用されています。初期の頃は、ITU の H.26x が主にリアルタイム分野で使用され、ISO の MPEG シリーズ (オーディオ圧縮規格を含む) は主に放送、VCD (MPEG1)、DVD (MPEG2) ストレージで使用されていました。 ITU が H.264 を開発した後、ISO の MPEG4 と統合され始めました。 MPEG-4 のパート 10 に含まれています。

現在主流の圧縮規格は H.264/AVC です。リアルタイム伝送やストレージの分野で広く使用されています。 H.264 は 9 年前の 2003 年に正式にリリースされました。私は、今後 5 年間も H.264 規格がビデオ アプリケーションの主流であり続けると信じています。 IPTV、ビデオ監視、ビデオ会議、光ディスクストレージの分野では、今後も優位に立つでしょう。

ビデオ圧縮の進歩評価:

ビデオ圧縮アルゴリズムが高度であるかどうかを評価するには、同じビデオ品質条件下で他の圧縮アルゴリズムと比較して、その圧縮率が高いかどうかを確認する必要があります。

前回のブログ記事では、1080P 25fps での生の動画データ量を計算しました (注: ここで書いている M は Mb を意味し、ネットワーク帯域幅の意味に合わせて計算することを意味します。ネットワーク帯域幅は 1 秒あたりのビット数に基づいて計算され、ストレージ容量の最小単位は Byte であり、バイト (8bit) です。ストレージ容量単位の 1M は 1MB を意味し、ネットワーク帯域幅の 8Mb に相当します)。 1秒あたりのデータ量はおよそ593Mbです。ユーザーの帯域幅が 4Mb の場合、1080P のリアルタイム会議または監視を実現するには、元のビデオを少なくとも 593/4 = 150 倍圧縮する必要があります。

現在、高解像度のリアルタイム ビデオ アプリケーションの実装では、一般的に H.264 アルゴリズムが採用されています。同じ視覚効果の場合、その圧縮率は他の標準よりも少なくとも 2 倍高くなります。たとえば、H.264 は現在、4M または 2M の帯域幅で 1080P のリアルタイム伝送を実現できますが、これは他のアルゴリズムではほとんど不可能です。

ビデオ圧縮アルゴリズム開発の原動力:

「すべての動機は人間の果てしない欲望から生まれる」というのは、ビデオ技術の発展についても同じことが言えます。映画やテレビの分野では、高解像度の効果を一度楽しむと、過去の標準解像度時代の画質体験を受け入れられなくなります。 3D映画『アバター』公開後、世界中に3D旋風が巻き起こった。コミュニケーションの分野では、人々はいつでもどこでも直接対面してコミュニケーションをとることを望んでいます。過去 2 年間で、シスコやその他のメーカーが開始した没入型テレプレゼンス ビデオ会議が非常に人気を博しました。監視やIPTVもフルHD時代に入りました。将来は3D時代へと発展します。

より繊細で鮮明な画質で、視覚的な楽しみをさらに高めます。動画データの量が多くなります。伝送と保管に対する圧力も増大しています。したがって、ビデオ圧縮アルゴリズムにはより高い要件が課せられます。ビデオ信号の保存と送信にかかる負担を軽減するために、より高い圧縮率を達成できることが期待されます。

ビデオビジネス開発の基盤:

ビデオ圧縮の中心的な考え方は、ビデオ信号の特性を利用して、ビデオ信号の時間的および空間的な冗長性を除去することです。 H.261 から H.264、MPEG1 から MPEG4 へ。アルゴリズムの圧縮率が大幅に向上しました。将来的には、H.265 などのより高度なアルゴリズムが登場するでしょう。アルゴリズムの研究者は、ビデオ サービスの開発の技術的基盤の 1 つである、効率的で高性能なアルゴリズムの出現を絶えず推進しています。

一般的に、アルゴリズムの圧縮率が高くなるほど、アルゴリズム自体の複雑さも高くなります。複雑なアルゴリズムには、より強力な計算能力が必要です。特にリアルタイムビデオサービス。したがって、チップコンピューティングの発展は、ビデオ通信とサービスの発展に対するハードウェア保証となります。現在の DSP チップの処理能力も継続的に向上しており、一定の帯域幅条件下でリアルタイムのエンコードを実現することは問題ありません。ビデオ信号処理チップの機能向上は、効率的な圧縮アルゴリズムの実装に対するハードウェア保証です。

最後に、ネットワーク帯域幅の向上も重要な条件であり、特に今年はワイヤレスビデオサービスの発展がワイヤレスネットワーク帯域幅の向上の恩恵を受けています。

アルゴリズム自体の開発、チップの機能、ネットワーク帯域幅。これら 3 つは、今日の高精細ビデオ サービスの普及を促進し、将来の 3D サービスの開発のための技術的基盤にもなっています。

<<:  PaaS でフェイルオーバー アルゴリズムを作成する際に避けるべき 3 つの落とし穴

>>:  WiFiベースの電子タグ位置決めアルゴリズム

ブログ    

推薦する

ジェネレーティブ AI 初心者ガイド

ソフトウェア アーキテクトとして、私は人工知能 (AI) の発展とさまざまな業界でのその応用を目の当...

グラフアルゴリズムシリーズ: 無向グラフのデータ構造

[[393944]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

機械学習分野のオープンデータセットにはどのようなものがあるでしょうか。Gengo は最近、高品質の無...

深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

エッジにAIを導入する3つのメリット

AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...

...

新しいアルゴリズムによりクラウドデータベースのパフォーマンスが向上

Gigaom の Jordan Novet 氏の報告によると、MIT の研究者らは DBSeer と...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

AI分析で遠隔ビデオ監視をより利用しやすくする方法

[[400505]] AI(人工知能)がさらに発展するにつれて、新たな用途やメリットが生まれる可能性...

AIと人間のバンドが初めてコラボしてアルバムをリリース

[[426819]] Dreaming RecordsとXiaoIceチームは共同で、人工知能と人間...

2020 年の予測: AI セキュリティの 10 のトレンド

2020 年のサイバーセキュリティは転換点を迎えています。人工知能と機械学習の進歩はサイバーセキュリ...