Qualcomm CVPR 研究: ビデオ処理の計算を 78% 削減、畳み込み層に「ピクセルの選択」を教える

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像処理の分野では、AI アルゴリズムの専門家の能力には限界がありません。

現在、ビデオ業界の急速な発展に伴い、関連するアルゴリズムもコンピュータービジョン研究の新たなトレンドになりつつあります。

結局のところ、日常生活では、ビデオ通話であろうとオンライン授業のライブ放送であろうと、多数のビデオ処理アルゴリズムが関わっています。

ただし、これらのアルゴリズムのパフォーマンスが高くない場合、ビデオが停止したり解像度が低下したりして、非常に悪いエクスペリエンスになります。

（ビデオ通話中に画面が PowerPoint プレゼンテーションのまま動かなくなったらどうなるか想像してみてください。腹が立ちます…）

そのため、ビデオアルゴリズムの計算の複雑さを軽減することは、国内外の AI ビジョンアルゴリズムの専門家にとって常に研究テーマとなっています。

最近、2つのCVPR 2021論文がビデオ界で大きな注目を集めています。

アルゴリズムモデルに「計算能力を節約する」ことを独自に教え、パフォーマンスを低下させることなくビデオ処理アルゴリズムの計算効率を数倍以上に高めます。

AIに計算能力を自ら節約するように教えると、計算能力は78%減少

畳み込みニューラルネットワークを使用してビデオを処理することは、実際には計算集約的なタスクです。

ここでの「計算量」は、ビデオのサイズではなく、畳み込みが画像を処理する方法、つまり画像を完全に「スキャン」する方法を指します。

しかし、実際の動画では、変化の少ないシーン（10 フレームのうち 1 つの手だけが動くなど）が多数あることがよくあります。

この場合、各ピクセルを再度処理すると...GPU が焼き付いてしまうようです。

では、AI に効率的に「怠惰」になるように教え、余分な計算能力を無駄にしないようにすることは可能なのでしょうか?

もちろんできます。方法は 2 つあります。

最初の論文では、画像の前のフレームと次のフレームを減算し、変更された部分のみを畳み込むことができる、 Skip -Convolutions と呼ばれる新しい畳み込み層が提案されました。

はい、人間の目と同じように、「動く部分」に気づく方が簡単です。

計算量はすぐに 10.2GMACS (1 秒あたり 10^9 回の固定小数点乗算と累積計算) から 0.4GMACS に減少し、元の量の4%未満になりました。

この畳み込み層は、上記の姿勢推定だけでなく、オプティカルフロー、セマンティックセグメンテーション、分類タスクなど、あらゆるニューラルネットワークアルゴリズムに適用できることに注意してください。

最新のセマンティックセグメンテーションタスクでは、古典的なビデオAIアルゴリズムHRNetと比較して、このアルゴリズムはパフォーマンスを低下させることなく、計算量を78％ 、レイテンシを65％削減しました。

2 番目の論文では、AI モデルが「自ら計算量を制御」できるようにする新しい方法が使用されています。

この論文では、複数のカスケード分類器で構成され、ビデオフレームの複雑さに応じてモデルで使用されるニューロンの数を変更できるFrameExitと呼ばれるネットワークを提案しています。

ビデオの前のフレームと次のフレームの差が大きい場合、AI はモデル全体を計算に使用します。前のフレームと次のフレームの差が小さい場合は、モデルの一部のみを使用して計算します。

つまり、フレームに複雑な計算が必要ない場合は、より小さなモデルを使用するだけで十分です。

他のモデルと比較して、この方法ではパフォーマンスを最大5 倍向上できます。

同時に、ニューラルネットワーク検出の精度 (mAP) は低下するどころか、向上しました。

現在、CVPR 2021の口頭発表に2番目の論文が選ばれています。

重要なのは、これら 2 つの論文の背後にある企業が、すべての携帯電話ユーザーに密接に関係する企業であるQualcommであるということです。

より強力なモバイルビデオアプリにアクセスできるようになるようです。

モバイルビデオアプリケーション、超ダブルパフォーマンス

Qualcomm はすでにこれら 2 つの AI ビデオ認識技術を研究し、実装しています。

実装の方向性も、私たちの日常的なモバイルビデオアプリケーションの厳格な要求であると言えます。

このタイプの認識技術により、ビデオ処理アルゴリズムの最適化に加えて、より多くの AI ビデオモデルを携帯電話で使用できるようになります。

1 つ目は、ビデオ処理アルゴリズムの最適化です。

たとえば、オンラインビデオ会議やオンライン授業などの一般的なビデオ通話のシナリオでは、ビデオ処理アルゴリズムモデルが適切でないと、リアルタイム通話の品質が非常に低下します。

遅延やフレームドロップが発生する可能性もあり、音声通話よりも悪い状況になります。

しかし、このタイプのビデオ認識技術を使用すると、AI がビデオ内の一部のピクセルをインテリジェントに処理できるため、ビデオ通話に必要な画像計算の量が大幅に削減され、通話プロセスがスムーズになります。

たとえば、携帯電話でビデオファイルのインテリジェント編集を実行する場合、消費電力が高くなり、ファイルの読み込みが遅くなるという問題がよく発生します。

ただし、このタイプのアルゴリズムをビデオ編集アプリケーションの処理に使用すると、アルゴリズム自体が最適化されるだけでなく、編集プロセスもスムーズになります。

実際、このタイプのビデオ認識アルゴリズムがあるからこそ、より多くの AI モデルを携帯電話に適用できるのです。

Xiaomi 11を例にとると、そのビデオ編集機能の1つは、ビデオの一部を一時停止し、他の部分を再生し続けることです。これは、まるで1人が別の人に「時間停止」の魔法をかけるようなものです。

このタイプのビデオアルゴリズムモデルは、以前は非常に大量の計算を必要とし、当初は論文で実装するために GPU を使用する必要がありました。携帯電話を使ってリアルタイムで時間を止めることができるようになりました。

ビデオだけでなく、ビデオ内の特定のフレームを一時停止して、非常に興味深いビデオにすることもできます。

たとえば、主要な AI ビジョン論文でよく見られる画像強化アルゴリズムは、以前は主に写真撮影用に実装されていたため、ビデオには適用できませんでした。

しかし現在では、ビデオコンピューティング能力の低下により、ビデオ会議などのシナリオも含め、リアルタイムのビデオ撮影に使用できるようになりました。

OPPO Find X3 Proの夜景写真を例にとると、通常の撮影時の逆光や夜景のビデオ効果でも、AIの計算により顔をはっきりと見ることができます。

一般的なビデオのインテリジェント安定化やビデオ補間も、インテリジェントなフレーム間比較や超解像度アルゴリズムなどの技術に対するビデオ認識アルゴリズムのサポートがあるからこそ、携帯電話のビデオに適用できます。

たとえば、 vivo X60 Pro+のビデオインテリジェント安定化効果は次のとおりです。

実際、携帯電話に適用されている上記の AI ブラックテクノロジーはすべて、 Snapdragon 888のコンピューティング能力と処理性能によってサポートされています。

言い換えれば、Qualcomm は多くの AI ビデオ処理アルゴリズムを「数枚の紙」から実際のモバイルビデオアプリケーションに変換したのです。

実は私たちの周りでは「目に見えない」AIブラックテクノロジーがたくさんある

携帯電話のアプリケーションだけがこれらのアルゴリズムの助けを借りて絶えず「進化」しているわけではありません。

スマートヘルスケア、スマートファクトリー、XRなどの「未来」のシナリオが徐々に実現される背景には、数え切れないほどのAIブラックテクノロジーもあります。

一般的なVRデバイスを例にとると、AI アルゴリズムの追加により、カメラは内部から外部までより正確な追跡を実現できます。

5Gとビデオ伝送を組み合わせることで、AIを搭載したVRデバイスは子供たちに科学教育を提供できるだけでなく、医師が患者の状態をより詳細に説明できるようになる。

たとえば、今では病院に行って医師の診察を受けるときに、医療記録、治療の進捗状況、最新の治療結果などの関連する医療情報を収集するためのコードだけが必要になります。

Dongda Integratedが開発した「Xiaomage」を使用してスキャンすると、医師はすべての情報を迅速に取得し、タイムリーに診断を行うことができます。

[[405843]]

同時に、IoT医療機器とAIデータ分析により、健康モニタリングが簡素化され、真に「コネクテッド」な病院が構築され、患者はさまざまな地域や時間でタイムリーに医療結果を確認できるようになります。

例えば、AI + エッジコンピューティング + 5G を使用することで、品質検査や欠陥の特定において人間の目に代わるインテリジェントなデジタル生産ラインを構築でき、工場は人件費を大幅に節約できます。

それだけでなく、産業用ハンドリングロボットは、5G + AIを使用して、クラウドまたはエッジ側のカメラで収集されたビデオストリームデータに対してインテリジェント分析を実行し、リモート制御を実現することもできます。

[[405845]]

しかし、ユーザーはすべての詳細を理解する必要はありません。

なぜなら、Qualcomm のような最先端テクノロジー企業が、こうした技術的な困難を一つずつ克服しているからです。

△クアルコムのAI指向のアプリケーションレイアウト

そして、それは製品の形で提供されるため、すべてのユーザーが区別なく最新の技術革新を享受できます。

ブラックテクノロジーはどれくらい複雑ですか?

これはほとんどのユーザーが考慮する必要のあることではありません。

CVPR 2021 の 2 つの論文アドレス:
[1]
https://arxiv.org/abs/2104.11487
[2]
https://arxiv.org/abs/2104.13400

<<: あなたが書いた ML コードはどれくらいのメモリを占有しますか?これはとても重要なことですが、多くの人がまだそれを理解していません。

>>: 人工知能業界を理解するにはどうすればいいのでしょうか？まず知っておくべき知識は何でしょうか？

ブログ

オープンソースのビッグモデルが OpenAI に大打撃を与える!ザッカーバーグはテクノロジー界に衝撃を与えたLLaMA2をリリースし、マイクロソフトやクアルコムと手を組んで市場構造に影響を与えた。

ブログ

肖陽華：数千の産業に対応する大規模モデルに向けて

ブログ

Qualcomm CVPR 研究: ビデオ処理の計算を 78% 削減、畳み込み層に「ピクセルの選択」を教える

AIに計算能力を自ら節約するように教えると、計算能力は78%減少

モバイルビデオアプリケーション、超ダブルパフォーマンス

実は私たちの周りでは「目に見えない」AIブラックテクノロジーがたくさんある

オープンソースのビッグモデルが OpenAI に大打撃を与える!ザッカーバーグはテクノロジー界に衝撃を与えたLLaMA2をリリースし、マイクロソフトやクアルコムと手を組んで市場構造に影響を与えた。

肖陽華：数千の産業に対応する大規模モデルに向けて

AI イニシアチブを成功させるために必要な 10 のこと

リバースエンジニアリングの後、Transformer は数学的なフレームワークに「変換」します | 25 人の学者が記事を執筆しました

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

5Gベースバンドに機械学習ユニットを追加：クアルコムには多くのAI脳の穴がある

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

推薦する

レオナルド・ダ・ヴィンチに私の肖像画を描いてもらいました！ Google の新しいテクノロジーにより、ワンクリックでクラシックが復活

ChatGPTから何を学びましたか?

国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

AI教育の知能化、パーソナライゼーション、多様化は今後さらに発展するだろう

ルーティングプロトコルアルゴリズム

AI アプリケーションをテストするにはどうすればいいですか?

政府規制のAIの時代が到来

RPA 導入によって企業が得る 10 のメリット

ガートナー：今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

人工知能と5G: 新たなデータの世界へ

未来：ビッグデータとAIがあなたをより深く理解する