Qualcomm CVPR 研究: ビデオ処理の計算を 78% 削減、畳み込み層に「ピクセルの選択」を教える

Qualcomm CVPR 研究: ビデオ処理の計算を 78% 削減、畳み込み層に「ピクセルの選択」を教える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像処理の分野では、AI アルゴリズムの専門家の能力には限界がありません。

現在、ビデオ業界の急速な発展に伴い、関連するアルゴリズムもコンピュータービジョン研究の新たなトレンドになりつつあります。

結局のところ、日常生活では、ビデオ通話であろうとオンライン授業のライブ放送であろうと、多数のビデオ処理アルゴリズムが関わっています。

ただし、これらのアルゴリズムのパフォーマンスが高くない場合、ビデオが停止したり解像度が低下したりして、非常に悪いエクスペリエンスになります。

(ビデオ通話中に画面が PowerPoint プレゼンテーションのまま動かなくなったらどうなるか想像してみてください。腹が立ちます…)

そのため、ビデオアルゴリズムの計算の複雑さを軽減することは、国内外の AI ビジョンアルゴリズムの専門家にとって常に研究テーマとなっています。

最近、2つのCVPR 2021論文がビデオ界で大きな注目を集めています。

アルゴリズム モデルに「計算能力を節約する」ことを独自に教え、パフォーマンスを低下させることなくビデオ処理アルゴリズムの計算効率を数倍以上に高めます。

AIに計算能力を自ら節約するように教えると、計算能力は78%減少

畳み込みニューラル ネットワークを使用してビデオを処理することは、実際には計算集約的なタスクです。

ここでの「計算量」は、ビデオのサイズではなく、畳み込みが画像を処理する方法、つまり画像を完全に「スキャン」する方法を指します。

しかし、実際の動画では、変化の少ないシーン(10 フレームのうち 1 つの手だけが動くなど)が多数あることがよくあります。

この場合、各ピクセルを再度処理すると...GPU が焼き付いてしまうようです。

では、AI に効率的に「怠惰」になるように教え、余分な計算能力を無駄にしないようにすることは可能なのでしょうか?

もちろんできます。方法は 2 つあります。

最初の論文では、画像の前のフレームと次のフレームを減算し、変更された部分のみを畳み込むことができる、 Skip -Convolutions と呼ばれる新しい畳み込み層が提案されました。

はい、人間の目と同じように、「動く部分」に気づく方が簡単です。

計算量はすぐに 10.2GMACS (1 秒あたり 10^9 回の固定小数点乗算と累積計算) から 0.4GMACS に減少し、元の量の4%未満になりました。

この畳み込み層は、上記の姿勢推定だけでなく、オプティカルフロー、セマンティックセグメンテーション、分類タスクなど、あらゆるニューラルネットワークアルゴリズムに適用できることに注意してください。

最新のセマンティックセグメンテーションタスクでは、古典的なビデオAIアルゴリズムHRNetと比較して、このアルゴリズムはパフォーマンスを低下させることなく、計算量を78% 、レイテンシを65%削減しました。

2 番目の論文では、AI モデルが「自ら計算量を制御」できるようにする新しい方法が使用されています。

この論文では、複数のカスケード分類器で構成され、ビデオフレームの複雑さに応じてモデルで使用されるニューロンの数を変更できるFrameExitと呼ばれるネットワークを提案しています。

ビデオの前のフレームと次のフレームの差が大きい場合、AI はモデル全体を計算に使用します。前のフレームと次のフレームの差が小さい場合は、モデルの一部のみを使用して計算します。

つまり、フレームに複雑な計算が必要ない場合は、より小さなモデルを使用するだけで十分です。

他のモデルと比較して、この方法ではパフォーマンスを最大5 倍向上できます。

同時に、ニューラル ネットワーク検出の精度 (mAP) は低下するどころか、向上しました。

現在、CVPR 2021の口頭発表に2番目の論文が選ばれています。

重要なのは、これら 2 つの論文の背後にある企業が、すべての携帯電話ユーザーに密接に関係する企業であるQualcommであるということです。

より強力なモバイルビデオアプリにアクセスできるようになるようです。

モバイルビデオアプリケーション、超ダブルパフォーマンス

Qualcomm はすでにこれら 2 つの AI ビデオ認識技術を研究し、実装しています。

実装の方向性も、私たちの日常的なモバイル ビデオ アプリケーションの厳格な要求であると言えます。

このタイプの認識技術により、ビデオ処理アルゴリズムの最適化に加えて、より多くの AI ビデオ モデルを携帯電話で使用できるようになります。

1 つ目は、ビデオ処理アルゴリズムの最適化です。

たとえば、オンラインビデオ会議やオンライン授業などの一般的なビデオ通話のシナリオでは、ビデオ処理アルゴリズム モデルが適切でないと、リアルタイム通話の品質が非常に低下します。

遅延やフレーム ドロップが発生する可能性もあり、音声通話よりも悪い状況になります。

しかし、このタイプのビデオ認識技術を使用すると、AI がビデオ内の一部のピクセルをインテリジェントに処理できるため、ビデオ通話に必要な画像計算の量が大幅に削減され、通話プロセスがスムーズになります。

たとえば、携帯電話でビデオ ファイルのインテリジェント編集を実行する場合、消費電力が高くなり、ファイルの読み込みが遅くなるという問題がよく発生します。

ただし、このタイプのアルゴリズムをビデオ編集アプリケーションの処理に使用すると、アルゴリズム自体が最適化されるだけでなく、編集プロセスもスムーズになります。

実際、このタイプのビデオ認識アルゴリズムがあるからこそ、より多くの AI モデルを携帯電話に適用できるのです。

Xiaomi 11を例にとると、そのビデオ編集機能の1つは、ビデオの一部を一時停止し、他の部分を再生し続けることです。これは、まるで1人が別の人に「時間停止」の魔法をかけるようなものです。

このタイプのビデオ アルゴリズム モデルは、以前は非常に大量の計算を必要とし、当初は論文で実装するために GPU を使用する必要がありました。携帯電話を使ってリアルタイムで時間を止めることができるようになりました。

ビデオだけでなく、ビデオ内の特定のフレームを一時停止して、非常に興味深いビデオにすることもできます。

たとえば、主要な AI ビジョン論文でよく見られる画像強化アルゴリズムは、以前は主に写真撮影用に実装されていたため、ビデオには適用できませんでした。

しかし現在では、ビデオコンピューティング能力の低下により、ビデオ会議などのシナリオも含め、リアルタイムのビデオ撮影に使用できるようになりました。

OPPO Find X3 Proの夜景写真を例にとると、通常の撮影時の逆光や夜景のビデオ効果でも、AIの計算により顔をはっきりと見ることができます。

一般的なビデオのインテリジェント安定化やビデオ補間も、インテリジェントなフレーム間比較や超解像度アルゴリズムなどの技術に対するビデオ認識アルゴリズムのサポートがあるからこそ、携帯電話のビデオに適用できます。

たとえば、 vivo X60 Pro+のビデオインテリジェント安定化効果は次のとおりです。

実際、携帯電話に適用されている上記の AI ブラック テクノロジーはすべて、 Snapdragon 888のコンピューティング能力と処理性能によってサポートされています。

言い換えれば、Qualcomm は多くの AI ビデオ処理アルゴリズムを「数枚の紙」から実際のモバイル ビデオ アプリケーションに変換したのです。

実は私たちの周りでは「目に見えない」AIブラックテクノロジーがたくさんある

携帯電話のアプリケーションだけがこれらのアルゴリズムの助けを借りて絶えず「進化」しているわけではありません。

スマートヘルスケア、スマートファクトリー、XRなどの「未来」のシナリオが徐々に実現される背景には、数え切れないほどのAIブラックテクノロジーもあります。

一般的なVRデバイスを例にとると、AI アルゴリズムの追加により、カメラは内部から外部までより正確な追跡を実現できます。

5Gとビデオ伝送を組み合わせることで、AIを搭載したVRデバイスは子供たちに科学教育を提供できるだけでなく、医師が患者の状態をより詳細に説明できるようになる。

[[405842]]

たとえば、今では病院に行って医師の診察を受けるときに、医療記録、治療の進捗状況、最新の治療結果などの関連する医療情報を収集するためのコードだけが必要になります。

Dongda Integratedが開発した「Xiaomage」を使用してスキャンすると、医師はすべての情報を迅速に取得し、タイムリーに診断を行うことができます。

[[405843]]

同時に、IoT医療機器とAIデータ分析により、健康モニタリングが簡素化され、真に「コネクテッド」な病院が構築され、患者はさまざまな地域や時間でタイムリーに医療結果を確認できるようになります。

[[405844]]

例えば、AI + エッジコンピューティング + 5G を使用することで、品質検査や欠陥の特定において人間の目に代わるインテリジェントなデジタル生産ラインを構築でき、工場は人件費を大幅に節約できます。

それだけでなく、産業用ハンドリングロボットは、5G + AIを使用して、クラウドまたはエッジ側のカメラで収集されたビデオストリームデータに対してインテリジェント分析を実行し、リモート制御を実現することもできます。

[[405845]]

しかし、ユーザーはすべての詳細を理解する必要はありません。

なぜなら、Qualcomm のような最先端テクノロジー企業が、こうした技術的な困難を一つずつ克服しているからです。

△クアルコムのAI指向のアプリケーションレイアウト

そして、それは製品の形で提供されるため、すべてのユーザーが区別なく最新の技術革新を享受できます。

ブラックテクノロジーはどれくらい複雑ですか?

これはほとんどのユーザーが考慮する必要のあることではありません。

CVPR 2021 の 2 つの論文アドレス:
[1]
https://arxiv.org/abs/2104.11487
[2]
https://arxiv.org/abs/2104.13400

<<:  あなたが書いた ML コードはどれくらいのメモリを占有しますか?これはとても重要なことですが、多くの人がまだそれを理解していません。

>>:  人工知能業界を理解するにはどうすればいいのでしょうか?まず知っておくべき知識は何でしょうか?

ブログ    
ブログ    

推薦する

世界的なAI人材不足により、各国間の協力とトレーニングが増加

文/張燕現在、世界で人工知能教育が発達している国や地域では、人工知能人材の育成を徐々に国のトップレベ...

人工知能に適した9つのプログラミング言語

[[436583]] [51CTO.com クイック翻訳]人工知能という用語は、20 世紀半ばに生ま...

新しい機械学習アプローチによりエネルギー消費を20%削減

エンジニアは、エネルギー消費を20%以上削減できる新しい機械学習手法を開発した。このアプローチにより...

2020年の人工知能開発動向予測

調査によると、機械学習のアプリケーション、ツール、テクニック、プラットフォーム、標準に大きな変化が起...

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

固有値分解から共分散行列へ: PCA アルゴリズムの詳細な分析と実装

この記事では、まず固有ベクトルと行列との関係を簡潔かつ明確に紹介し、次にそれを基に共分散行列と主成分...

1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす:プログラミング制御は恐れる必要はない

[[429985]]先週、米国陸軍協会(AUSA)の会議がワシントンで開催されました。アメリカのロボ...

...

機械学習開発者が知っておくべき 5 つのディープラーニング フレームワーク

ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...

...