Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

[[409522]]

動画は徐々にテキストや画像を超え、最も広く利用されているメディア形式になったと言えます。また、ユーザーの閲覧時間の大部分を占めるため、動画の理解は特に重要です。

大手インターネット企業やトップクラスの大学が、SOTA ビデオ理解モデルとアルゴリズムの研究に知恵を絞って競い合っています。

Google、Facebook、Open-MM Labなどが独自のキラー兵器を発売した後、Facebook AIはPySlowFastを発売してから1年後にPyTorchVideoで戦場に復帰しました。

公式サイト: https://pytorchvideo.org/

今日は、PyTorchVideo がどのようなコードベースであるか、また、オープンソースの日に GitHub トレンドリストでどのようにランク付けされたかを見ていきます。

PyTorchVideoはどこでも使える

ここにいる他の人たちとは異なり、ビデオコード理解フレームワークは独自のフレームワークにのみ執着しており、他のコードベースに移行することはできません。

PyTorchVideo は、torchvision などの基本コードライブラリと同様に、「どこでも使用できます」。 PyTorchVideo は、ビデオ理解タスクで使用できるだけでなく、他のタスクのコードライブラリとしても使用できます。

Facebook の AI ラボの重役たちは、独自の PySlowFast コードベースで PyTorchVideo をシームレスに使用しただけでなく、Classy Vision や PyTorch Lightening などのフレームワークにもシームレスに挿入しました。

PyTorchVideo は、恵まれた環境で誕生しました。PyTorch Lightning-Flash のビデオ理解ライブラリとして直接使用され、デフォルトで基本ライブラリとして使用されました。

FiftyOne プロジェクトでは、オープンソースコミュニティの人々が Lightning-Flash を使用して、ビデオのアクションカテゴリを直接表示できるビデオ閲覧ツールボックスを作成しました。

51: https://medium.com/pytorch/ushering-in-the-new-age-of-video-understanding-with-pytorch-1d85078e8015

PyTorchVideoは何でもできる

さらに驚くべきことは、PyTorchVideo は「何でもできる」ということです。ビデオ分類やアクション検出などのタスクで SOTA 結果を達成しただけではありません。

このAIは、LeCun氏のお気に入りの自己教師あり学習や、オーディオイベント検出などのさまざまな奇妙なタスクを「少しだけ理解」しています。

PyTorchVideo の SlowFast モデルに基づくアクション監視

PyTorchVideoは携帯電話でも再生可能

さらに驚くべきことは、PyTorchVideo がモバイルアクセラレーションの最適化もオープンソース化しており、ステップバイステップのチュートリアルを提供しているだけでなく、ビデオモデルのコアカーネルを段階的に最適化し、アクセラレーションを量子化していることです。

数倍の高速化を経て、モバイルデバイス上でリアルタイムに動作します。公式はAndroidとiOSモバイル端末向けのオープンソースコードも直接リリースしており、SOTAビデオモデルを携帯電話に直接インストールして楽しむことができます。

PyTorchVideo は、Samsung Galaxy S10 スマートフォンで実行される X3D モデルを高速化し、8 倍の速度で実行し、1 秒間のビデオを約 130 ミリ秒で処理します。

PyTorchVideoとは

PyTorchVideo の正体は、さまざまなコードベース、さまざまな SOTA ビデオモデル、オープンソースビデオモデルに対応できるビデオ理解用の機械学習ライブラリです。

さらに、さまざまな基本的なビデオアルゴリズム、ビデオデータ操作、さまざまな一般的なビデオデータセット、ビデオ拡張、ビデオモデルの高速化と量子化、およびその他のフルスタックのビデオ関連コンテンツも含まれます。

PyTorchVideoの遊び方

まずそれを潰します。

 pip pytorchビデオをインストールする

その後、公式チュートリアルを閲覧して実験してみたところ、PyTorchVideo でビデオモデルをトレーニングするには、わずか数行しかかからないことがわかりました。

 Pytorchvideoからデータ、モデル、アクセラレータをインポートする
# 視覚モデルと音響モデルを作成します。
 visual_model = models.slowfast.create_slowfast(
    モデル番号クラス = 400 、
 ）
音響モデル = models.resnet.create_acoustic_resnet(
    モデル番号クラス = 400 、
 ）
 # Kinetics データローダーを作成します。
 kinetics_loader = torch.utils.data.DataLoader(
    データ.キネティクス(
        データパス=データパス、
        clip_sampler = data.make_clip_sampler(
 「ユニフォーム」 、
            クリップ時間、
        ）、
    ）
    バッチサイズ=BATCH_SIZE、
 ）
 # モデルをデプロイします。
 visual_net_inst_deploy = アクセラレータ.deployment.\
    デプロイ可能な形式に変換します(net_inst、入力テンソル)

では、オープンソースのトレーニングモデルライブラリから直接モデルを使用するとどのような効果があるのでしょうか?

モデル = torch.hub.load( "facebookresearch/pytorchvideo" 、 model=model_name、 pretrained=True)

公式モデルライブラリは非常に豊富で、ただただ驚嘆するばかりです。

キネティクス-400

アーチ	深さ	フレーム長 x サンプルレート	トップ1	フロップ数 (G) x 視聴回数	パラメータ（M）
C2D	R50	8x8	71.46	25.89 x 3 x 10	24.33
3D	R50	8x8	73.27	37.53 x 3 x 10	28.04
遅い	R50	4x16	72.40	27.55 x 3 x 10	32.45
遅い	R50	8x8	74.58	54.52 x 3 x 10	32.45
スローファスト	R50	4x16	75.34	36.69 x 3 x 10	34.48
スローファスト	R50	8x8	76.94	65.71 x 3 x 10	34.57
スローファスト	R101	8x8	77.90	127.20 x 3 x 10	62.83
スローファスト	R101	16x8	78.70	215.61 x 3 x 10	53.77
CSN	R101	32x2	77.00	75.62 x 3 x 10	22.21
R(2+1)D	R50	16x4	76.01	76.45 x 3 x 10	28.11
3D	サイズ	4x12	69.12	0.91×3×10	3.79
3D	ス	13x6	73.33	2.96 x 3 x 10	3.79
3D	ま	16x5	75.94	6.72×3×10	3.79
3D	ら	16x5	77.44	26.64 x 3 x 10	6.15

サムシングサムシングV2

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	トップ1	フロップ数 (G) x 視聴回数	パラメータ（M）
遅い	R50	キネティクス400	8x8	60.04	55.10 x 3 x 1	31.96
スローファスト	R50	キネティクス400	8x8	61.68	66.60 x 3 x 1	34.04

ジェスチャーゲーム

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	地図	フロップ数 (G) x 視聴回数	パラメータ（M）
遅い	R50	キネティクス400	8x8	34.72	55.10 x 3 x 10	31.96
スローファスト	R50	キネティクス400	8x8	37.24	66.60 x 3 x 10	34.00

アヴァ（V2.2）

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	地図	パラメータ（M）
遅い	R50	キネティクス400	4x16	19.5	31.78
スローファスト	R50	キネティクス400	8x8	24.67	33.82

PyTorchVideo を搭載した Lightning Flash でも、ビデオの分類には 3 行しかかかりません。

フラッシュからインポートVideoClassifier
モデル = VideoClassifier.load_from_checkpoint( "checkpoint_uri" )
 model.predict( "ビデオフォルダへのパス" )

公式ブログによると、PyTorchVideo は、ICCV、ICML などに最近登場した Facebook の人工知能研究所の成果を含む、多数のビデオモデルをオープンソース化している。

マルチスケールビジョントランスフォーマー https://arxiv.org/abs/2104.11227
教師なし時空間表現学習に関する大規模研究 https://arxiv.org/abs/2104.14558
ビデオからの半教師あり学習のためのマルチビュー疑似ラベリング https://arxiv.org/abs/2104.00682
ビデオ理解に必要なのは時空間注意だけでしょうか?https://arxiv.org/abs/2102.05095
ボールから目を離さない: ビデオトランスフォーマーにおける軌道注意https://arxiv.org/abs/2106.05392
ビデオ認識のための SlowFast ネットワーク https://arxiv.org/abs/1812.03982
X3D: 効率的なビデオ認識のためのアーキテクチャの拡張 https://arxiv.org/abs/2004.04730
ビデオ認識のためのオーディオビジュアル SlowFast ネットワーク https://arxiv.org/abs/2001.08740
非局所ニューラルネットワーク https://arxiv.org/abs/1711.07971
動作認識のための時空間畳み込みの詳細 https://arxiv.org/abs/1711.11248
チャネル分離畳み込みネットワークによるビデオ分類 https://arxiv.org/abs/1904.02811

MultiScale Vision Transform もその中にあるようです。興味のある友人は調べてみてください。

<<: スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

>>: 2021 年の人工知能の 4 つのビジネスアプリケーション

Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

PyTorchVideoはどこでも使える

PyTorchVideoは何でもできる

PyTorchVideoは携帯電話でも再生可能

PyTorchVideoとは

PyTorchVideoの遊び方

キネティクス-400

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

Caffeine ソースコード解釈 - キャッシュ有効期限の削除に関連するアルゴリズム

もう感情を隠せない？歩く姿勢からAIがわかる！

サーマルイメージングによって施設と従業員の安全性がどのように向上するのでしょうか?

OpenAIは、GPT-4の「怠惰」問題を近い将来に修正し、オフライン評価とA/Bテストの後にモデルを更新すると発表した。

インドの農業変革における人工知能の役割

OpenAIは利用ポリシーをひっそりと更新し、「軍事や戦争のための技術の使用を明示的に禁止する」という文言を削除した。

テキストアドベンチャーゲームは人工知能の助けを借りて新たな命を吹き込まれる

推薦する

SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャルサークルをマイニングする

自然言語処理による検索分析とは何か、なぜそれがビジネスにどのように役立つのか

人工知能による仕事の代替

携帯電話のネットワークアクセスに顔認識が必要ですか?顔認識は私たちの生活にどれくらい近いのでしょうか?

GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

AI推論の進化

旅の途中を突破せよ！ OpenAIが秘密裏に新プラットフォームをテスト

自動運転列車が完成しました！しかし、あなたは座る勇気がありますか?

コンピュータービジョンにおける AI の役割は何ですか?

企業は AI、IoT、AR、VR、ブロックチェーン、ビッグデータをどのように活用して顧客を維持できるでしょうか?

Javaソートアルゴリズムの概要（IV）：シェルソート

大規模モデルのモデル融合法についてお話しましょう