Facebook がアルゴリズムコードライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げています。最近、FAIRビデオチームは、ICCV関連のセミナーでビデオ認識検出コードライブラリPySlowFastをオープンソース化し、事前学習済みモデルライブラリも公開しました。同時に、チームは最先端の研究成果をこのコードベースにリアルタイムで追加していくとも述べた。

プロジェクトアドレス: https://github.com/facebookresearch/SlowFast
チュートリアルのアドレス（PPTT リソース付き）: https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/

ビデオとモーションの理解は、今日最も注目されている研究分野の 1 つになっています。しかし、オープンソースコミュニティで簡潔で効率的、かつ変更しやすいビデオ理解コードベースを見つけるのは、まだ容易ではありません。さらに重要なのは、最先端のディープラーニングモデルを再現することは、研究者にとって常に頭痛の種となっていることです。

これらのビデオ理解モデルには、数十 GFlops と数日間のトレーニングが必要になることがよくあります。モデルを再現するには、細部まで正確にするために実験とパラメータの調整を繰り返す必要があります。これには多くの時間とリソースが消費されることが多く、多くの研究者の意欲を削いでしまいます。

Facebook AI Researchは、CVPRやICCVなどの国際会議で多数の研究成果を発表し、CVPR 2019 Behavior Detection Challengeで優勝しました。そして、今年の ICCV で、FAIR はビデオ理解コードライブラリ PySlowFast を発表しました。
PySlowfast は PyTorch ベースのコードライブラリであり、研究者はこれを使用して、基本的なものから最先端のビデオ分類およびアクション検出アルゴリズムまで簡単に再現できます。

さらに、PySlowFast コードベースは多数のオープンソースの事前トレーニング済みモデルも提供しており、研究者はモデルを繰り返しトレーニングする手間が省け、FAIR 事前トレーニング済みの最先端のパフォーマンスモデルを直接使用できるようになります。

pySlowFastオープンソースモデルの視覚的検出結果

PySlowFast はオープンソースとしてリリースされて以来、GitHub のトレンドリストのトップ 10 にランクされています。以下は、このオープンソースプロジェクトの簡単な紹介です。

ワークショップのチュートリアルとオープンソースコードライブラリの情報によると、PySlowFast はビデオ理解のベースラインモデルと、今日の最先端のビデオ理解アルゴリズムの再現の両方を提供します。そのアルゴリズムには、ビデオ分類だけでなく、アクション分類アルゴリズムも含まれます。

今日のオープンソースコミュニティにおけるさまざまなビデオ認識ライブラリのパフォーマンスのばらつきと比較すると、PySlowFast を使用すると、今日の最先端のモデルを簡単に再現できます。

ビデオ認識（キネティクス）

表 1: ビデオ分類データベース Kinetics 400 での PySlowFast のパフォーマンス (https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md からの抜粋)

PySlowFast は、ビデオ分類だけでなくビデオ理解にも使用でき、2019 CVPR ActivityNet Challenge Winner を獲得したビデオ検出モデルを提供します。
行動検出 (AVA)

さらに、PySlowFast には、簡単な編集を通じてマルチモーダルビデオ理解、ビデオ自己教師学習、その他のタスクをサポートできるインターフェイスが用意されています。チームによると、PySlowFast は積極的にメンテナンスされ、チームと業界の最先端のアルゴリズムをリアルタイムで更新し、事前トレーニング済みのモデルをオープンソース化して、コードベースをビデオ理解の分野におけるベースラインベンチマークにする予定だという。

次のチュートリアルを通じて、読者は PySlowFast コードライブラリを簡単に試すことができます。インストールが完了したら、MODEL_ZOO が提供する事前トレーニング済みモデルと対応する構成ファイルをダウンロードし、次のコードを実行することで、さまざまなビデオデータベースでモデルのパフォーマンスをテストできます。

 Python ツール/run_net.py
  --cfg configs/Kinetics/C2D_8x8_R50.yaml
  DATA.PATH_TO_DATA_DIR データセットへのパス
  数2

このコードライブラリにより、最先端の高性能モデルを簡単に再現できることがわかります。同時に、読者は簡単な変更で独自のモデルを実装し、複数の GPU でトレーニングして最先端のパフォーマンスを得ることもできます。

<<: Alibaba DAMO Academyが2020年のトップ10テクノロジートレンドを発表！人工知能、ブロックチェーン、チップが注目される

>>: 2019 年の NLP における最先端のブレークスルーを振り返る

Web スクレイピングを理解する: すべてを AI に任せるべきか、それとも「人間的なタッチ」を加えるべきか?

Facebook がアルゴリズムコードライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Web スクレイピングを理解する: すべてを AI に任せるべきか、それとも「人間的なタッチ」を加えるべきか?

世界初公開！ 70以上のオープンソースデータセットをまとめ、自動運転のためのオープンソースデータシステムについて考察する

最も需要の高い AIGC 関連の仕事 11 選

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

FMI2017----人工知能とビッグデータが時代を力づける

小型モデルの意見も参考になります！ GPT-4+AutoGPTオンライン意思決定：物を買うときにもう心配はいりません

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

「百度脳産業イノベーションフォーラム」が本格始動、伝統産業向けAIソリューションを提案

セキュリティにおける AI の必要性: 機械学習から機械の作成まで

推薦する

利便性を超えて：スマートホームは信頼できるのか？

AI の可能性を最大限に引き出す: 企業での導入を成功させる 5 つの鍵

人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

2020年の中国の人工知能開発の見通し

GPT-4 は生物兵器を作成できません! OpenAIの最新の実験では、大規模モデルはほぼ0であることが証明されている

2019 ディープラーニングフレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!

強力な大型モデルにはどんなスーパーパワーがあるのでしょうか?

国宝の旅：人工知能技術が文化遺産の病気を防ぐ方法

香水アートとAIが出会うとき

2021年の中国サービスロボット産業の発展状況のレビュー

ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

知能ロボット連携システムとその主要技術