Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げています。最近、FAIRビデオチームは、ICCV関連のセミナーでビデオ認識検出コードライブラリPySlowFastをオープンソース化し、事前学習済みモデルライブラリも公開しました。同時に、チームは最先端の研究成果をこのコードベースにリアルタイムで追加していくとも述べた。

  • プロジェクトアドレス: https://github.com/facebookresearch/SlowFast
  • チュートリアルのアドレス(PPTT リソース付き): https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/

ビデオとモーションの理解は、今日最も注目されている研究分野の 1 つになっています。しかし、オープンソース コミュニティで簡潔で効率的、かつ変更しやすいビデオ理解コード ベースを見つけるのは、まだ容易ではありません。さらに重要なのは、最先端のディープラーニングモデルを再現することは、研究者にとって常に頭痛の種となっていることです。

これらのビデオ理解モデルには、数十 GFlops と数日間のトレーニングが必要になることがよくあります。モデルを再現するには、細部まで正確にするために実験とパラメータの調整を繰り返す必要があります。これには多くの時間とリソースが消費されることが多く、多くの研究者の意欲を削いでしまいます。

Facebook AI Researchは、CVPRやICCVなどの国際会議で多数の研究成果を発表し、CVPR 2019 Behavior Detection Challengeで優勝しました。そして、今年の ICCV で、FAIR はビデオ理解コード ライブラリ PySlowFast を発表しました。
PySlowfast は PyTorch ベースのコード ライブラリであり、研究者はこれを使用して、基本的なものから最先端のビデオ分類およびアクション検出アルゴリズムまで簡単に再現できます。

さらに、PySlowFast コード ベースは多数のオープンソースの事前トレーニング済みモデルも提供しており、研究者はモデルを繰り返しトレーニングする手間が省け、FAIR 事前トレーニング済みの最先端のパフォーマンス モデルを直接使用できるようになります。

pySlowFastオープンソースモデルの視覚的検出結果

PySlowFast はオープンソースとしてリリースされて以来、GitHub のトレンドリストのトップ 10 にランクされています。以下は、このオープンソース プロジェクトの簡単な紹介です。

ワークショップのチュートリアルとオープンソース コード ライブラリの情報によると、PySlowFast はビデオ理解のベースライン モデルと、今日の最先端のビデオ理解アルゴリズムの再現の両方を提供します。そのアルゴリズムには、ビデオ分類だけでなく、アクション分類アルゴリズムも含まれます。

今日のオープンソース コミュニティにおけるさまざまなビデオ認識ライブラリのパフォーマンスのばらつきと比較すると、PySlowFast を使用すると、今日の最先端のモデルを簡単に再現できます。

ビデオ認識(キネティクス)

表 1: ビデオ分類データベース Kinetics 400 での PySlowFast のパフォーマンス (https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md からの抜粋)

PySlowFast は、ビデオ分類だけでなくビデオ理解にも使用でき、2019 CVPR ActivityNet Challenge Winner を獲得したビデオ検出モデルを提供します。
行動検出 (AVA)

さらに、PySlowFast には、簡単な編集を通じてマルチモーダル ビデオ理解、ビデオ自己教師学習、その他のタスクをサポートできるインターフェイスが用意されています。チームによると、PySlowFast は積極的にメンテナンスされ、チームと業界の最先端のアルゴリズムをリアルタイムで更新し、事前トレーニング済みのモデルをオープンソース化して、コードベースをビデオ理解の分野におけるベースラインベンチマークにする予定だという。

次のチュートリアルを通じて、読者は PySlowFast コード ライブラリを簡単に試すことができます。インストールが完了したら、MODEL_ZOO が提供する事前トレーニング済みモデルと対応する構成ファイルをダウンロードし、次のコードを実行することで、さまざまなビデオ データベースでモデルのパフォーマンスをテストできます。

  1. Python ツール/run_net.py
  2. --cfg configs/Kinetics/C2D_8x8_R50.yaml
  3. DATA.PATH_TO_DATA_DIR データセットへのパス
  4. 2   

このコードライブラリにより、最先端の高性能モデルを簡単に再現できることがわかります。同時に、読者は簡単な変更で独自のモデルを実装し、複数の GPU でトレーニングして最先端のパフォーマンスを得ることもできます。

<<:  Alibaba DAMO Academyが2020年のトップ10テクノロジートレンドを発表!人工知能、ブロックチェーン、チップが注目される

>>:  2019 年の NLP における最先端のブレークスルーを振り返る

ブログ    
ブログ    

推薦する

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

[[410932]]会議中にこっそりと携帯電話を見ている時間がバックグラウンド システムによって記...

AIと機械学習がデータセンターにどのように役立つか

人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日...

気候変動と闘うためのAIの8つのガイドライン

気候変動の緩和は緊急の優先課題になりつつあります。時間を無駄にすることはできません。大気中の二酸化炭...

PythonでQQロボットを開発する方法

序文この記事の目的はPythonでMiraiロボットを開発することですが、最初のチュートリアル、特に...

...

人民日報オンライン:「初の顔認証事件」の最終判決は極めて重要な意味を持つ

[[392372]] 4月9日、注目されていた「初の顔認証事件」の最終判決が下された。被告杭州野生動...

暑い天候で火災が続発、消防ロボットが救助活動に活躍

最近、気温がどんどん上昇し、全国各地で猛暑日数や平均気温が新記録を更新するなど、さまざまな火災の危険...

データサイエンスの面接で知っておくべき 10 の機械学習の概念

この記事は公式アカウント「Reading the Core」(ID: AI_Discovery)から...

...

スポーツ業界における5つの重要なAI応用分野

データサイエンスと人工知能がスポーツ分析に導入されることは当たり前のことになりました。そして、テクノ...

...

...

過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...

Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

現在、コンピューター ビジョン ニューラル ネットワークは高度にパラメータ化されています。通常、数千...

ブロックチェーン + AI、完璧な組み合わせですね?

「この二つの技は同じ名前だが、技の内容は大きく異なる。一つは全真剣術の強力な技で、もう一つは玉女剣...