動画は徐々にテキストや画像を超え、最も広く利用されているメディア形式になったと言えます。また、ユーザーの閲覧時間の大部分を占めるため、動画の理解は特に重要です。 大手インターネット企業やトップクラスの大学が、SOTA ビデオ理解モデルとアルゴリズムの研究に知恵を絞って競い合っています。 Google、Facebook、Open-MM Labなどが独自のキラー兵器を発売した後、Facebook AIはPySlowFastを発売してから1年後にPyTorchVideoで戦場に復帰しました。 公式サイト: https://pytorchvideo.org/ 今日は、PyTorchVideo がどのようなコード ベースであるか、また、オープン ソースの日に GitHub トレンド リストでどのようにランク付けされたかを見ていきます。 PyTorchVideoはどこでも使えるここにいる他の人たちとは異なり、ビデオ コード理解フレームワークは独自のフレームワークにのみ執着しており、他のコード ベースに移行することはできません。 PyTorchVideo は、torchvision などの基本コード ライブラリと同様に、「どこでも使用できます」。 PyTorchVideo は、ビデオ理解タスクで使用できるだけでなく、他のタスクのコード ライブラリとしても使用できます。 Facebook の AI ラボの重役たちは、独自の PySlowFast コード ベースで PyTorchVideo をシームレスに使用しただけでなく、Classy Vision や PyTorch Lightening などのフレームワークにもシームレスに挿入しました。 PyTorchVideo は、恵まれた環境で誕生しました。PyTorch Lightning-Flash のビデオ理解ライブラリとして直接使用され、デフォルトで基本ライブラリとして使用されました。 FiftyOne プロジェクトでは、オープンソース コミュニティの人々が Lightning-Flash を使用して、ビデオのアクション カテゴリを直接表示できるビデオ閲覧ツールボックスを作成しました。 51: https://medium.com/pytorch/ushering-in-the-new-age-of-video-understanding-with-pytorch-1d85078e8015 PyTorchVideoは何でもできるさらに驚くべきことは、PyTorchVideo は「何でもできる」ということです。ビデオ分類やアクション検出などのタスクで SOTA 結果を達成しただけではありません。 このAIは、LeCun氏のお気に入りの自己教師あり学習や、オーディオイベント検出などのさまざまな奇妙なタスクを「少しだけ理解」しています。 PyTorchVideo の SlowFast モデルに基づくアクション監視 PyTorchVideoは携帯電話でも再生可能さらに驚くべきことは、PyTorchVideo がモバイル アクセラレーションの最適化もオープンソース化しており、ステップ バイ ステップのチュートリアルを提供しているだけでなく、ビデオ モデルのコア カーネルを段階的に最適化し、アクセラレーションを量子化していることです。 数倍の高速化を経て、モバイルデバイス上でリアルタイムに動作します。公式はAndroidとiOSモバイル端末向けのオープンソースコードも直接リリースしており、SOTAビデオモデルを携帯電話に直接インストールして楽しむことができます。 PyTorchVideo は、Samsung Galaxy S10 スマートフォンで実行される X3D モデルを高速化し、8 倍の速度で実行し、1 秒間のビデオを約 130 ミリ秒で処理します。 PyTorchVideoとはPyTorchVideo の正体は、さまざまなコード ベース、さまざまな SOTA ビデオ モデル、オープン ソース ビデオ モデルに対応できるビデオ理解用の機械学習ライブラリです。 さらに、さまざまな基本的なビデオ アルゴリズム、ビデオ データ操作、さまざまな一般的なビデオ データ セット、ビデオ拡張、ビデオ モデルの高速化と量子化、およびその他のフルスタックのビデオ関連コンテンツも含まれます。 PyTorchVideoの遊び方まずそれを潰します。
その後、公式チュートリアルを閲覧して実験してみたところ、PyTorchVideo でビデオ モデルをトレーニングするには、わずか数行しかかからないことがわかりました。
では、オープンソースのトレーニング モデル ライブラリから直接モデルを使用するとどのような効果があるのでしょうか?
公式モデルライブラリは非常に豊富で、ただただ驚嘆するばかりです。 キネティクス-400
サムシングサムシングV2
ジェスチャーゲーム
アヴァ(V2.2)
PyTorchVideo を搭載した Lightning Flash でも、ビデオの分類には 3 行しかかかりません。
公式ブログによると、PyTorchVideo は、ICCV、ICML などに最近登場した Facebook の人工知能研究所の成果を含む、多数のビデオ モデルをオープンソース化している。
MultiScale Vision Transform もその中にあるようです。興味のある友人は調べてみてください。 |
<<: スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。
>>: 2021 年の人工知能の 4 つのビジネス アプリケーション
自動運転はディープラーニングの重要な応用分野です。長年にわたる蓄積の結果、現在では科学研究者が AI...
[[120924]] Weibo 環境において、Weibo ユーザーのソーシャル サークルや興味サー...
組織が高度な分析ソリューションを検討している場合、IT チームと管理チームはおそらく何らかの調査と分...
テスラとペイパルの創業者イーロン・マスク氏は、将来私たちのほとんどが職を失うとさえ言っており、人工知...
工業情報化部の規定によると、2019年12月1日より、通信事業者はすべてのチャネルで顔認識を実装し、...
現在、Microsoft、OpenAI、GitHub が共同で作成した AI プログラミング支援ツー...
AI推論市場はここ3、4年で劇的に変化しました。以前は、エッジ AI は存在すらせず、推論機能のほと...
著者: 徐潔成校正:Yun Zhao 「使ってみて、もうMidjourneyには興味がなくなった」。...
すべてが計画通りに進めば、鉱山大手リオ・ティントの貨物列車が8月にコロラド州プエブロ近郊の線路を走り...
コンピュータービジョン技術を使用することで、コンピューターは視覚的に物を識別したり確認したりすること...
企業は、顧客維持率と顧客体験を向上させ、競合他社に負けないようにするために、人工知能 (AI)、モノ...
シェルソート(縮小増分法)は挿入型ソートに属し、順序付けられていないシーケンス全体をいくつかの小さな...
モデル融合は、特に判別モデルにおいて、これまで頻繁に使用されてきました。これは、常に着実に改善できる...