昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラットフォームである Detectron をオープンソース化しました。このプロジェクトは2016年7月に開始され、Caffe2上に構築されていると報告されています。現在、Mask R-CNN(He Kaimingの研究、ICCV 2017 ***論文)やFocal Loss for Dense Object Detection(ICCV 2017 ***学生論文)など、多数の機械学習アルゴリズムをサポートしています。 Facebook 社によると、このツールキットは社内の多くのチームでさまざまな用途に使用されている。トレーニングが完了すると、これらのコンピューター ビジョン モデルはクラウドやモバイル デバイスに展開できる。 プロジェクトアドレス: https://github.com/facebookresearch/Detectron ディテクトロン Detectron は、Mask R-CNN を含む高度なオブジェクト検出アルゴリズムを実装するための Facebook AI Research のソフトウェア システムです。このシステムは、Python とディープラーニング フレームワーク Caffe 2 に基づいて構築されています。 FAIR Labs では、Detectron は現在、以下を含む多くの研究プロジェクトの実施をサポートしています。 物体検出のための特徴ピラミッドネットワーク (https://arxiv.org/abs/1612.03144) マスクR-CNN (https://arxiv.org/abs/1703.06870) 人間と物体の相互作用の検出と認識 (https://arxiv.org/abs/1704.07333) 高密度物体検出のための焦点損失 (https://arxiv.org/abs/1708.02002) 非局所ニューラルネットワーク (https://arxiv.org/abs/1711.07971) あらゆるものをセグメント化することを学ぶ (https://arxiv.org/abs/1711.10370) データ蒸留: 全教師あり学習に向けて (https://arxiv.org/abs/1712.04440) マスクR-CNN出力の例 導入 Detectron は、物体検出研究のための高品質で高性能なコード ベースを提供することを目的としており、その柔軟な機能により、新しい研究の迅速な実装と検証をサポートします。 Detectron には現在、次のオブジェクト検出アルゴリズムの実装が含まれています。
これらのオブジェクト検出アルゴリズムは、主に次の畳み込みネットワーク アーキテクチャを使用します。
これらのターゲット検出アルゴリズムの中で、私たちがよく知っているのは、Faster R-CNN の拡張である Mask R-CNN です。つまり、バウンディング ボックスの認識に使用されるブランチに並列ブランチが追加され、ターゲット マスクを予測します。この方法は、画像内のオブジェクトを効果的に検出すると同時に、各インスタンスに対して高品質のセグメンテーション マスクを生成することができます。 RetinaNet では、研究者らが新しい Focal Loss 法を提案し、スパースで難しいサンプルでのトレーニングに重点を置き、トレーニング プロセス中に発生する可能性のある多数のマイナス要因を回避しました。論文の研究者らは、Focal Loss でトレーニングすると、RetinaNet は以前の 1 ステップ検出器の速度に到達できると同時に、業界最高の 2 ステップ検出器よりも精度が高くなると述べています。 ICCV 2017 で大きな成功を収めたこれら 2 つのオブジェクト検出アルゴリズムに加えて、Fast R-CNN や R-FCN などの他のオブジェクト検出アルゴリズムも優れた古典的なオブジェクト検出ソリューションです。 畳み込みネットワークアーキテクチャでは、主に複数の層の特徴を統合し、CNN の特徴抽出方法を改善する特徴ピラミッドネットワーク (FPN) に注目する価値があります。 CNN の固有のマルチスケール、マルチレベルのピラミッド構造を利用して特徴ピラミッド ネットワークを構築し、トップダウンの Skip Connector を使用してあらゆるスケールで高レベルのセマンティック特徴マップを構築します。 上記の検出アルゴリズムと CNN アーキテクチャは、ターゲット検出タスクにおいて非常に優れた結果を達成しており、基本的にこの分野で最高レベルを示しています。 Detectron には、これらのアルゴリズムとアーキテクチャのベースライン結果とトレーニング済みモデルの大規模なセットが含まれており、直接ダウンロードできます。たとえば、次の図は、RetinaNet のベースライン結果と対応するモデルのダウンロード アドレスを示しています。また、トレーニングと推論中に役立つデータも提供します。 大まかに数えてみると、このプロジェクトにはさまざまな設定の事前トレーニング済みモデルが 70 個以上あります。したがって、Detectron は基本的に、最も多くのオブジェクト検出アルゴリズムを備えた最も包括的なコード ライブラリです。さらに、このプロジェクトでは、Caffe 2 および COCO データセットを含むインストール手順も提供されます。コード ベースでは Python 2 が使用されていることに注意してください。これには、NVIDIA GPU、Linux システム、およびその他の標準的な Python 数値計算パッケージも必要です。
https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md
https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md ***、Detectron は、調査ツールの使用方法を示すドキュメントも提供しています。たとえば、画像ファイル ディレクトリで推論を実行する場合は、infer.simple.py ツールを直接使用できます。次の例では、エンドツーエンドでトレーニングされた Mask R-CNN モデル (基本畳み込みアーキテクチャとして ResNet-101-FPN を使用) を使用して推論を実行します。 python2 tools/infer_simple.py --cfg configs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml --output-dir /tmp/detectron-visualizations --image-ext jpg --wts https://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival/generalized_rcnn/model_final.pkl デモ より詳細な使用方法のドキュメントについては、https://github.com/facebookresearch/Detectron/blob/master/GETTING_STARTED.md を参照してください。 参考文献
|
<<: 2018 年のエンタープライズ AI の良い点と悪い点
>>: Hiveテクノロジーイノベーションカンファレンスは、ドローン技術の進化とビジネスモデルの革命をリードします
1 枚の画像を生成するのに 10 ミリ秒かかり、1 分間に 6,000 枚の画像を生成します。これは...
[[418996]]画像ソース: https://pixabay.com/images/id-391...
CNN というと、最初は特定のテレビ局を思い浮かべる人が多かったのですが、数年後にはディープラーニン...
業界の専門家は、人工知能(AI)の強力なサポートにより、医薬品の研究開発分野は大きな変化の波に見舞わ...
機械学習とデータサイエンスを少しでも勉強したことがあるなら、クラス分布の不均衡に遭遇したことがあるは...
[[435029]]最近、清華大学の研究者たちは、シンプルで効率的な NLP 学習フレームワークを提...
著者についてCtrip の技術専門家である Yu Xiu 氏は、電話の音声およびビデオ通信やインテリ...
最近、梅雨の到来により、わが国の多くの都市が洪水期に突入し、南部のほとんどの都市が激しい暴風雨、洪水...
導入データサイエンティストとして、私は常に、トップテクノロジー企業が私と関係のある分野で新製品を発売...
[[428240]]みなさんこんにちは、カソンです。 React ソース コードは、さまざまなモジュ...
今朝早く、私たちがまだ寝ている間に、海の向こうの Meta が大きなことをしました。Llama 2 ...