ディープラーニングと群衆カウントの融合

【51CTO.comオリジナル記事】

1. はじめに:

昨今、人工知能の研究が盛んになり、機械学習技術も急速に発展しています。機械知覚の研究ホットスポットとして、画像による群衆カウントは、ビデオセキュリティ監視、C 監視、画像認識、都市計画など、幅広い用途に使用されています。国内の都市化が進むにつれ、都市部の人口密集地がますます増加し、それに伴うテロ事件や群衆の暴走も増加しています。したがって、正確な画像群衆カウントをどのように達成するかが重要な課題です。しかし、群衆カウントタスクは、監視中にシーン内およびシーン間の視点の変化によってカウントが妨げられ、画像が遮蔽、視点の歪み、スケーリングの影響を受けるため、依然として非常に困難です。正確で堅牢な群衆カウント方法をどのように設計するかは、これまで研究者が議論してきたテーマです。

2. 群衆カウントの現状

近年、ディープラーニング技術と豊富な特徴融合技術により、視覚ターゲット認識の検出精度が大幅に向上しました。ニューラルネットワークはディープラーニングで最も人気があり、動物の神経ネットワークの行動特性を利用して分散並列情報処理を行うアルゴリズム数学モデルです。多数の内部ノード間の相互接続関係を調整することで、情報処理の目的を達成します。人工ニューラルネットワークでは、畳み込みアルゴリズムが最も広く使用されています。畳み込みニューラルネットワークを使用して画像データを処理すると、検出精度が向上します。

豊富な特徴を学習することが群衆カウントにとって非常に重要であることはよく知られています。しかし、既存のニューラルネットワークベースの方法では、最後の畳み込み層から抽出された CNN 機能のみを使用し、CNN 機能に含まれる有用な階層情報は無視されます。本論文では、いくつかの有用な畳み込み特徴を組み合わせることでエンドツーエンドの密度マップ推定システムを確立する、完全畳み込みネットワークに基づく CNN 構造を提案します。この組み合わせにより、複雑なシーンでマルチスケールおよびマルチレベルの情報を効果的にキャプチャできます。

図 1 に示すようなまばらな群衆の画像では、肉眼で人の数を直感的に確認できます。図 2 に示すような密集した群衆の画像では、多数の人々の間に遮蔽物があるため、肉眼で人数を簡単に判別することはできません。したがって、このタスクを完了するにはコンピューターを使用する必要があります。この問題を解決するための従来の技術は、さまざまな特徴を手動で設計してラベル付けし、抽出された特徴に基づいて回帰ベースの線形または非線形関数をトレーニングして人数をカウントすることです。

[[330493]]

図1: まばらな群衆

[[330494]]

図2: 密集した群衆

3. 従来の群衆カウント方法:

従来の群衆カウントアルゴリズムは、検出ベースの方法[1, 2]、回帰ベースの方法[3, 4]、密度推定ベースの方法[5]に大まかに分類できます。

（１）検出ベースの方法は単純かつ直接的であり、スパースなシーンにのみ適用可能である。これらの方法では、シーン内のすべてのエンティティが見つかるものと想定しています。一般的なワークフローは、パーツ検出器を使用して対象シーン内の人物を 1 人ずつ検出し、その人数をカウントすることです。ただし、これらの方法は比較的柔軟性が低く、高価な計算コストが必要になります。さらに、深刻な閉塞や高密度の混雑の影響を受け、検出器の性能が著しく低下し、精度が低下したり、計数システムが故障したりすることがあります。

（２）回帰ベースの計数法は、複雑なシーンにおける検出器設計の困難さを克服するために広く使用されている。これらの方法の目的は、低レベルの特徴とフレームまたはフレーム領域内の人数との間のマッピングを理解することです。回帰ベースの方法は、グローバルな画像特徴を使用して検出シーンのグローバルな特性をキャプチャすることに重点を置いています。エッジ、グラデーション、テクスチャなどのさまざまな手作りの特徴を使用して、画像の低レベルの特徴を表現します。グループ数と人口密度マップの間の回帰モデルを構築することで、全体のカウント結果を簡単に得ることができます。

（３）密度推定に基づく方法は、局所的なブロック特徴とそれに対応する群衆密度マップとの間の線形マッピングを学習することを目的としています。回帰ベースや検出ベースの方法とは異なり、密度推定ベースの方法では空間情報も学習プロセスに組み込んでいます。得られた密度マップの任意の領域を積分することで、人数を推定できます。

1980年代以降、ディープラーニングの正確な認識と予測能力は向上してきました。近年のディープラーニングの急速な発展に伴い、群衆カウントの主な方法はディープラーニングを使用することになりました。最も代表的なものは、畳み込みニューラルネットワークを使用して画像内の群衆密度の特徴を自動的に抽出し、さまざまなシーンの人数を推定することです。畳み込みニューラルネットワークは、さまざまなコンピュータービジョンタスクで最も人気のある技術になり、MCNN[6]、FCN[7]、MSCNN[8]など、群衆カウント用の多数のCNN手法が提案されています。群衆カウント検出をより正確に実行するには、ディープラーニング技術を使用し、ディープラーニングニューラルネットワークアルゴリズムモデルを使用して画像群衆カウントを実行する必要があります。文献[8]では、完全な畳み込みネットワーク構造を持つディープニューラルネットワークを提案し、いくつかのデータセットで最先端の結果を達成しました。これはMCNNの拡張とも言えます。完全畳み込みネットワークの構造を研究した人はこれまでにもいましたが、画像の縮小や変形によって生じる視覚的な歪みなどの問題を解決してきました。ただし、この完全な畳み込みネットワーク構造では、スケールの変化をうまく処理できず、最後の畳み込み層のみを使用して人数を推定できます。これらの問題に対処するために、私たちは、複数の CNN レイヤーを組み合わせてさまざまなスケールで特徴を正確に活用する、群衆カウント用の新しい完全畳み込みモデルを提案します。

4. ディープラーニングニューラルネットワークは、群衆カウントの福音か?

ディープラーニングは新しい技術だと考え、この新興分野に馴染みがなく、驚いている人も多いかもしれません。実際、ディープラーニングの歴史は 1940 年代頃にまで遡ります。ディープラーニングはこれまで3つの発展の波を経験してきたと一般的に考えられています。1940年代から1960年代にかけて、ディープラーニングの原型はサイバネティクスに登場し、1980年代から1990年代にかけて、ディープラーニングはコネクショニズムとして現れました。そして、2006年になってようやくディープラーニング、別名人工ニューラルネットワークの名の下に本格的に復活しました。

4.1 パーセプトロン

パーセプトロンは、最も単純なニューラルネットワーク (1 つの層のみ) であり、1957 年にアメリカのコンピューター科学者ローズブラットによって提案されました。パーセプトロンにはニューロンが 1 つだけあり、線形分類器の古典的な学習アルゴリズムとして見ることもできます。構造は図に示されています。

パーセプトロン構造

wx + b の形式に似ていますが、a1…an は入力ベクトル、w1…wn は重み、b はバイアス、f は活性化関数、t は出力です。 W と b は未知であり、指定されたトレーニングセットから学習する必要があります。

4.2 ニューラルネットワーク

ニューラルネットワークは人工ニューラルネットワークの略称で、単一のパーセプトロンをニューロンにシミュレートして形成されるネットワーク構造です。その構築コンセプトは、生物学的ニューラルネットワーク機能の動作にヒントを得ています。人工ニューラルネットワークモデルは、主にネットワーク接続のトポロジ構造、ニューロンの特性、学習ルールなどを考慮します。現在、バックプロパゲーションネットワーク、パーセプトロン、自己組織化マップ、ホップフィールドネットワーク、ボルツマンマシンなどを含む40種類のニューラルネットワークモデル[9]が存在します。ニューラルネットワークモデルは、接続のトポロジ構造に応じて、順方向ネットワークとフィードバックネットワークに分けられます。

4.3 フォワードネットワーク

フィードフォワードネットワーク内の各ニューロンは、前のレベルから入力を受け取り、それを次のレベルに入力します。ネットワークにはフィードバックはありません。このタイプのネットワークは、入力空間から出力空間への信号の変換を実現します。その情報処理能力は、単純な非線形関数の複数の再結合から生まれます。ネットワークには複数の隠れ層が存在する可能性があり、各ニューロンには複数の入力がありますが、出力は 1 つだけです。

フィードバックネットワーク内のニューロン間にはフィードバックがあり、これは無向完全グラフで表すことができます。このニューラルネットワークの情報処理は状態の変換です。システムの安定性は連想記憶機能と密接に関係しています。

フィードフォワードニューラルネットワークアーキテクチャ

フィードバックニューラルネットワークアーキテクチャ

5. 畳み込み特徴融合に基づく群衆カウント

ディープニューラルネットワークのさまざまな畳み込み層に含まれる情報については、多くの文献で議論されています。一般に、畳み込み特徴の中間層には豊富な詳細が含まれますが、層の数が増えるにつれて粗くなります。スケールの変化や背景の乱雑さなどの課題に対して、このアプローチは手動で設計された機能よりも識別力が高くなります。しかし、これはまた、[5]と[7]でCNNの機能が十分に活用されているかどうか、そして最後の畳み込み層だけが人数の推定に使用されているかどうかを検討するよう促す。群衆カウントにおいて、より識別的な特徴を学習することは未解決の問題のままである。この論文では、最終層と中間層の両方の CNN の機能を組み合わせて、より優れた表現を実現しようとしています。

5.1 ネットワーク構造

特徴識別を強化するために、複数の畳み込み層を組み合わせるというアイデアが研究されました。複数列の CNN、つまり同じ構造でフィルターサイズが異なる複数の CNN の最終的な畳み込み層が結合され、最終的な特徴マップが生成されます。融合プロセスにより、CNN 機能のマルチスケール表現機能が強化されます。ただし、主な欠点は、各列を個別にトレーニングする必要があり、トレーニング時間が非常に長くなることです。さらに、ネットワーク全体を微調整することは依然として困難な作業です。 [11]では、エッジ検出タスクに異なるマルチスケール特徴戦略が採用されました。提案されたネットワーク構造は、さまざまなスケールのオブジェクトの正確な表現を取得するために、すべての畳み込み層の CNN 機能を使用します。トレーニングする必要があるCNNは1つだけなので、トレーニングコストは[6]の方法よりも効率的です。

FCN ネットワークに基づいて、上記のすべての要素を考慮し、さまざまな畳み込み層を組み合わせて、群衆カウント用の階層型 CNN 機能を生成します。経験的研究によると、マルチスケール特徴を使用する最良の方法は、最後の 3 つの畳み込み層によって生成された特徴マップを融合することです。したがって、使用されるネットワークの各畳み込み層の構造を図 7 に示します。ネットワークの活性化関数には、Relu (Rerectified Linear Unit) 関数が採用されています。異なる色は、6 つの畳み込み層、2 つの最大プーリング層、1 つの連結関数融合層など、異なるタイプの層を表します。畳み込み 6 を除き、各畳み込み層の後には正規化線形ユニット (ReLU) が続きます。完全接続層は 1*1 フィルターを備えた畳み込み層に置き換えられるため、モデルのネットワーク入力画像は任意のサイズにすることができ、直接出力は全体のカウントを取得するための群衆密度推定マップになります。

図7: CNNの豊富な畳み込み機能と群衆カウント構造の組み合わせ

5.2 評価指標

文献[6]によれば、群衆カウントで一般的に使用される平均絶対誤差（MAE）と平均二乗誤差（MSE）を使用して予測結果を評価します。平均絶対誤差は予測の精度を反映し、平均二乗誤差は予測の堅牢性を反映します。2つの詳細な定義は次のとおりです。

ここで、は画像内の実際の人数、は予測される人数、はテスト画像の数です。

5.3 データセット

ShanghaiTech は、330,165 人のラベル付き画像 1,198 枚を含むオープンシーンの群衆データセットです。 ShanghaiTech データセットは、パート A とパート B の 2 つの部分で構成され、それぞれがトレーニングとテストに分かれています。パート A はインターネット上でキャプチャされた画像から取得され、そのうち 300 枚の画像はトレーニングに使用され、残りの 182 枚の画像はテストに使用されます。画像の解像度はそれぞれ異なりますが、最大は 1024 x 1024 です。便宜上、すべての画像のサイズを 1024 x 1024 の同じサイズに変更します。パート B は、上海の街頭の監視ビデオフレームで構成されています。合計 716 枚の画像があり、そのうち 400 枚はトレーニングに使用され、残りの 316 枚はテストに使用されます。すべての画像の解像度は 1024x768 です。 2 つのデータセットで異なる群衆カウント方法を比較した実験結果を次の表に示します。

ShanghaiTech データセットにおけるさまざまな群衆カウント方法のパフォーマンス比較

方法	パートA		パートB
	メー	MSE	メー	MSE
（張ら、 2016 ^[6] ）	110. 3	171. 2	26. 3	41. 4
（FCN 、 2016 ^[7] ）	128. 4	176. 5	24. 74	37. 15
（張ら、 2015 ^[12] ）	181. 5	227. 4	32. 1	48. 4
この論文で提案された方法は	111. 2	167. 7	21. 84	33. 35

表から、提案手法は上海科技AデータセットにおいてFCN手法[7]よりも優れており、MAEとMSEの両方で性能が向上していることがわかります。同時に、データセットのShanghaiTech B部分のFCNと比較して、MAEのパフォーマンスも向上しました。

UCF CC 50 データセットは、インターネットから収集された 50 枚の画像で構成されています。データセットには、94 から 4543 の範囲の頭部注釈が含まれており、画像あたり平均 1280 人の人物が含まれています。 [10]の標準設定に従って、データセットを5つの均一な部分に分割し、各部分に10枚の画像を含めました。 MAE に関しては、この方法のパフォーマンスが最も優れており、この方法のパフォーマンスも最良の結果に非常に近いです。

UCF-CC 50 データセットにおけるさまざまな群衆カウント方法のパフォーマンス比較

方法	メー	MSE
（張ら、 2016 ^[6] ）	376. 6	504.1
（FCN 、 2016 ^[7] ）	348. 4	425. 5
（張ら、 2015 ^[12] ）	466. 0	497. 5
この論文で提案された方法は	321. 9	427.2

6. 結論

提案された方法では、一部の非常に混雑したシーンを除いて、ほとんどの場合、推定されたカウントは実際のカウントに近くなります。この推定誤差は、データ集約型のシナリオでのトレーニング画像不足によって発生する可能性があると推測されます。これは、ディープラーニング技術が今後この分野でまだ長い道のりを歩む必要があることを示しています。同時に、カウントの技術的精度をさらに向上させ、リアルタイム性能を向上させることにさらに注意を払う必要があり、これにより、カウントシステムが実際のアプリケーションに拡大される可能性が高くなります。

参考文献

[1] W. GeとRT Collins。群衆カウントのためのマークされた点プロセス[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition、2009年：2913–2920。

[2] M. Li、Z. Zhang、K. Huang、T. Tan。中間領域に基づく前景セグメンテーションと頭部・肩部検出による混雑したシーンでの人数推定[C]//国際パターン認識会議、2008年：1～4頁。

[3] AB ChanとN. Vasconcelos。群衆カウントのためのベイズポアソン回帰[C]// IEEE International Conference on Computer Vision、2009：545–551。

[4] K. Chen、CL Chen、S. Gong、T. Xiang。局所的な群衆カウントのための特徴マイニング[C]// British Machine Vision Conference、2013：1–11。

[5] V. LempitskyとA. Zisserman. 画像内のオブジェクトの数え方を学ぶ[C]// International Conference on Neural Information Processing Systems, 2010: 1324–1332.

[6] Y. Zhang、D. Zhou、S. Chen、S. Gao、Y. Ma. マルチカラム畳み込みニューラルネットワークによる単一画像群集カウント[C]// IEEE Conference on Computer Vision and Pattern Recognition、2016: 589–597。

[7] M. Marsden、K. Mcguinness、S. Little、NE Connor。非常に混雑したシーンでの完全畳み込み群集カウント[EB/OL] 2016、arXiv:1612.00220。

[8] L. Zeng、X. Xu、B. Cai、S. Qiu、T. Zhang。群衆カウントのためのマルチスケール畳み込みニューラルネットワーク[EB/OL] 2017、arXiv：1702.02359。

[9] 趙申建、傅天帆他訳。ディープラーニング[M]。北京：郵政電信出版社、2007年8月。

[10] JD Cowan. 議論：1943年から1989年までのマカロック・ピッツと関連ニューラルネットワーク[C]// Bulletin of Mathematical Biology、1990：73-97。

[11] MD ZeilerとR. Fergus。畳み込みネットワークの視覚化と理解[C]//ヨーロッパコンピュータビジョン会議、2014：818–833。

[12] C. Zhang、H. Li、X. Wang、X. Yang。深層畳み込みニューラルネットワークによるクロスシーン群衆カウント[C]//コンピュータビジョンとパターン認識、2015：833–841。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: Uber Ludwig は、ローコード機械学習用のオープンソースフレームワークです。

>>: AIと機械学習を活用して工場の安全を守る

ブログ

ディープラーニングと群衆カウントの融合

ヘルスケアにおける AI の活用: データを行動に変える

権威あるレポート：テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン

少数ショット学習（１） — 機械学習におけるタスク最適化空間

危険信号：Google AIはマスクを着用した女性を口をテープで塞いでいる女性と認識

郭光昌：医療人工知能支援システムの構築を加速

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

推薦する

NASA、狭い場所でも移動できる折り紙ロボットを開発

人工知能はセキュリティの優れた防御線である

AI技術年次報告：中国の2つの側面におけるパフォーマンスは注目に値する

機械学習の研究を再現するのは非常に難しい

二重あごをなくすコツがある。浙江大学の2000年代生まれの大学生が、ACM SIGGRAPHで発表した新しい美容アルゴリズムを開発

DAMOアカデミーが音声AIの新たな進歩を発表：モバイル端末でも実際の人間に近い音声対話体験を実現可能

5Gが企業に与える影響

100日学習プラン | データサイエンスの詳細ガイド

GPT をゼロから構築するための 60 行のコード!最も完全な実践ガイドはここにあります

これらの 8 冊の本を読んでいないのに、コンピュータービジョンの分野で働いていると言える勇気がありますか?

ボストン・ダイナミクスが伝染病と戦うために犬を派遣：頭にはiPad、背中にはトランシーバー、価格性能比は本当に大丈夫なのか？