9 トピック PyTorch での畳み込みニューラルネットワーク (CNN) の実装

この写真をまだ覚えていますか？

ディープシステムでは、52 個のオブジェクト検出モデルが導入されています。2013 年から 2020 年までを振り返ると、初期の R-CNN である OverFeat から、その後の SSD、YOLO v3、昨年の M2Det まで、新しいモデルが次々と登場し、パフォーマンスはますます向上しています。

上記はソースコードと論文に焦点を当てています。さまざまな畳み込みニューラルネットワークモデルの実装については、この記事で非常に役立つ PyTorch 実装を紹介します。

このリソースは GitHub でオープンソース化されており、リンクは次のとおりです。

https://github.com/shanglianlm0525/PyTorch-ネットワーク

まずは要約から始めましょう。このシリーズの畳み込みニューラルネットワークの実装には、次の 9 つの主要なトピックが含まれます。

1. 典型的なネットワーク

2. 軽量ネットワーク

3. 物体検出ネットワーク

4. セマンティックセグメンテーションネットワーク

5. インスタンスセグメンテーションネットワーク

6. 顔検出および認識ネットワーク

7. 人間の姿勢認識ネットワーク

8. 注意メカニズムネットワーク

9. ポートレートセグメンテーションネットワーク

詳しく見てみましょう:

1. 古典的なネットワーク

一般的な畳み込みニューラルネットワークには、AlexNet、VGG、ResNet、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet などがあります。

AlexNet ネットワークを例に挙げてみましょう。AlexNet は、2012 年の ImageNet コンテストで優勝した Hinton 氏と彼の学生 Alex Krizhevsky 氏によって設計されました。 AlexNet には比較的新しいテクノロジーがいくつか含まれており、ReLU、Dropout、LRN などのトリックが CNN に初めて適用されました。同時に、AlexNet はコンピューティングの高速化に GPU も使用します。

AlexNet ネットワーク構造の PyTorch 実装は次のとおりです。

輸入トーチ 
 torch.nnをnnとしてインポートする 
 def Conv3x3BNReLU(in_channels,out_channels,stride, padding = 1 ):  
    nn.Sequential() を返す 
            nn.Conv2d( in_channels in_channels = in_channels, out_channels out_channels = out_channels, kernel_size = 3 , stride stride = stride, padding = 1 ),  
            nn.BatchNorm2d(out_channels)、  
            nn.ReLU6(インプレース= True )
        ）  
 Conv1x1BNReLU(in_channels,out_channels)を定義します。  
    nn.Sequential() を返す 
            nn.Conv2d( in_channels in_channels = in_channels, out_channels out_channels = out_channels, kernel_size = 1 ,ストライド= 1 ,パディング= 0 ),  
            nn.BatchNorm2d(out_channels)、  
            nn.ReLU6(インプレース= True )  
        ）  
 def ConvBNReLU(in_channels,out_channels,kernel_size,stride, padding = 1 ):  
    nn.Sequential() を返す
            nn.Conv2d( in_channels in_channels = in_channels、 out_channels out_channels = out_channels、 kernel_size kernel_size = kernel_size、 stride stride = stride、 padding padding = padding)、
            nn.BatchNorm2d(out_channels)、
            nn.ReLU6(インプレース= True )  
        ）  
 def ConvBN(in_channels,out_channels,kernel_size,stride,パディング= 1 ):  
    nn.Sequential() を返す 
            nn.Conv2d( in_channels in_channels = in_channels、 out_channels out_channels = out_channels、 kernel_size kernel_size = kernel_size、 stride stride = stride、 padding padding = padding)、
            nn.BatchNorm2d(out_channels)  
        ）  
クラス ResidualBlock(nn.Module):  
    def __init__(self, in_channels, out_channels):  
        super(ResidualBlock, self).__init__()  
 mid_channels = out_channels //2  
自己.ボトルネック= nn.シーケンシャル(  
            ConvBNReLU( in_channels in_channels =in_channels, out_channels = mid_channels , kernel_size = 1 , stride = 1 ),  
            ConvBNReLU( in_channels = mid_channels 、 out_channels = mid_channels 、 kernel_size = 3 、 stride = 1 、 padding = 1 )、  
            ConvBNReLU( in_channels = mid_channels 、 out_channels out_channels = out_channels 、 kernel_size = 1 、 stride = 1 )、  
        ）  
 self.shortcut = ConvBNReLU ( in_channels in_channels =in_channels、 out_channels out_channels =out_channels、 kernel_size = 1 、 stride = 1 )  
    def forward(self, x):  
アウト=自己.ボトルネック(x)  
        out+self.shortcut(x) を返す

2. 軽量ネットワーク

軽量ネットワークには、GhostNet、MobileNets、MobileNetV2、MobileNetV3、ShuffleNet、ShuffleNet V2、SqueezeNet、Xception MixNet GhostNet が含まれます。

GhostNet を例にとると、精度、速度、計算の複雑さは同じですが、以前の SOTA アルゴリズムよりも低くなります。 GhostNet の核となるのは Ghost モジュールです。通常の畳み込みニューラルネットワークと比較すると、出力特徴マップのサイズを変えずに、必要なパラメータの総数と計算の複雑さが削減され、プラグアンドプレイになっています。

GhostNet ネットワーク構造の PyTorch 実装は次のとおりです。

https://github.com/shanglianlm0525/PyTorch-Networks/blob/master/Lightweight/GhostNet.py

3. 物体検出ネットワーク

ターゲット検出ネットワークには、SSD、YOLO、YOLOv2、YOLOv3、FCOS、FPN、RetinaNet Objects as Points、FSAF、CenterNet FoveaBox が含まれます。

YOLOシリーズを例に挙げると、YOLO（You Only Look Once）はディープニューラルネットワークをベースにした物体認識・位置決めアルゴリズムです。その最大の特徴は、非常に高速に動作し、リアルタイムシステムで使用できることです。現在、YOLOv3が広く使用されています。

YOLOV3 ネットワーク構造の PyTorch 実装は次のとおりです。

https://github.com/shanglianlm0525/PyTorch-Networks/blob/master/ObjectDetection/YOLOv3.py

4. セマンティックセグメンテーション

セマンティックセグメンテーションネットワークには、FCN、Fast-SCNN、LEDNet、LRNNet、FisheyeMODNet が含まれます。

FCN を例に挙げましょう。FCN は 2014 年に誕生したセマンティックセグメンテーションモデルの先駆者です。その主な貢献は、セマンティックセグメンテーションの問題でエンドツーエンドの畳み込みニューラルネットワークの使用を促進し、アップサンプリングにデコンボリューションを使用することです。 FCN モデルは非常にシンプルで、すべて畳み込みで構成されているため、完全畳み込みネットワークと呼ばれます。同時に、完全畳み込みの特殊な形式により、任意のサイズの入力を受け入れることができます。

FCN ネットワーク構造の PyTorch 実装は次のとおりです。

https://github.com/shanglianlm0525/PyTorch-Networks/blob/master/SemanticSegmentation/FCN.py

5. インスタンスのセグメンテーション

インスタンスセグメンテーションネットワークには、PolarMask が含まれます。

6. 顔検出および認識ネットワーク（コミット VarGFaceNet）

顔検出および認識ネットワークには、FaceBoxes、LFFD、VarGFaceNet が含まれます。

7. 人間の姿勢推定

人間の姿勢認識ネットワークには、Stacked Hourglass、Networks Simple Baselines、LPN などがあります。

8. 注意メカニズムネットワーク

注意メカニズムネットワークには、SE Net、scSE、NL Net、GCNet、CBAM などがあります。

9. ポートレートセグメンテーションネットワーク

ポートレートセグメンテーションネットワークには、SINet が含まれます。