画像セグメンテーションのためのディープラーニング: ネットワークアーキテクチャ設計の概要

この論文では、画像セマンティックセグメンテーションに CNN を使用する際のネットワーク構造の革新についてまとめています。これらの革新には主に、新しいニューラルアーキテクチャ (異なる深さ、幅、接続、トポロジ) の設計と、新しいコンポーネントまたはレイヤーの設計が含まれます。前者は既存のコンポーネントを使用して複雑な大規模ネットワークを組み立てますが、後者は基盤となるコンポーネントを設計する傾向があります。まず、いくつかの古典的なセマンティックセグメンテーションネットワークとその革新を紹介し、次に医療画像セグメンテーションの分野におけるネットワーク構造設計のいくつかのアプリケーションを紹介します。

1. 画像セマンティックセグメンテーションネットワーク構造の革新

1.1 FCNネットワーク

FCN 全体アーキテクチャ

FCN ネットワークは、セマンティックセグメンテーションの問題をまったく新しい観点から解決した最初のネットワークであるため、簡単な図では別途リストされています。これまでのニューラルネットワークベースの画像セマンティックセグメンテーションネットワークは、分類対象のピクセルを中心とした画像ブロックを使用して、中心ピクセルのラベルを予測していました。ネットワークは一般的にCNN+FC戦略を使用して構築されていました。明らかに、この方法では画像のグローバルコンテキスト情報を利用できず、ピクセルごとの推論速度が非常に遅いです。FCNネットワークは、完全接続層FCを放棄し、すべての畳み込み層を使用してネットワークを構築します。転置畳み込みと異なる層の機能融合の戦略により、ネットワーク出力は入力画像の予測マスクを直接的に使用し、効率と精度が大幅に向上します。

FCN の異なるレイヤーでの機能融合の概略図

イノベーション：完全畳み込みネットワーク（fc層を除く）、転置畳み込み逆畳み込み（逆畳み込み）、異なる層の特徴マップのジャンプ接続（加算）

1.2 エンコーダ・デコーダ構造

SegNetと FCN ネットワークの考え方は基本的に同じです。エンコーダー部分は、VGG16 の最初の 13 個の畳み込み層を使用します。違いは、デコーダー部分のアップサンプリング方法にあります。 FCN は、特徴マップの deconv によって得られた結果をエンコーダの対応するサイズの特徴マップに追加することでアップサンプリング結果を取得します。一方、SegNet は、エンコーダ部分の maxpool のインデックスを使用してデコーダ部分をアップサンプリングします (元の説明: デコーダは、低解像度の入力特徴マップをアップサンプリングします。具体的には、デコーダは、対応するエンコーダの最大プーリングステップで計算されたプーリングインデックスを使用して、非線形アップサンプリングを実行します)。

イノベーション: エンコーダー/デコーダー構造、プールインデックス。

セグネットネットワーク

SegNetとFCNのアップサンプリング方法の比較

U-Net ネットワークはもともと生物医学画像用に設計されましたが、その優れたパフォーマンスにより、UNet とその派生製品は CV のさまざまなサブフィールドで広く使用されています。 UNet ネットワークは、U チャネルとスキップ接続で構成されています。U チャネルは、SegNet のエンコードおよびデコード構造に似ており、エンコード部分 (収縮パス) は特徴を抽出してコンテキスト情報をキャプチャし、デコード部分 (拡張パス) はデコードされた特徴マップを使用してピクセルラベルを予測します。短絡チャネルはモデルの精度を向上させ、勾配消失問題を解決します。短絡チャネルの特徴マップは、FCN とは異なり、上記の特徴マップに追加されるのではなく、連結されることに特に注意することが重要です。

イノベーション：U字型構造、スキップ接続

U-Net ネットワーク

V-Net ネットワーク構造は U-Net と似ていますが、アーキテクチャによってスキップ接続が追加され、2D 操作が 3D 操作に置き換えられて 3D 画像 (ボリューム画像) が処理される点が異なります。また、Dice などの広く使用されているセグメンテーションメトリック向けに最適化されています。

V-Net ネットワーク

イノベーション：U-Netネットワークの3Dバージョンに相当

FC-DenseNet (One Hundred Layers Tiramisu : セマンティックセグメンテーションのための完全畳み込み DenseNet) は、密に接続されたブロック (Dense Block) と UNet アーキテクチャで構成されるネットワーク構造です。ネットワークの最も単純なバージョンは、下方向に遷移する 2 つのダウンサンプリングパスと、上方向に遷移する 2 つのアップサンプリングパスで構成されます。また、ダウンサンプリングパスからの特徴マップをアップサンプリングパス内の対応する特徴マップと連結するための 2 つの水平スキップ接続も含まれています。アップサンプリングパスとダウンサンプリングパスの接続パターンはまったく同じではありません。ダウンサンプリングパスでは、各密なブロックの外側にスキップ接続パスがあり、これにより特徴マップの数が線形に増加しますが、アップサンプリングパスではそのような操作はありません。（ちなみに、このネットワークの略称は Dense Unet ですが、Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal という、光音響画像アーティファクト除去に関する論文があります。この論文の図を引用してセマンティックセグメンテーションについて語っているブログをたくさん見ましたが、これはまったく同じものではありません =_=||、自分で区別できるようにしてください。）

FC-DenseNet（百層ティラミスネットワーク）

イノベーション: DenseNet と U-Net の融合 (情報交換の観点から見ると、密な接続は残余構造よりも強力です)

Deeplab シリーズのネットワークは、エンコーダーとデコーダーの構造に基づいた改良版です。2018 年、DeeplabV3+ ネットワークは VOC2012 および Cityscapes データセットで優れたパフォーマンスを発揮し、SOTA レベルに達しました。 DeepLab シリーズには、V1、V2、V3、V3+ の 4 つの論文があります。いくつかの論文の核心的な内容を簡単に要約します。

1) DeepLabV1: 畳み込みニューラルネットワークと確率グラフモデルの融合: CNN+CRF により、セグメンテーションと位置決めの精度が向上します。

2) DeepLabV2: ASPP (拡張空間ピラミッドプーリング); CNN+CRF

3) DeepLabV3: 1*1 畳み込みとグローバル平均プーリングを備えた改良された ASPP。カスケード型および並列型の拡張畳み込みの効果を比較しました。

カスケード拡張畳み込み

アトラス並列畳み込み (ASPP)

4) DeepLabV3+: エンコーダー-デコーダーアーキテクチャのアイデアを追加し、DeepLabv3 を拡張するデコーダーモジュールを追加します。ASPP およびデコーダーモジュールに深さ方向に分離可能な畳み込みを適用します。改良された Xception をバックボーンとして使用します。

ディープラボV3+

一般的に、 DeepLab シリーズのコアとなる貢献は、拡張畳み込み、ASPP、CNN+CRF です (V1 と V2 のみが CRF を使用し、V3 と V3+ はディープネットワークを通じてセグメンテーション境界のぼやけた問題を解決し、CRF を追加するよりも効果があります)。

PSPNet (ピラミッドシーン解析ネットワーク) は、さまざまな地域からのコンテキスト情報を集約することで、ネットワークのグローバルコンテキスト情報を活用する能力を向上させます。 SPPNet では、ピラミッドプーリングによって生成されたさまざまなレベルの特徴マップが最終的に平坦化され、連結されてから分類のために完全接続層に送信され、画像分類の入力サイズが固定されているという CNN の制限が解消されます。 PSPNet で使用される戦略は、プーリング-畳み込み-アップサンプル、次に連結して特徴マップを取得し、最後にラベル予測です。

PSPNet ネットワーク

イノベーション:マルチスケールプーリング、複雑なシーンを理解するためのグローバル画像レベルの事前知識のより有効な活用

RefineNet は、中間アクティベーションマップを改良し、鮮明さの損失を防ぎながら階層的に連結することで、マルチスケールアクティベーションを組み合わせます。ネットワークは独立した Refine モジュールで構成され、各モジュールは Residual Convolutional Unit (RCU)、Multi-resolution Fusion (MRF)、Chain Residual Pooling (CRP) の 3 つの主要モジュールで構成されます。全体的な構造は U-Net と似ていますが、ジャンプ接続では新しい結合方法が設計されています (単純な連結ではありません)。個人的には、この構造は独自のネットワーク設計のアイデアとして非常に適していると思います。他の CV 問題で使用されている CNN モジュールを追加し、U-Net を全体的なフレームワークとして使用すれば、効果はそれほど悪くないでしょう。

リファインネットネットワーク

イノベーション：モジュールの改良

1.3 ネットワーク構造の計算複雑さを軽減する

セマンティックセグメンテーションネットワークの計算の複雑さを軽減するための研究も数多くあります。深いネットワーク構造を簡素化する方法としては、テンソル分解、チャネル/ネットワークのプルーニング、スパース接続などがあります。また、モジュールやネットワーク全体の構造を探索するために、手動設計ではなくNAS（ニューラルアーキテクチャ探索）を使用するものもあります。もちろん、AutoDLに必要なGPUリソースは、多くの人々を躊躇させるでしょう。そのため、ランダム検索を使用してはるかに小さな ASPP モジュールを検索し、小さなモジュールに基づいてネットワークモデル全体を構築する人もいます。

軽量ネットワーク設計は業界のコンセンサスです。モバイル展開のために各マシンに2080tiを装備することは不可能です。さらに、消費電力やストレージなどの問題も、モデルの推進と適用を制限することになります。しかし、5Gが普及すれば、すべてのデータがクラウドで処理できるようになるので、非常に興味深いです。もちろん、短期的（10年）には、5Gの本格的な導入が可能かどうかは不明です。

1.4 注意メカニズムに基づくネットワーク構造

注意メカニズムは、後続のレイヤー/特徴マップからの情報を使用して、入力特徴マップの最も有益な（または顕著な）部分を選択して特定することとして定義できます。これは単純に、特徴マップに重みを付ける方法と考えることができます (重みはネットワークを通じて計算されます)。重みが機能するさまざまな方法に応じて、チャネル注意メカニズム (CA) と空間注意メカニズム (PA) に分けることができます。 FPA (Feature Pyramid Attention) ネットワークは、注意メカニズムと空間ピラミッドを組み合わせて、拡張畳み込みや人工的に設計されたデコーダーネットワークを使用せずに、ピクセルレベルのラベル付けのための正確な特徴を抽出する、注意ベースのセマンティックセグメンテーションネットワークです。

1.5 敵対的学習に基づくネットワーク構造

Goodfellow らは 2014 年に、深層生成モデルを学習するための敵対的アプローチを提案しました。敵対的生成ネットワーク (GAN) では、データ分布を捕捉する生成モデル G と、サンプルがトレーニングデータから取得される確率を推定する識別モデル D の 2 つのモデルを同時にトレーニングする必要があります。

● Gはランダムノイズz（乱数）を受け取り、このノイズを通して画像を生成する生成ネットワークである。

● D は、画像が「本物」であるかどうかを判別する判別ネットワークです。入力パラメータは x (画像) であり、出力 D(x) は x が実際の画像である確率を表します。 1 の場合は 100% 実際の画像であることを意味し、出力が 0 の場合は実際の画像ではないことを意味します。

G のトレーニング手順は、D が間違っている確率を最大化することです。任意の関数GとDの空間では、 Gがトレーニングデータの分布を再現し、D=0.5となるような唯一の解が存在することが示されます。トレーニングプロセス中、生成されたネットワーク G の目標は、識別ネットワーク D を欺くために、可能な限りリアルな画像を生成することです。 D の目標は、G によって生成された偽の画像を本物の画像と区別することです。このように、G と D は動的な「ゲームプロセス」を構成し、最終的な均衡点がナッシュ均衡点となります。 G と D がニューラルネットワークによって定義されている場合、システム全体をバックプロパゲーションを使用してトレーニングできます。

GAN ネットワーク構造の概略図GAN にヒントを得て、Luc らはセマンティックセグメンテーションネットワーク (G) と敵対的ネットワーク (D) をトレーニングし、セグメンテーションマップをグラウンドトゥルースまたはセマンティックセグメンテーションネットワーク (G) から区別できるようにしました。 G と D はゲームを通じて継続的に学習しており、損失関数は次のように定義されます。

GANの損失関数

オリジナルの GAN 損失関数を見直してみましょう。GAN の損失関数はゼロサムゲームの考え方を反映しています。オリジナルの GAN 損失関数は次のとおりです。

損失はD(識別器)の出力で計算され、Dの出力は一般的に偽/真の判定となるため、全体的にはバイナリクロスエントロピー関数が使われていると考えられます。 GAN の損失関数の形式から、トレーニングが 2 つの部分に分かれていることがわかります。

最初は maxD の部分です。これは、トレーニングでは通常、G (ジェネレーター) を変更せずに D をトレーニングするためです。 D のトレーニング目標は、偽物と本物を正しく区別することです。1/0 を使用して真偽を表す場合、最初の項目 E については、入力が実際のデータからサンプリングされるため、D(x) が 1 に近くなると予想されます。つまり、最初の項目の方が大きくなります。同様に、2 番目の項 E 入力は G から生成されたデータをサンプリングするため、D(G(z)) は 0 に近くなると予想されます。つまり、2 番目の項は大きくなります。つまり、この部分はトレーニングによって全体が大きくなるという期待であり、それが maxD の意味です。この部分は D のパラメータのみを更新します。

2 番目の部分では、D を変更せずに (パラメータを更新せずに)、G をトレーニングします。この時点では、2 番目の項目 E のみが役立ちます。ここで鍵となります。D を混乱させたいので、ラベルを 1 に設定します (偽物であることがわかっているため、混乱と呼ばれます)。D(G(z)) の出力が 1 に近づくことを期待します。つまり、この項目が小さいほど良いということです。これが minG です。もちろん、識別器を騙すのはそう簡単ではないため、このとき識別器は比較的大きな誤差を生成し、その誤差によって G が更新され、その後 G はより良くなります。今回は騙せなかったので、次回はもっと頑張るしかありません ( https://www.cnblogs.com/walter-xh/p/10051634.htmlより引用)。このとき、G のパラメータのみが更新されます。

GAN を別の観点から見ると、識別器 (D) は特殊な損失関数 (L1、L2、クロスエントロピーなどの従来の損失関数とは異なるニューラルネットワークで構成) に相当します。

また、GAN は特殊なトレーニング方法を持ち、勾配消失やモード崩壊などの問題を抱えていますが (現在、これらの問題を解決する方法があるようです)、その設計コンセプトはまさにディープラーニング時代の偉大な発明です。

1.6 まとめ

ほとんどのディープラーニングベースの画像セマンティックセグメンテーションモデルは、U-Net などのエンコーダー/デコーダーアーキテクチャに従います。近年の研究結果では、拡張畳み込みと特徴ピラミッドプーリングによって U-Net スタイルのネットワークのパフォーマンスを向上できることが示されています。第 2 章では、これらの方法とそのバリエーションを医療画像のセグメンテーションにどのように適用できるかをまとめます。

2. 医療画像セグメンテーションにおけるネットワーク構造革新の応用

このセクションでは、2D/3D 医療画像セグメンテーションにおけるネットワーク構造イノベーションの応用に関する研究結果をいくつか紹介します。

2.1 モデル圧縮に基づくセグメンテーション手法

高解像度の 2D/3D 医療画像 (CT、MRI、組織病理画像など) のリアルタイム処理を実現するために、研究者はさまざまな圧縮モデル手法を提案してきました。 weng らは、NAS 技術を U-Net ネットワークに適用し、CT、MRI、超音波画像で臓器/腫瘍のセグメンテーション性能が向上した小規模ネットワークを実現しました。 Brugger 氏は、グループ正規化とリーク ReLU 関数を利用して U-Net アーキテクチャを再設計し、3D 医療画像セグメンテーションのネットワークのメモリ効率を高めました。パラメータが少ない拡張畳み込みモジュールを設計した人もいます。その他のモデル圧縮方法には、重み量子化 (16 ビット、8 ビット、バイナリ量子化)、蒸留、プルーニングなどがあります。

2.2 エンコーダ・デコーダ構造の分割方法

Drozdal 氏は、セグメンテーションネットワークに入力する前に、単純な CNN を適用して元の入力画像を正規化する手法を提案しました。これにより、単一画像顕微鏡検査、肝臓 CT、前立腺 MRI のセグメンテーション精度が向上しました。 Gu 氏は、バックボーンネットワークで拡張畳み込みを使用してコンテキスト情報を保持する方法を提案しました。 Vorontsov 氏は、ROI のある画像を ROI のない画像に変換し (たとえば、腫瘍のある画像を腫瘍のない健康な画像に変換する)、モデルによって除去された腫瘍を新しい健康な画像に追加して、オブジェクトの詳細な構造を取得するグラフツーグラフネットワークフレームワークを提案しました。 Zhou らは、U-Net ネットワークのスキップ接続を再配線する方法を提案し、胸部低線量 CT スキャンにおける結節のセグメンテーション、顕微鏡画像における核のセグメンテーション、腹部 CT スキャンにおける肝臓のセグメンテーション、大腸内視鏡検査ビデオにおけるポリープのセグメンテーションのタスクでパフォーマンスをテストしました。 Goyal 氏は、皮膚病変領域を抽出すべく、皮膚鏡によるカラー画像セグメンテーションに DeepLabV3 を適用しました。

2.3 注意メカニズムに基づくセグメンテーション手法

Nie は、ベースラインモデル (V-Net および FCN) と比較して、前立腺をより正確にセグメント化できる注目モデルを提案しました。 SinHa 氏は、MRI 画像における腹部臓器のセグメンテーションのための多層注意メカニズムに基づくネットワークを提案しました。 Qin らは、3D 医療画像のより多くの詳細を保存するための拡張畳み込みモジュールを提案しました。注意メカニズムに基づく血涙画像のセグメンテーションに関する論文は他にも多数あります。

2.4 敵対的学習に基づくセグメンテーションネットワーク

Khosravan らは、CT スキャンから膵臓をセグメンテーションするための敵対的トレーニングネットワークを提案しました。ソン氏は網膜画像のセグメンテーションに生成的敵対的ネットワークを使用しました。 Xue 氏は、生成的敵対フレームワークのセグメンテーションネットワークとして完全畳み込みネットワークを使用し、MRI 画像から脳腫瘍のセグメンテーションを実現しました。ここに記載されていない、医療画像のセグメンテーション問題に GAN をうまく適用した論文は他にもあります。

2.5 RNNベースのセグメンテーションモデル

リカレントニューラルネットワーク (RNN) は、主にシーケンスデータを処理するために使用されます。長期短期記憶ネットワーク (LSTM) は、RNN の改良版です。LSTM は、勾配フローを長時間維持するために自己ループを導入します。医療画像解析の分野では、RNN は画像シーケンスの時間依存性をモデル化するために使用されます。 Bin らは、完全な畳み込みニューラルネットワークと RNN を統合し、時間次元の情報をセグメンテーションタスクに組み込む画像シーケンスセグメンテーションアルゴリズムを提案しました。 Gao らは、CNN と LSTM を使用して脳 MRI スライスシーケンスの時間的関係をモデル化し、4D 画像のセグメンテーションパフォーマンスを向上させました。 Liらは、まずU-Netを使用して初期セグメンテーション確率マップを取得し、次にLSTMを使用して3D CT画像から膵臓のセグメンテーションを実行し、セグメンテーションのパフォーマンスを向上させました。 RNN を医療画像のセグメンテーションに使用した論文は他にもたくさんありますが、ここで一つずつ紹介することはしません。

2.6 まとめ

この部分は主に医療画像のセグメンテーションにおけるセグメンテーションアルゴリズムの応用に焦点を当てているため、革新的な点はあまりありません。主に異なる形式のデータ（CTまたはRGB、ピクセル範囲、画像解像度など）と異なる部分のデータの特性（ノイズ、オブジェクトの形態など）に関するものです。従来のネットワークは、異なるデータを入力データの形式と特性に適応させて、セグメンテーションタスクをより適切に完了できるように改善する必要があります。ディープラーニングはブラックボックスですが、全体的なモデル設計には従うべきルールがあります。特定のセグメンテーション問題に基づいて、どのような戦略がどのような問題を解決し、どのような問題を引き起こすかを選択し、最高のセグメンテーションパフォーマンスを実現できます。