この論文では、画像セマンティックセグメンテーションに CNN を使用する際のネットワーク構造の革新についてまとめています。これらの革新には主に、新しいニューラル アーキテクチャ (異なる深さ、幅、接続、トポロジ) の設計と、新しいコンポーネントまたはレイヤーの設計が含まれます。前者は既存のコンポーネントを使用して複雑な大規模ネットワークを組み立てますが、後者は基盤となるコンポーネントを設計する傾向があります。まず、いくつかの古典的なセマンティックセグメンテーションネットワークとその革新を紹介し、次に医療画像セグメンテーションの分野におけるネットワーク構造設計のいくつかのアプリケーションを紹介します。 1. 画像セマンティックセグメンテーションネットワーク構造の革新1.1 FCNネットワークFCN 全体アーキテクチャ FCN ネットワークは、セマンティック セグメンテーションの問題をまったく新しい観点から解決した最初のネットワークであるため、簡単な図では別途リストされています。これまでのニューラルネットワークベースの画像セマンティックセグメンテーションネットワークは、分類対象のピクセルを中心とした画像ブロックを使用して、中心ピクセルのラベルを予測していました。ネットワークは一般的にCNN+FC戦略を使用して構築されていました。明らかに、この方法では画像のグローバルコンテキスト情報を利用できず、ピクセルごとの推論速度が非常に遅いです。FCNネットワークは、完全接続層FCを放棄し、すべての畳み込み層を使用してネットワークを構築します。転置畳み込みと異なる層の機能融合の戦略により、ネットワーク出力は入力画像の予測マスクを直接的に使用し、効率と精度が大幅に向上します。 FCN の異なるレイヤーでの機能融合の概略図 イノベーション:完全畳み込みネットワーク(fc層を除く)、転置畳み込み逆畳み込み(逆畳み込み)、異なる層の特徴マップのジャンプ接続(加算) 1.2 エンコーダ・デコーダ構造
イノベーション: エンコーダー/デコーダー構造、プールインデックス。 セグネットネットワーク SegNetとFCNのアップサンプリング方法の比較
イノベーション:U字型構造、スキップ接続 U-Net ネットワーク
V-Net ネットワーク イノベーション:U-Netネットワークの3Dバージョンに相当
FC-DenseNet(百層ティラミスネットワーク) イノベーション: DenseNet と U-Net の融合 (情報交換の観点から見ると、密な接続は残余構造よりも強力です)
1) DeepLabV1: 畳み込みニューラルネットワークと確率グラフモデルの融合: CNN+CRF により、セグメンテーションと位置決めの精度が向上します。 2) DeepLabV2: ASPP (拡張空間ピラミッドプーリング); CNN+CRF 3) DeepLabV3: 1*1 畳み込みとグローバル平均プーリングを備えた改良された ASPP。カスケード型および並列型の拡張畳み込みの効果を比較しました。 カスケード拡張畳み込み アトラス並列畳み込み (ASPP) 4) DeepLabV3+: エンコーダー-デコーダー アーキテクチャのアイデアを追加し、DeepLabv3 を拡張するデコーダー モジュールを追加します。ASPP およびデコーダー モジュールに深さ方向に分離可能な畳み込みを適用します。改良された Xception をバックボーンとして使用します。 ディープラボV3+ 一般的に、 DeepLab シリーズのコアとなる貢献は、拡張畳み込み、ASPP、CNN+CRF です (V1 と V2 のみが CRF を使用し、V3 と V3+ はディープ ネットワークを通じてセグメンテーション境界のぼやけた問題を解決し、CRF を追加するよりも効果があります)。
PSPNet ネットワーク イノベーション:マルチスケールプーリング、複雑なシーンを理解するためのグローバル画像レベルの事前知識のより有効な活用
リファインネットネットワーク イノベーション:モジュールの改良 1.3 ネットワーク構造の計算複雑さを軽減するセマンティックセグメンテーションネットワークの計算の複雑さを軽減するための研究も数多くあります。深いネットワーク構造を簡素化する方法としては、テンソル分解、チャネル/ネットワークのプルーニング、スパース接続などがあります。また、モジュールやネットワーク全体の構造を探索するために、手動設計ではなくNAS(ニューラルアーキテクチャ探索)を使用するものもあります。もちろん、AutoDLに必要なGPUリソースは、多くの人々を躊躇させるでしょう。そのため、ランダム検索を使用してはるかに小さな ASPP モジュールを検索し、小さなモジュールに基づいてネットワーク モデル全体を構築する人もいます。 軽量ネットワーク設計は業界のコンセンサスです。モバイル展開のために各マシンに2080tiを装備することは不可能です。さらに、消費電力やストレージなどの問題も、モデルの推進と適用を制限することになります。しかし、5Gが普及すれば、すべてのデータがクラウドで処理できるようになるので、非常に興味深いです。もちろん、短期的(10年)には、5Gの本格的な導入が可能かどうかは不明です。 1.4 注意メカニズムに基づくネットワーク構造注意メカニズムは、後続のレイヤー/特徴マップからの情報を使用して、入力特徴マップの最も有益な(または顕著な)部分を選択して特定することとして定義できます。これは単純に、特徴マップに重みを付ける方法と考えることができます (重みはネットワークを通じて計算されます)。重みが機能するさまざまな方法に応じて、チャネル注意メカニズム (CA) と空間注意メカニズム (PA) に分けることができます。 FPA (Feature Pyramid Attention) ネットワークは、注意メカニズムと空間ピラミッドを組み合わせて、拡張畳み込みや人工的に設計されたデコーダー ネットワークを使用せずに、ピクセル レベルのラベル付けのための正確な特徴を抽出する、注意ベースのセマンティック セグメンテーション ネットワークです。 1.5 敵対的学習に基づくネットワーク構造Goodfellow らは 2014 年に、深層生成モデルを学習するための敵対的アプローチを提案しました。敵対的生成ネットワーク (GAN) では、データ分布を捕捉する生成モデル G と、サンプルがトレーニング データから取得される確率を推定する識別モデル D の 2 つのモデルを同時にトレーニングする必要があります。 ● Gはランダムノイズz(乱数)を受け取り、このノイズを通して画像を生成する生成ネットワークである。 ● D は、画像が「本物」であるかどうかを判別する判別ネットワークです。入力パラメータは x (画像) であり、出力 D(x) は x が実際の画像である確率を表します。 1 の場合は 100% 実際の画像であることを意味し、出力が 0 の場合は実際の画像ではないことを意味します。 G のトレーニング手順は、D が間違っている確率を最大化することです。任意の関数GとDの空間では、 Gがトレーニングデータの分布を再現し、D=0.5となるような唯一の解が存在することが示されます。トレーニング プロセス中、生成されたネットワーク G の目標は、識別ネットワーク D を欺くために、可能な限りリアルな画像を生成することです。 D の目標は、G によって生成された偽の画像を本物の画像と区別することです。このように、G と D は動的な「ゲームプロセス」を構成し、最終的な均衡点がナッシュ均衡点となります。 G と D がニューラル ネットワークによって定義されている場合、システム全体をバックプロパゲーションを使用してトレーニングできます。 GAN ネットワーク構造の概略図GAN にヒントを得て、Luc らはセマンティック セグメンテーション ネットワーク (G) と敵対的ネットワーク (D) をトレーニングし、セグメンテーション マップをグラウンド トゥルースまたはセマンティック セグメンテーション ネットワーク (G) から区別できるようにしました。 G と D はゲームを通じて継続的に学習しており、損失関数は次のように定義されます。 GANの損失関数 オリジナルの GAN 損失関数を見直してみましょう。GAN の損失関数はゼロサムゲームの考え方を反映しています。オリジナルの GAN 損失関数は次のとおりです。 損失はD(識別器)の出力で計算され、Dの出力は一般的に偽/真の判定となるため、全体的にはバイナリクロスエントロピー関数が使われていると考えられます。 GAN の損失関数の形式から、トレーニングが 2 つの部分に分かれていることがわかります。 最初は maxD の部分です。これは、トレーニングでは通常、G (ジェネレーター) を変更せずに D をトレーニングするためです。 D のトレーニング目標は、偽物と本物を正しく区別することです。1/0 を使用して真偽を表す場合、最初の項目 E については、入力が実際のデータからサンプリングされるため、D(x) が 1 に近くなると予想されます。つまり、最初の項目の方が大きくなります。同様に、2 番目の項 E 入力は G から生成されたデータをサンプリングするため、D(G(z)) は 0 に近くなると予想されます。つまり、2 番目の項は大きくなります。つまり、この部分はトレーニングによって全体が大きくなるという期待であり、それが maxD の意味です。この部分は D のパラメータのみを更新します。 2 番目の部分では、D を変更せずに (パラメータを更新せずに)、G をトレーニングします。この時点では、2 番目の項目 E のみが役立ちます。ここで鍵となります。D を混乱させたいので、ラベルを 1 に設定します (偽物であることがわかっているため、混乱と呼ばれます)。D(G(z)) の出力が 1 に近づくことを期待します。つまり、この項目が小さいほど良いということです。これが minG です。もちろん、識別器を騙すのはそう簡単ではないため、このとき識別器は比較的大きな誤差を生成し、その誤差によって G が更新され、その後 G はより良くなります。今回は騙せなかったので、次回はもっと頑張るしかありません ( https://www.cnblogs.com/walter-xh/p/10051634.htmlより引用)。このとき、G のパラメータのみが更新されます。 GAN を別の観点から見ると、識別器 (D) は特殊な損失関数 (L1、L2、クロスエントロピーなどの従来の損失関数とは異なるニューラル ネットワークで構成) に相当します。 また、GAN は特殊なトレーニング方法を持ち、勾配消失やモード崩壊などの問題を抱えていますが (現在、これらの問題を解決する方法があるようです)、その設計コンセプトはまさにディープラーニング時代の偉大な発明です。 1.6 まとめほとんどのディープラーニング ベースの画像セマンティック セグメンテーション モデルは、U-Net などのエンコーダー/デコーダー アーキテクチャに従います。近年の研究結果では、拡張畳み込みと特徴ピラミッドプーリングによって U-Net スタイルのネットワークのパフォーマンスを向上できることが示されています。第 2 章では、これらの方法とそのバリエーションを医療画像のセグメンテーションにどのように適用できるかをまとめます。 2. 医療画像セグメンテーションにおけるネットワーク構造革新の応用このセクションでは、2D/3D 医療画像セグメンテーションにおけるネットワーク構造イノベーションの応用に関する研究結果をいくつか紹介します。 2.1 モデル圧縮に基づくセグメンテーション手法高解像度の 2D/3D 医療画像 (CT、MRI、組織病理画像など) のリアルタイム処理を実現するために、研究者はさまざまな圧縮モデル手法を提案してきました。 weng らは、NAS 技術を U-Net ネットワークに適用し、CT、MRI、超音波画像で臓器/腫瘍のセグメンテーション性能が向上した小規模ネットワークを実現しました。 Brugger 氏は、グループ正規化とリーク ReLU 関数を利用して U-Net アーキテクチャを再設計し、3D 医療画像セグメンテーションのネットワークのメモリ効率を高めました。パラメータが少ない拡張畳み込みモジュールを設計した人もいます。その他のモデル圧縮方法には、重み量子化 (16 ビット、8 ビット、バイナリ量子化)、蒸留、プルーニングなどがあります。 2.2 エンコーダ・デコーダ構造の分割方法Drozdal 氏は、セグメンテーション ネットワークに入力する前に、単純な CNN を適用して元の入力画像を正規化する手法を提案しました。これにより、単一画像顕微鏡検査、肝臓 CT、前立腺 MRI のセグメンテーション精度が向上しました。 Gu 氏は、バックボーン ネットワークで拡張畳み込みを使用してコンテキスト情報を保持する方法を提案しました。 Vorontsov 氏は、ROI のある画像を ROI のない画像に変換し (たとえば、腫瘍のある画像を腫瘍のない健康な画像に変換する)、モデルによって除去された腫瘍を新しい健康な画像に追加して、オブジェクトの詳細な構造を取得するグラフツーグラフ ネットワーク フレームワークを提案しました。 Zhou らは、U-Net ネットワークのスキップ接続を再配線する方法を提案し、胸部低線量 CT スキャンにおける結節のセグメンテーション、顕微鏡画像における核のセグメンテーション、腹部 CT スキャンにおける肝臓のセグメンテーション、大腸内視鏡検査ビデオにおけるポリープのセグメンテーションのタスクでパフォーマンスをテストしました。 Goyal 氏は、皮膚病変領域を抽出すべく、皮膚鏡によるカラー画像セグメンテーションに DeepLabV3 を適用しました。 2.3 注意メカニズムに基づくセグメンテーション手法Nie は、ベースライン モデル (V-Net および FCN) と比較して、前立腺をより正確にセグメント化できる注目モデルを提案しました。 SinHa 氏は、MRI 画像における腹部臓器のセグメンテーションのための多層注意メカニズムに基づくネットワークを提案しました。 Qin らは、3D 医療画像のより多くの詳細を保存するための拡張畳み込みモジュールを提案しました。注意メカニズムに基づく血涙画像のセグメンテーションに関する論文は他にも多数あります。 2.4 敵対的学習に基づくセグメンテーションネットワークKhosravan らは、CT スキャンから膵臓をセグメンテーションするための敵対的トレーニング ネットワークを提案しました。ソン氏は網膜画像のセグメンテーションに生成的敵対的ネットワークを使用しました。 Xue 氏は、生成的敵対フレームワークのセグメンテーション ネットワークとして完全畳み込みネットワークを使用し、MRI 画像から脳腫瘍のセグメンテーションを実現しました。ここに記載されていない、医療画像のセグメンテーション問題に GAN をうまく適用した論文は他にもあります。 2.5 RNNベースのセグメンテーションモデルリカレント ニューラル ネットワーク (RNN) は、主にシーケンス データを処理するために使用されます。長期短期記憶ネットワーク (LSTM) は、RNN の改良版です。LSTM は、勾配フローを長時間維持するために自己ループを導入します。医療画像解析の分野では、RNN は画像シーケンスの時間依存性をモデル化するために使用されます。 Bin らは、完全な畳み込みニューラル ネットワークと RNN を統合し、時間次元の情報をセグメンテーション タスクに組み込む画像シーケンス セグメンテーション アルゴリズムを提案しました。 Gao らは、CNN と LSTM を使用して脳 MRI スライス シーケンスの時間的関係をモデル化し、4D 画像のセグメンテーション パフォーマンスを向上させました。 Liらは、まずU-Netを使用して初期セグメンテーション確率マップを取得し、次にLSTMを使用して3D CT画像から膵臓のセグメンテーションを実行し、セグメンテーションのパフォーマンスを向上させました。 RNN を医療画像のセグメンテーションに使用した論文は他にもたくさんありますが、ここで一つずつ紹介することはしません。 2.6 まとめこの部分は主に医療画像のセグメンテーションにおけるセグメンテーションアルゴリズムの応用に焦点を当てているため、革新的な点はあまりありません。主に異なる形式のデータ(CTまたはRGB、ピクセル範囲、画像解像度など)と異なる部分のデータの特性(ノイズ、オブジェクトの形態など)に関するものです。従来のネットワークは、異なるデータを入力データの形式と特性に適応させて、セグメンテーションタスクをより適切に完了できるように改善する必要があります。ディープラーニングはブラックボックスですが、全体的なモデル設計には従うべきルールがあります。特定のセグメンテーション問題に基づいて、どのような戦略がどのような問題を解決し、どのような問題を引き起こすかを選択し、最高のセグメンテーション パフォーマンスを実現できます。 いくつかの参考資料:1. 自然画像と医療画像のディープセマンティックセグメンテーション:レビュー 2.NAS-Unet: 医療画像セグメンテーションのためのニューラルアーキテクチャ検索。IEEE Access、7:44247–44257、2019。 3.画像から画像への変換による弱い監督によるセグメンテーションの強化。arXiv プレプリント arXiv:1904.01636, 2019 4. 医療画像セグメンテーションのためのマルチスケールガイド付き注意。arXiv プレプリント arXiv:1906.02849,2019。 5.SegAN: 医療画像セグメンテーションのためのマルチスケール L1 損失を備えた敵対的ネットワーク。 6. 完全な畳み込み構造化 LSTM ネットワークによる 4D 医用画像の共同セグメンテーション。2018 IEEE7 https://www.cnblogs.com/walter-xh/p/10051634.html |
<<: 第2世代GANネットワークの台頭? DALL·E Miniのグラフィックが恐ろしく、外国人も大興奮!
>>: 人工知能は依然として人気があり、大学入試では3年連続で最も人気のある選択肢となっている。
[[205087]]あまり巧妙になりすぎずに、機械学習の学術界に触れ、すでに業界に入った人間の視点...
ディープラーニング技術を用いた自然言語の深い理解は、常に注目されてきました。自分で音楽を調べる必要が...
最近、中国労働・社会保障科学院の莫容研究チームが発表した研究結果によると、わが国における人工知能の雇...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIからより多くの利益を得るには、管理者はテクノロジーの使用方法を変える必要があります。 [[333...
[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...
1月13日、JDD-2018 JDデジタルテクノロジーグローバルエクスプローラーコンペティションの世...
[[317692]]グラフニューラルネットワークはどの程度発展しましたか?現在、評価専用のベンチマー...
まず、Java開発の分野でさらに進歩したい場合、または付加価値の高い仕事に就きたい場合は、Java開...