3D MRI および CT スキャンのディープラーニングモデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズデータを扱う場合、特にそれらの多くが 3D であることです。 DICOM 画像は、スキャンまたは体の特定の部分を構成する多数の 2D スライスで構成されています。

では、このタイプのデータ用のディープラーニングソリューションをどのように構築すればよいのでしょうか? この記事では、3D 医療データでディープラーニングモデルをトレーニングするために使用できる 6 つのニューラルネットワークアーキテクチャを紹介します。

U-Net アーキテクチャは、医療画像のセグメンテーションのための強力なモデルです。 3D U-Net は、従来の U-Net モデルを 3D セグメンテーションに拡張します。エンコード（ダウンサンプリング）パスとデコード（アップサンプリング）パスで構成されます。

エンコードパスは入力画像のコンテキストをキャプチャし、デコードパスは正確なローカリゼーションを可能にします。 3D U-Net は、ボリューム画像の 3D 特性の処理に非常に効果的です。

V-Net アーキテクチャは、ボリューム画像セグメンテーション用の別の 3D 畳み込みニューラルネットワークです。 U-Net と同様に、V-Net にはエンコーダー/デコーダーアーキテクチャがありますが、フル解像度の 3D 畳み込みを使用するため、U-Net よりも計算コストが高くなります。

残差接続を持つ一連の 3D 畳み込み層を使用します。モデルはエンドツーエンドでトレーニングされており、3D 画像全体を一度に処理できます。

これは、EfficientNet アーキテクチャの 3D 改良版です。U-Net や V-Net ほど 3D セグメンテーションによく使用されるわけではありませんが、計算コストとパフォーマンスのトレードオフが優れているため、計算リソースが限られている場合に検討できます。

これは、ネットワークが現在のタスクに関連性の高い画像の特定の部分に集中できるようにする注意メカニズムを組み込んだ U-Net のバリエーションです。

これは、通常の解像度用とダウンサンプリングされた入力用の 2 つのパスを使用する 3D CNN であり、ローカル情報とより大きなコンテキスト情報の両方を組み込むことができます。

この記事では、医療画像業界で 3D MRI および CT スキャンを処理するために使用されているいくつかのディープラーニングモデルを紹介しました。これらのニューラルネットワークは、3D データを入力として受け取り、DICOM シリーズの特定の体の部分の複雑さを学習するように設計されています。

ブログ