5行のコードで画像セグメンテーションを素早く実装し、コードを1行ずつ詳細に説明し、画像の処理方法を手取り足取り教えてくれます。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

コンピュータビジョンの基礎としての画像セグメンテーションは、画像理解の重要な部分であり、画像処理における難しさの 1 つです。

では、画像をエレガントかつ適切に分割するにはどうすればよいでしょうか?

わずか 5 行のコードで数分で実装できるライブラリ、 PixelLibをご覧ください。

もちろん、このような有用なプロジェクトにはオープンソースが必須です。

画像セグメンテーションを使用する理由は何ですか?

コンピュータービジョンの研究者は、画像セグメンテーションの問題に頻繁に遭遇しますが、それでも、初心者の便宜のために、その「詳細な説明」を行う必要があります。

各画像はピクセル値のセットで構成されていることは誰もが知っています。簡単に言えば、画像セグメンテーションはピクセルレベルで画像を分類するタスクです。

画像セグメンテーションで使用される「独自のトリック」のいくつかにより、いくつかの重要なコンピュータービジョンタスクを処理できるようになります。主に2つのカテゴリーに分かれています:

セマンティックセグメンテーション: 画像内の各ピクセルにカテゴリラベルを割り当て、異なる色で表します。
インスタンスセグメンテーション: 各ピクセルのラベル付けは必要なく、対象オブジェクトのエッジ輪郭を見つけるだけです。

重要なシーンで頻繁に登場します。

自律走行車の視覚システムは、道路の状況を効果的に理解できます。
医療画像のセグメンテーションは、医師が診断テストを行うのに役立ちます。
衛星画像解析等

したがって、画像セグメンテーション技術の応用は依然として非常に重要です。

次に、早速本題に入り、この魔法のような使いやすいライブラリ、PixelLib について学習してみましょう。

PixelLibのクイックインストール

PixelLib は、画像のセグメンテーションを非常に簡単にするライブラリです。セマンティックセグメンテーションとインスタンスセグメンテーションは、わずか 5 行のコードで実現できます。

いつものように、まずはインストール環境の紹介をさせていただきます。

TensorFlow、Pillow、OpenCV-Python、scikit-image、PixelLib の最新バージョンをインストールします。

 pip3 テンソルフローをインストール
pip3 インストール枕
pip3 opencv-python をインストール
pip3 scikit-image をインストールする
pip3 ピクセルライブラリをインストール

PixelLibはセマンティックセグメンテーションを実装します

セマンティックセグメンテーションタスクを実行する場合、PixelLib は Deeplabv3+ フレームワークと pascalvoc で事前トレーニングされた Xception モデルを使用します。

pascalvoc で事前トレーニングされた Xception モデルを使用してセマンティックセグメンテーションを実行します。

ピクセルライブラリをインポートする
Pixellib.semantic から semantic_segmentationをインポートします
セグメントイメージ = セマンティックセグメンテーション()
 segment_image.load_pascalvoc_model(“deeplabv3_xception_tf_dim_ordering_tf_kernels.h5”)
 segment_image.segmentAsPascalvoc("画像へのパス", 出力画像名 = "出力画像へのパス")

コードの各行を見てみましょう。

ピクセルライブラリをインポートする
Pixellib.semantic から semantic_segmentationをインポートします
#セマンティックセグメンテーションクラスのインスタンスを作成しました
セグメントイメージ = セマンティックセグメンテーション()

セマンティックセグメンテーションを実行するために使用されるクラスがpixellibからインポートされ、クラスのインスタンスが作成されます。

 segment_image.load_pascalvoc_model(“deeplabv3_xception_tf_dim_ordering_tf_kernels.h5”)

関数を呼び出して、pascal voc でトレーニングされた xception モデルをロードします (xception モデルは、記事の最後にあるリンクからダウンロードできます)。

 segment_image.segmentAsPascalvoc("画像へのパス", 出力画像名 = "出力画像へのパス")

これは画像をセグメント化するコード行です。この関数には 2 つのパラメータが含まれます。

path_to_image: 画像がセグメント化されるパス。
path_to_output_image: 出力イメージを保存するパス。イメージは現在の作業ディレクトリに保存されます。

次に、写真を見て何が起こっているのか見てみましょう。

画像ファイルの名前は、下の図に示すように、sample1.jpg です。

実行コードは次のとおりです。

ピクセルライブラリをインポートする
Pixellib.semantic から semantic_segmentationをインポートします
セグメントイメージ = セマンティックセグメンテーション()
セグメントイメージをロードするpascalvoc_model("deeplabv3_xception_tf_dim_ordering_tf_kernels.h5")
 segment_image.segmentAsPascalvoc("sample1.jpg", output_image_name = "image_new.jpg")

コードを実行すると、保存された画像内のすべてのオブジェクトがセグメント化されていることがわかります。

コードを少し変更して、対象オブジェクトのセグメンテーションオーバーレイを含む画像を取得することもできます。

 segment_image.segmentAsPascalvoc("sample1.jpg", output_image_name = "image_new.jpg", overlay = True)

セグメント化されたオーバーレイを含む画像を生成するために、追加のパラメータが追加され、True に設定されます。

以下のコードを変更することで、セグメンテーションを実行するために必要な推論時間を確認できます。

ピクセルライブラリをインポートする
Pixellib.semantic から semantic_segmentationをインポートします
インポート時間
セグメントイメージ = セマンティックセグメンテーション()
 segment_image.load_pascalvoc_model("pascal.h5")
開始 = 時間.時間()
 segment_image.segmentAsPascalvoc("sample1.jpg", output_image_name="image_new.jpg")
終了 = 時間.時間()
 print(f"推論時間: {end-start:.2f}秒")

出力は次のようになります。

推論時間: 8.19秒

ご覧のとおり、画像に対するセマンティックセグメンテーションの実行にはわずか 8.19 秒しかかかりませんでした。

この Xception モデルは、20 個の一般的なオブジェクトカテゴリを含む PascalVOC データセットを使用してトレーニングされます。

オブジェクトとそれに対応するカラーマップを以下に示します。

PixelLibはインスタンスセグメンテーションを実装する

セマンティックセグメンテーションの結果は良さそうに見えますが、画像セグメンテーションの特定のタスクには理想的ではない可能性があります。

セマンティックセグメンテーションでは、同じカテゴリのオブジェクトに同じカラーマップが割り当てられるため、セマンティックセグメンテーションでは特に十分な画像情報が提供されない可能性があります。

このようにして、インスタンスセグメンテーションが誕生しました。同じカテゴリのオブジェクトには異なるカラーマップが割り当てられます。

PixelLib がインスタンスのセグメンテーションを実行するときは、Mask RCNN フレームワークに基づいています。コードは次のとおりです。

ピクセルライブラリをインポートする
Pixellib.instanceからinstance_segmentationをインポート
セグメントイメージ = インスタンスセグメンテーション()
セグメントイメージ.load_model(“mask_rcnn_coco.h5”)
 segment_image.segmentImage("画像へのパス", output_image_name = "出力画像パス")

もう一度、まずコードの各行を分解してみましょう。

ピクセルライブラリをインポートする
Pixellib.instanceからinstance_segmentationをインポートします
セグメントイメージ = インスタンスセグメンテーション()

インスタンス分割を実行するためのクラスがインポートされ、クラスのインスタンスが作成されます。

セグメントイメージ.load_model(“mask_rcnn_coco.h5”)

これは、インスタンスのセグメンテーションを実行するために Mask RCNN モデルをロードするコードです (Mask RCNN モデルは、記事の最後にあるリンクからダウンロードできます)。

 segment_image.segmentImage("画像へのパス", output_image_name = "出力画像パス")

これは画像に対してインスタンスのセグメンテーションを実行するコードであり、次の 2 つのパラメータが必要です。

path_to_image: モデルが予測する画像へのパス。
output_image_name: セグメンテーション結果が保存されるパス。現在の作業ディレクトリに保存されます。

上の写真は実戦2ラウンド目の様子です！

画像ファイルの名前は、下の図に示すように、sample2.jpg です。

実行コードは次のとおりです。

ピクセルライブラリをインポートする
Pixellib.instanceからinstance_segmentationをインポート
セグメントイメージ = インスタンスセグメンテーション()
セグメントイメージ.load_model(“mask_rcnn_coco.h5”)
 segment_image.segmentImage("sample2.jpg", output_image_name = "image_new.jpg")

上の画像はディレクトリに保存された画像です。これで、セマンティックセグメンテーションとインスタンスセグメンテーションの明らかな違いがわかります。インスタンスセグメンテーションでは、同じカテゴリのすべてのオブジェクトに異なるカラーマップが割り当てられます。

境界ボックスを使用してセグメンテーションを実装する場合は、コードを少し変更します。

 segment_image.segmentImage("sample2.jpg", output_image_name = "image_new.jpg", show_bboxes = True)

この方法では、セグメンテーションマスクと境界ボックスを含む保存された画像が得られます。

同様に、コードを通じてインスタンスセグメンテーションの推論時間を照会することもできます。

ピクセルライブラリをインポートする
Pixellib.instanceからinstance_segmentationをインポートします
インポート時間
セグメントイメージ = インスタンスセグメンテーション()
セグメントイメージ.load_model(“mask_rcnn_coco.h5”)
開始 = 時間.時間()
 segment_image.segmentImage(“former.jpg”, output_image_name= “image_new.jpg”)
終了 = time.time()
 print(f"推論時間: {end-start:.2f}秒")

出力は次のようになります。