ディープラーニングプロジェクトの例: オートエンコーダを使用したぼやけた画像の復元

より鮮明な写真を撮るには、カメラレンズの優先フォーカスを使用して同じ写真を再度撮影するか、ディープラーニングの知識を使用してぼやけた画像を再現します。私の専門は写真撮影ではないので、残された唯一の選択肢は、ディープラーニング技術を使用して画像のぼかしを除去することです。

この記事では、プロジェクトを開始する前に、読者がニューラルネットワーク、CNN などのディープラーニングの基本概念を理解していることを前提としています。 Keras、Tensorflow、OpenCV についても少し知っておく必要があります。

ぼかしには、モーションブラー、ガウスブラー、平均ブラーなど、さまざまな種類があります。しかし、ここではガウスぼかし画像に焦点を当てます。このタイプのぼかしでは、ピクセルの重みは不均等になります。ぼかしは中央で大きくなり、端に向かってベル型の曲線を描いて減少します。

データセット

コードを使い始める前に、まず必要なのは、ぼやけた画像ときれいな画像の 2 セットの画像で構成されるデータセットです。現時点では、既製のデータセットは利用できないかもしれませんが、上で述べたように、OpenCV の基本を理解していれば、これは非常に簡単です。元の画像があれば、OpenCV を使用してトレーニングに必要なデータセットを生成できます。

ここでのデータセットのサイズは約 50 枚の画像 (50 枚のきれいな画像と 50 枚のぼかし画像) ですが、これはデモンストレーション目的のため、少数の画像のみが選択されています。

コードを書く

データセットの準備ができたので、コードの記述を開始できます。

依存関係

 numpyをnp としてインポートする
pandasをpd としてインポートする
matplotlib.pyplot をplt としてインポートします
% matplotlib インライン
ランダムにインポート
cv2 をインポート
インポートOS
 テンソルフローをtf としてインポートする
tqdm からtqdm をインポート

ここで tqdm ライブラリをインポートすると、コードの実行にかかる時間を把握できる進行状況バーを作成できます。

データのインポート

 good_frames = '/content/drive/MyDrive/mini_clean'
 bad_frames = '/content/drive/MyDrive/mini_blur'

これで 2 つのリストが作成されました。 keras 前処理ライブラリを使用して、「.jpg」、「jpeg」、または「.png」タイプの画像を読み取り、配列に変換します。ここで画像サイズは128x128です。

 クリーンフレーム= []
 tqdm ( sorted ( os . listdir ( good_frames )) 内のファイルの場合):
 存在する場合（[ '.jpg' 、 'jpeg' 、 '.png' ] の拡張子に対するファイル内の拡張子）：
 image = tf . keras . preprocessing . image . load_img ( good_frames + '/' + file , target_size = ( 128 , 128 ))
 image = tf.keras.preprocessing.image.img_to_array (image ) .astype ( 'float32 ' ) / 255
 clean_frames.append (画像)
 clean_frames = np .array ( clean_frames )
 ぼやけたフレーム= []
 tqdm 内のファイルの場合( sorted ( os . listdir ( bad_frames ))):
 存在する場合（[ '.jpg' 、 'jpeg' 、 '.png' ] の拡張子に対するファイル内の拡張子）：
 image = tf . keras . preprocessing . image . load_img ( bad_frames + '/' + file , target_size = ( 128 , 128 ))
 image = tf.keras.preprocessing.image.img_to_array (image ) .astype ( 'float32 ' ) / 255
 blurry_frames . append ( 画像)
 ぼやけたフレーム= np . 配列( ぼやけたフレーム)

モデルライブラリをインポートする

 keras.layers からDense をインポートし、 入力
keras.layers からConv2D をインポートし、 Flatten
 keras.layers からReshape 、 Conv2DTranspose をインポートします
keras.models からModel をインポートする
keras . callbacks からReduceLROnPlateau 、 ModelCheckpoint をインポートします
keras.utils.vis_utils からplot_model をインポートする
keras からバックエンドをK としてインポートします
ランダム. シード= 21
 np . ランダム. シード= シード

データセットをトレーニングセットとテストセットに分割する

ここで、データセットを 80:20 の比率でトレーニングセットとテストセットに分割します。

 クリーンフレーム;
 y = ぼやけたフレーム;
 sklearn.model_selection からtrain_test_split をインポートします
x_train 、 x_test 、 y_train 、 y_test = train_test_split ( x 、 y 、 test_size = 0.2 、 random_state = 42 ) です。

トレーニングデータセットとテストデータセットの形状を確認する

 印刷( x_train [ 0 ] .shape )
 印刷( y_train [ 0 ] .shape )

 r = ランダム. randint ( 0 , len ( clean_frames ) - 1 )
 印刷( r )
 図= plt . 図()
 図. subplots_adjust ( hspace = 0.1 、 wspace = 0.2 )
 ax = 図.add_subplot ( 1 , 2 , 1 )
 ax.imshow ( クリーンフレーム[ r ])
 ax = 図.add_subplot ( 1 , 2 , 2 )
 ax.imshow (ぼやけたフレーム[ r ])

上記のコードでは、トレーニングデータセットとテストデータセットから画像を表示できます。次に例を示します。

以下はモデルを書くときに必要ないくつかのパラメータを初期化します

 # ネットワークパラメータ
入力形状= ( 128 , 128 , 3 )
 バッチサイズ= 32
 カーネルサイズ= 3
 潜在次元= 256
 # エンコーダー/デコーダーの CNN レイヤー数とレイヤーあたりのフィルター数
レイヤーフィルター= [ 64 , 128 , 256 ]

エンコーダモデル

オートエンコーダの構造については、以前の記事で何度も詳しく説明しているので、ここでは詳しく説明しません。

 inputs = 入力( 形状= input_shape 、 名前= 'encoder_input' )
 x = 入力

まず最初に入力（画像の配列）が必要です。入力を取得したら、Conv2D(64) - Conv2D(128) - Conv2D(256) のシンプルなエンコーダーを構築します。エンコーダーは画像を (16, 16, 256) に圧縮します。この配列がデコーダーの入力になります。

 layer_filters 内のフィルターの場合:
 x = Conv2D ( フィルター= フィルター、
 カーネルサイズ= カーネルサイズ、
 ストライド= 2 、
 アクティベーション= 'relu' 、
 パディング= '同じ' )( x )
 形状= K . int_shape ( x )
 x = 平坦化()( x )
 潜在= 密( latent_dim 、 name = 'latent_vector' )( x )

ここで、K.int_shape() はテンソルを整数のタプルに変換します。

エンコーダモデルを次のようにインスタンス化する

 エンコーダ= モデル( 入力、 潜在、 名前= 'エンコーダ' )
 エンコーダ.サマリー( )

デコーダーモデル

デコーダーモデルはエンコーダーモデルに似ていますが、逆の計算を実行します。デコーダーは入力を (128, 128, 3) に戻します。したがって、ここではConv2DTranspose(256) - Conv2DTranspose(128) - Conv2DTranspose(64)を使用します。

 latent_inputs = 入力( 形状= ( latent_dim ,), 名前= 'decoder_input' )
 x = 密( 形状[ 1 ] * 形状[ 2 ] * 形状[ 3 ])( 潜在入力)
 x = Reshape (( shape [ 1 ], shape [ 2 ], shape [ 3 ]))( x ) 、 layer_filters [:: - 1 ] 内のフィルターの場合:
 x = Conv2DTranspose ( フィルター= フィルター,
 カーネルサイズ= カーネルサイズ、
 ストライド= 2 、
 アクティベーション= 'relu' 、
 パディング= '同じ' )( x )
 出力= Conv2DTranspose ( フィルター= 3 、
 カーネルサイズ= カーネルサイズ、
 活性化= 'シグモイド' 、
 パディング= '同じ' 、
 名前= 'デコーダー出力' )( x )

デコーダーは次のとおりです。

 デコーダー= モデル( latent_inputs 、 outputs 、 name = 'decoder' )
 デコーダー. 概要()

オートエンコーダに統合

オートエンコーダー = エンコーダー + デコーダー

 autoencoder = モデル( 入力、 デコーダー( エンコーダー( 入力) )、 名前= 'autoencoder' )
 オートエンコーダ.サマリー( )

最後に、モデルをトレーニングする前にハイパーパラメータを設定する必要があります。

 オートエンコーダ. コンパイル( loss = 'mse' 、 optimizer = 'adam' 、 metrics = [ "acc" ])

損失関数として平均二乗誤差、最適化ツールとして Adam、評価メトリックとして精度を選択しました。次に、メトリックが改善されない場合に学習率を下げることができるように、学習率調整スケジュールを定義する必要があります。

 lr_reducer = ReduceLROnPlateau ( 係数= np.sqrt ( 0.1 ) 、
 クールダウン= 0 、
 忍耐力= 5 、
 詳細= 1 、
 最小lr = 0.5e-6 )

学習率の調整は、トレーニングの各ラウンドで呼び出す必要があります。

 コールバック= [ lr_reducer ]

モデルのトレーニング

 history = オートエンコーダ.fit ( blurry_frames ,
 クリーンフレーム、
 検証データ= ( ぼやけたフレーム, きれいなフレーム),
 エポック= 100 、
 バッチサイズ= バッチサイズ、
 コールバック= コールバック)

このコードを実行した後、トレーニングエポックを 100 に設定しているため、最終出力が表示されるまでに約 5 ～ 6 分、またはそれ以上かかる場合があります。

最終結果

モデルのトレーニングが成功したので、モデルの予測を見てみましょう。

 print ( "\n グラウンドトゥルース予測値を入力してください" )
 iが範囲( 3 ) 内にある場合:

 r = ランダム. randint ( 0 , len ( clean_frames ) - 1 )
 x , y = ぼやけたフレーム[ r ]、 きれいなフレーム[ r ]
 x_inp = x . reshape ( 1 , 128 , 128 , 3 )
 結果= オートエンコーダ. 予測( x_inp )
 結果= 結果.reshape ( 128,128,3 )
 図= plt . 図( 図サイズ= ( 12 , 10 ))
 図. subplots_adjust ( hspace = 0.1 、 wspace = 0.2 )
 ax = 図.add_subplot ( 1 , 3 , 1 )
 ax . imshow ( x )
 ax = 図.add_subplot ( 1 , 3 , 2 )
 ax.imshow ( y ) 関数
ax = 図.add_subplot ( 1 , 3 , 3 )
 plt . imshow ( 結果)

モデルは画像のぼかしをうまく除去し、ほぼ元の画像を取得できることがわかります。 3 層の畳み込みアーキテクチャのみを使用したため、より深いモデルを使用する場合は、ハイパーパラメータの調整によってより良い結果が得られるはずです。

トレーニングの進行状況を確認するには、損失関数と精度のグラフをプロットして、より適切な決定を下すことができます。

損失の変化

 plt . 図( 図サイズ= ( 12 , 8 ))
 plt . plot ( history . history [ 'loss' ])
 plt . plot ( history . history [ 'val_loss' ])
 plt . legend ([ 'Train' , 'Test' ])
 plt . xlabel ( 'エポック' )
 plt . ylabel ( '損失' )
 plt . xticks ( np . arange ( 0 , 101 , 25 ))
 plt . 表示()

損失が大幅に減少し、エポック 80 から停滞していることがわかります。

正確さ

 plt . 図( 図サイズ= ( 12 , 8 ))
 plt . plot ( history . history [ 'acc' ])
 plt . plot ( history . history [ 'val_acc' ])
 plt . legend ([ 'Train' , 'Test' ])
 plt . xlabel ( 'エポック' )
 plt . ylabel ( '精度' )
 plt . xticks ( np . arange ( 0 , 101 , 25 ))
 plt . 表示()