初心者のための CNN と Keras のクイックガイド

[[201203]]

1. Keras を使用する理由

ディープラーニングが大人気の昨今、サードパーティのツールが次々と登場しています。有名なものとしては、Tensorflow、Caffe、Theano、MXNet などがあります。これほど多くのサードパーティフレームワークを頻繁に切り替えるのは、間違いなく非効率的です。いずれかのフレームワークを習得し、その原理に精通していれば、さまざまな要件に応じて後でフレームワークを変更するのは簡単です。

では、Sherlock はどのフレームワークを使用するのでしょうか? Sherlock は、Google のオープンソースフレームワーク Tensorflow を使用します。Google が Tensorflow をオープンソース化した後、そのコミュニティは非常に活発で、バージョンの更新も非常に安定しているため、このフレームワークを選択しました。 Zhihu ではフレームワーク論争についてすでに多くの人が議論していますが、これはまさにどのプログラミング言語が優れているかという問題と同じです。私たちにとって、安定したフレームワークを選択し、ディープラーニングをしっかり学ぶことが最優先事項です。どのフレームワークが優れているかという質問については、しっかり学んだ後には当然自分たちの意見を持つようになるので、初期段階では、Zhihuを閲覧したり、達人たちの議論を聞いたりして、フレームワークを頻繁に変更することは避けるべきです。

Tensorflow のインストール方法や、CPU と GPU のバージョン、各種システムのインストール方法については、多くの人が詳しいガイドを書いています。インターネットで自分で検索すれば、簡単にインストールできます。

Tensorflow を選択したら、ディープラーニングの旅を楽しく始めることができます。 Tensorflow の中国コミュニティにアクセスすると、初心者向けのチュートリアルがいくつか見つかります。また、インターネット上には学習教材も多数あります。Tensorflow を詳細に紹介しているスタンフォード大学 cs224d のコースウェア (http://cs224d.stanford.edu/lectures/CS224d-Lecture7.pdf) をご覧になることをお勧めします。その後、TensorFlow プログラムを作成できます。 Tensorflow はパッケージ化されたフレームワークですが、単純なニューラルネットワークを書くのに多くの行が必要になる場合があります。現時点では、ネットワークの作成を支援するサードパーティプラグインが多数あります。つまり、Tensorflow を使用して 10 行を記述すると、サードパーティプラグインが関数をカプセル化します。この関数は、これらの 10 行をこの関数に結合します。その後、1 行を使用して同じパラメーターを渡すことで、10 行と同じ効果を実現できます。これは非常にシンプルで時間を節約できるため、アイデアを迅速に実現するのに役立ちます。

Keras Documentation は Keras の公式ドキュメントであり、すべての機能を確認できるほか、GitHub でオープンソースコードも表示できるので非常に便利です。インストールも非常に簡単です。ターミナルを開き、pip install keras と入力してインストールを待ちます。

Keras がいかにシンプルであるかを示す簡単な例を示します。

 keras.modelsからSequentialをインポートする
 
モデル = シーケンシャル()

シーケンシャルを紹介します。これは空のネットワーク構造で、この構造はシーケンシャルシーケンスなので、Sequential と呼ばれます。Keras には他にもネットワーク構造がいくつかあります。

 keras.layersからDenseをインポートし、Activation 
 
 model.add (高密度(単位=64、入力次元=100)) 
 
モデルを追加します(アクティベーション ( 'relu' )) 
 
 model.add (密(単位=10)) 
 
モデルを追加します(アクティベーション( 'softmax' ))

レイヤーの追加は非常に簡単であることがわかります。.add に続けて、追加するレイヤーの種類を記述するだけです。

 model.compile(loss= 'categorical_crossentropy' , 
 
オプティマイザ = 'sgd' 、 
 
メトリック=[ '精度' ])

ネットワークを記述したら、compile を使用してネットワーク全体をコンパイルし、パラメータ設定に問題がないか確認できます。

 model.compile(loss=keras.losses.categorical_crossentropy, 
 
オプティマイザー = keras.optimizers.SGD(lr = 0.01、モメンタム = 0.9、nesterov = True ))

最適化関数をカスタマイズすることもできます。上記のように、「sgd」は Keras がいくつかのデフォルトパラメータを使用して作成した最適化関数です。パラメータを自分で再定義して、最適化関数を取得できます。

モデルをフィット(x_train、y_train、エポック=5、バッチサイズ=32)

これは scikit-learn と同じようにモデルをトレーニングします。

 loss_and_metrics = モデル.evaluate(x_test、y_test、バッチサイズ=128)

トレーニングの結果を評価するためです。

クラス = model.predict(x_test,batch_size=128)

または、predict を使用して予測を行うこともできます。

上記のコードを読んだ後、scikit-learn に精通している多くの学生は、それが非常にシンプルで scikit-learn と似た構文を持っているため、非常に馴染み深いと感じると思います。

2. CNNの学習を始める

CNN を理解する前に、より高度な畳み込みニューラルネットワークを理解し始めることができるように、ニューラルネットワークとは何かを理解する必要があります。

もちろん、ニューラルネットワークを学ぶ方法はたくさんあります。インターネット上の多くの専門家が、多くのガイドを書いています。理論からエンジニアリングまでディープラーニングを完了することを提唱する人もいれば、エンジニアリングから始めて問題を発見し解決することを望む人もいます。さまざまな人がさまざまな方法を試し、ガイドもたくさんあります。そのため、多くの初心者は教材を選択する途中ですぐに失敗してしまいます。彼らは前提知識を補うために勉強を続け、熱意が冷めたら学習をあきらめてしまいます。彼らは畳み込みネットワークが何であるかさえ知らず、みんなの学習意欲を大きく削いでいます。今日、シャーロックは皆さんに学習教材をお勧めします。この教材があれば、CNN をすぐに使い始めることができ、外出して自慢するときに他の人とチャットできるようになります。

この教材は何でしょうか？有名なスタンフォードコース CS231N です。 CS231n 視覚認識のための畳み込みニューラルネットワークスタンフォード大学は、ディープラーニングと人工知能の分野で非常に強力な大学です。

ニューラルネットワーク

では、早速ニューラルネットワークの学習を始めましょう。

これは脳神経の写真です。ニューラルネットワークの発明もここから始まりました。これはニューロンと呼ばれるもので、さまざまな受信シナプスがあり、脳神経を通して受信し、最終的に出力結果を得ます。

では、この脳神経図から抽象化できるニューラルネットワークとは何でしょうか? それは、以下のニューラルネットワークモデルです。

これをどう理解すればよいでしょうか? これは、ベクトルを入力し、ベクトルの各要素に重みを割り当て、重みを合計して結果を取得することを意味します。次に、この結果を活性化関数に入力して、最終的な出力結果を取得します。

活性化関数とは何ですか？活性化関数の出現は、人間の脳の構造によるものです。人間の脳で情報を受け取り、結果を得るプロセスは非線形です。たとえば、何かを見たとき、このもののすべての特徴を保持することはできません。興味のある領域を観察することに集中します。これは非線形であり、入力結果を非線形結果に変換するには非線形の変更が必要であることを意味します。現在一般的に使用されている非線形関数は Relu(x) = max(x, 0) であり、これは 0 未満の部分を削除し、0 より大きい部分のみを保持します。

これらはユニットの入力と出力であり、これらのユニットを組み合わせることでニューラルネットワークが作成されます。

これは単純な1層ネットワークですが、複数のネットワーク層で構成することもできます。

ここでの入力層は、単一のトレーニングセットの次元です。すべてのトレーニングセットを入力すると、ニューラルネットワークのトレーニングを開始できます。

Kerasはシンプルなニューラルネットワークを実装します

ニューラルネットワークの基本的な構造と原理を理解したら、keras を使用してシンプルなニューラルネットワークを実装し始めることができます。

 kerasをインポートする
 
 keras.modelsからSequentialをインポートする
 
 keras.layersからDenseをインポート
 
 numpyをnpとしてインポートする

必要なパッケージをインポートする

x = np.array([[0,1,0],[0,0,1],[1,3,2],[3,2,1]])
y = np.array([0,0,1,1]).T

入力xとyを設定する

simple_model = シーケンシャル()
simple_model.add（密（5,input_shape=（x.shape[1],）,activation= 'relu' , name = 'layer1' ））
simple_model.add（密（4,activation= 'relu' 、 name = 'layer2' ））
simple_model.add（密（1,activation= 'sigmoid' 、 name = 'layer3' ））

3層のニューラルネットワークを入力すると、中間の隠れ層の要素数は5と4で、最後の層は結果を出力します。

simple_model.compile（optimizer= 'sgd' 、loss= 'mean_squared_error' ）

この単純なモデルに従う

simple_model.fit（x,y,epochs=20000）

モデルを20,000回トレーニングする

simple_model.predict(x[0:1])

最初の入力 x の結果が実際のものと一致するかどうかを予測できます。

上記は、シンプルな3層ネットワークのKeras実装です。次に、畳み込みニューラルネットワークに正式に参入します。

3. 畳み込みニューラルネットワーク

以前、優れたコース cs231n をお勧めしましたが、この記事もこのアイデアに基づいています。

基本構造

まず、畳み込みとは何かを説明します。この畳み込みは、数学的な畳み込みではありません。ここでの畳み込みは、実際には 3 次元の重みを表しています。この説明はわかりにくいかもしれません。まずは畳み込みネットワークの基本的な構造を見てみましょう。

上の図から、畳み込みネットワークと一般的なネットワーク構造の違いが明確にわかります。また、畳み込みネットワークは 3 次元であるのに対し、一般的なネットワーク構造は平面であることもわかります。

畳み込み層

基本的な構造を理解した後は、CNN の最も重要な部分であり、最も革新的な部分でもある畳み込み層を理解する必要があります。まず、畳み込みネットワークの革新性を画像で比較してみましょう。

この構造を通じて、畳み込みネットワークがどのように実装されているかを明確に確認できます。まず、右側は、以前詳しく説明した従来のネットワーク構造です。左の写真ですが、まずは左端の構造を見てみましょう。なぜ32×32×3の立体立方体なのか、不思議に思われるでしょう。ここでの 32×32 はピクセル、つまり画像のサイズを表します。画像のサイズに応じて、このサイズを 50×50 または 256×256 に設定できます。では、3 は何を表しているのでしょうか。3 は実際には RGB の 3 つのチャンネルを表しています。RGB とは何でしょうか。RGB は赤、緑、青を表します。この 3 色のさまざまな組み合わせでさまざまな色を形成できるため、どの写真も左側のグラフィックで表すことができます。

では、中央の小さな四角は何を表しているのでしょうか? これが、私たちが注目する畳み込みです。いわゆる畳み込みは、このような小さな正方形です。小さな正方形のサイズを設定しますが、この小さな正方形の厚さは、左側の大きな正方形の厚さと同じでなければなりません。大きな正方形の各ピクセルは、0〜255の数字で表され、小さな正方形に重みを与えることができます。たとえば、小さな正方形のサイズが3×3の場合、厚さが左側の大きな正方形の厚さと同じである必要があるため、小さな正方形のサイズは3x3x3で、3x3x3の重みを与えることができ、畳み込みの結果を計算し、小さな正方形を大きな正方形の左上隅から移動することができます。最初、畳み込みの小さな正方形でカバーされる範囲は 3x3x3 です。次に、大きな正方形の 3x3x3 の数字と小さな正方形の重みを乗算して加算し、バイアスを追加すると、畳み込みの結果が得られます。これは抽象的に Wx+b と記述できます。これが図に示されている結果です。次に、小さな正方形のスライド距離を設定できます。スライドごとに畳み込みの計算結果を形成できます。次に、スライドして大きな画像全体をカバーした後、畳み込み結果のレイヤーを形成できます。図の畳み込み結果は非常に厚く、つまり多くの畳み込みレイヤーが設定されていることがわかります。要約すると、畳み込みの各層は、画像上をスライドする畳み込みカーネルで評価され、複数の畳み込みカーネルを設定することで、多層畳み込み層を形成できます。

プーリング層

畳み込み層について説明した後、プーリング層について説明します。なぜプーリング層が表示されるのでしょうか? それは、畳み込みを続けると、中間結果がどんどん厚くなるためです。畳み込みは画像から特徴を抽出することと同じなので、畳み込み層は一般的にどんどん厚くなるように設定されます。そうしないと、以前の結果からより多くの特徴を抽出できなくなります。これにより、中間結果がどんどん大きくなり、計算がどんどん遅くなるため、プーリング層が提案されます。

いわゆるプーリング層は、画像のサイズを縮小する方法です。まず下の写真を見てみましょう。

この図から、プーリング層がどのように処理されるかが明確にわかります。プーリング層でも最初にウィンドウを設定する必要がありますが、この小さなウィンドウの厚さは、前の層の出力結果の厚さではなく 1 です。そして、2つの処理方法があります。1つは、この小さなウィンドウ内のすべての要素の最大値をこの小さなウィンドウを表すために取る方法であり、もう1つは平均値を取ってから、小さなウィンドウをスライドさせ、2番目の位置で同じ処理を実行する方法です。上位ネットワーク出力ブロックの各層が完了すると、大きなブロックの次の層に入り、同じ操作を実行します。この処理方法により、上の図の左側に示すように、大きなブロック全体のサイズを縮小できます。右側は、最大値を取得したレイヤーの厚さの簡単な例です。

Lenetの導入

畳み込みネットワークの基本構造についてお話しした後、シンプルなニューラルネットワークを実現したいと思いませんか？畳み込みネットワークは急速に発展しました。最初にLecunによって提案され、LenetがCNNの祖先となりました。その後、彼の弟子のAlexがより深い層のAlexnetを提案し、その後2013年に16層と19層のVGGnetが提案されました。これらは単に層の数を深めただけで、他に革新はありません。その後、Googleはネットワーク構造の革新を実現するためにInception Netを提案し、Inception構造を提案しました。Facebook AI Laboratoryは残差ネットワークであるResnetを提案し、150層のトレーニング可能なネットワーク構造を実現しました。これらについては後ほどお話しします。

次に、MNIST 手書きサブセットをトレーニングセットとして使用して、最も単純な Lenet を実装します。

 kerasをインポートする
 
 keras.datasetsからmnistをインポートする
 
 (x_train, y_train)、(x_test, y_test) = mnist.load_data()

必要なライブラリとデータセットをインポートする

x_train = x_train.reshape(-1,28,28,1)
x_test = x_test.reshape(-1,28,28,1)
x_train=x_train/255 です。
x_test=x_test/255 です。
y_train = keras.utils.to_categorical(y_train)
y_test = keras.utils.to_categorical(y_test)

形状が (28, 28, 1) になるようにデータを処理し、ラベルに対してワンホットエンコーディングを実行します。たとえば、カテゴリが 3 の場合、[0, 0, 1, 0, 0, 0, 0, 0, 0, 0] になります。

keras.layers からConv2D、MaxPool2D、Dense、Flatten をインポートします。
keras.models からSequentialをインポートする
lenet = シーケンシャル()
lenet.add （Conv2D（6、kernel_size=3、strides=1、padding= 'same' 、input_shape=（28、28、1）））
lenet.add (MaxPool2D(pool_size=2, strides=2))
lenet.add （Conv2D（16、kernel_size=5、strides=1、padding= 'valid' ））
lenet.add (MaxPool2D(pool_size=2, strides=2))
lenet.add (フラット化())
lenet.add (密(120))
lenet.add (密(84))
lenet.add （密（10,activation= 'softmax' ））

LeNetの構築

lenet.compile( 'sgd' 、損失= 'categorical_crossentropy' 、メトリック=[ 'accuracy' ])

コンパイル

lenet.fit(x_train、y_train、バッチサイズ=64、エポック=50、検証データ=[x_test、y_test])

50回トレーニングした後の結果は次のとおりです

lenet.save( 'myletnet.h5' )を実行します。

訓練したモデルを保存できます

要約する

さて、これは私たちが書いた超シンプルな Lenet です。50 回のトレーニング後、トレーニング精度は 0.9939 に達し、テスト精度は 0.9852 に達しました。

<<: AmazonのAI研究開発はファッショントレンドをリードするために異なるアプローチを採用しています

>>: 第 5 世代の XiaoIce は、率先して電話をかけて「議論」するかもしれませんが、その鋭い舌により、コンバージョン率が最も高い AI アシスタントになりました。

見逃せない 7 つのディープニューラルネットワーク可視化ツール

ブログ

初心者のための CNN と Keras のクイックガイド

見逃せない 7 つのディープニューラルネットワーク可視化ツール

機械学習を使用してデータセンターの電力を管理するにはどうすればよいでしょうか?

機械学習について知っておくべき6つの革命的な教訓

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

任意のデータセットに基づいて LLM (大規模言語モデル) ロボットを作成する

推薦する

6軸産業用ロボットの制御方法と特性

「ブラックミラー」に匹敵する-AI技術が母親に亡くなった娘の姿を見せた

Omdia の観察: 配車サービスの大手企業が自動運転から撤退するのは幸運か、それとも災いか?

なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

スマートシティ: 誇大広告と現実を切り離す!

AIがまだ人間を超えられない9つの分野

この戦略は不安定なGANを安定させるのに役立ちます

脱ぐ！ドローンは1000億元の農薬市場の発展を加速させている

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

Alibaba が MNNKit をオープンソース化: Android と iOS をサポートする MNN ベースのモバイルディープラーニング SDK