Caffeでのディープラーニングトレーニングの全プロセス

[[189573]]

今日の目標は、Caffe を使用してディープラーニングトレーニングの全プロセスを完了することです。 Caffe は、カリフォルニア大学バークレー校の Yangqing Jia 博士によって 2013 年に Github でリリースされた有名なディープラーニングフレームワークです。それ以来、Caffe は研究コミュニティと業界コミュニティの両方で大きな注目を集めています。 Caffe は比較的使いやすく、コードも簡単に拡張でき、実行速度は業界で認められており、非常に成熟したコミュニティもあります。

ディープラーニングを学び始めたばかりの学生にとって、Caffe は非常に適したオープンソースフレームワークです。しかし、同じタイプの他のフレームワークと比較すると、その最大の特徴は、コードとフレームワークが比較的シンプルで、詳細な理解と分析に適していることです。今回ご紹介する内容は Caffe で長きにわたって形成されてきたものであり、現在では Caffe のほとんどのバージョンにこれらの機能が含まれています。 Caffeのダウンロードとインストールに関しては公式サイトの指示に従ってダウンロードとインストールを行ってください。ここでは詳細には触れません。

従来の教師あり学習タスクには、主にトレーニングと予測という 2 つの主要なステップが含まれます。ここでは、Caffe が提供する MNIST データセットの手書き数字認識を例に、その具体的な使用方法を紹介します。

上記のディープラーニングトレーニングの手順をさらに詳しく分解すると、一般的なプロセスは次のサブステップに分けられます。

データ前処理（データベースの構築）
ネットワーク構造とモデルトレーニング構成
トレーニングと再トレーニング
トレーニングログ分析
予測テストと分析
パフォーマンステスト

以下、一つずつ紹介させていただきます。

1. データ前処理

最初のステップは、トレーニングデータと予測データを前処理することです。ここでの作業は、一般的に、分析および識別する画像に対して簡単な前処理を実行し、それをデータベースに保存することです。画像ファイルから直接データを読み取るのではなく、なぜこの手順を実行する必要があるのでしょうか。実際のタスクのトレーニングデータの量は非常に大きい場合があり、画像ファイルからデータを読み取って初期化する効率は非常に低いため、トレーニングのペースを速めるために、事前にデータをデータベースに保存する必要があります。

以下の操作はすべてターミナル内で完了します。最初のステップは、データをローカルにダウンロードすることです。幸いなことに、MNIST データの量はそれほど多くありません。ネットワーク環境が良好であれば、このステップは非常に高速になります。まず、caffe インストールルートディレクトリ (CAFFE_HOME) に移動し、次のコマンドを実行します。

 cd データ/mnist 
 
 ./get_mnist.sh

プログラムを実行すると、フォルダー内にさらに 4 つのファイルが存在するはずです。これら 4 つのファイルは、ダウンロードしたデータファイルです。 2 番目のステップでは、例のデータベース作成プログラムを呼び出す必要があります。

 $CAFFE_HOME をコピーする
 
 ./examples/mnist/create_mnist.sh

プログラムを実行すると、examples/mnist フォルダーの下にさらに 2 つのフォルダーが作成され、それぞれ MNIST のトレーニングデータとテストデータが格納されます。スクリプトの BACKEND 変数を変更することでデータベース形式を変更できることは注目に値します。現在、データベースには 2 つの主流オプションがあります。

レベルDB
ライト

これら 2 つのデータベースには、データの保存方法と操作方法にいくつかの違いがあります。1 つ目は、データの整理方法です。LevelDB では次のようになります。

LMDB の内容は次のとおりです。

構造から、LevelDB にはより多くのファイルがあり、LMDB ファイルはよりコンパクトであることがわかります。

2 つ目は、データ読み取りインターフェースです。シナリオによっては、データベースをトラバースして元の画像の分析と処理を完了する必要があるため、データの読み取り方法も理解する必要があります。まず、LMDB がデータを読み取るためのコードです。

次はLevelDB読み取り用のコードです。

最後に、このセクションの質問に戻りましょう。画像を直接読み取るのではなく、データベースを使用してデータを保存するのはなぜですか? ここでは、MNIST データで構築された 2 つのデータベースの順次読み取りの速度を簡単にテストできます。ここでは、システム関数 time を使用して時間を計測します。結果は次のとおりです。

元の画像の読み取り速度を比較するために、MNIST データを jpeg 形式の画像として保存し、その読み取り効率をテストします (Caffe python で使用される scikit 画像を例に挙げます)。コードは次のとおりです。

最終時間は以下のとおりです。

このことから、元の画像とデータベースを比較すると、データの読み取り効率に大きな差があることがわかります。 Caffe トレーニングではデータの読み取りは非同期で行われますが、あまり遅くすることはできないため、トレーニング中にデータベースが選択されます。

2 つのデータベースの比較については、ここではこれ以上の詳細は説明しません。興味のある人は、いくつかの大規模なデータセットで実験を行うと、2 つのデータセット間の違いを確認しやすくなります。

2. ネットワーク構造とモデルトレーニング構成

前のセクションでは、データベースを作成しました。これで、モデルをトレーニングする準備が整いました。一般的に、Caffe はトレーニングに設定ファイルを読み取る方法を使用します。 Caffe の設定ファイルは通常、solver.prototxt と net.prototxt の 2 つの部分で構成されます (net.prototxt が複数ある場合もあります)。これらは実際には、Caffe システムアーキテクチャの 2 つの非常に重要なエンティティ、つまりネットワーク構造 Net とソルバー Solver に対応しています。まず、solver.prototxt の比較的短い内容を見てみましょう。誰もが理解しやすいように、すべての構成情報に注釈が付けられています。

誰もが理解しやすいように、examples/mnist/lenet_solver.prototxt の内容をここで並べ替えます。構成ファイル全体は、次の質問に答えることと同じです。

ネットワーク構造ファイルはどこにありますか?
トレーニングにはどのようなコンピューティングリソースが使用されますか? CPU ですか、それとも GPU ですか?
トレーニングにはどのくらいの時間がかかりますか? トレーニングとテストの比率はどれくらいですか? 出力はいつ確認できるようになりますか?
最適な学習率をどのように設定しますか? 運動量や正則化などの他の最適化パラメータについてはどうですか?
必ずゲームを保存することを忘れないでください。そうしないと、最初からやり直す必要があります...

次は net.prototxt です。これは各ネットワーク層のパラメータ構成を無視し、ネットワークの基本構造とタイプ構成のみを表示します。

名前： 「LeNet」  
レイヤー {
名前: 「mnist」          
  タイプ: 「データ」      
上部： 「データ」          
上部： 「ラベル」  
 }
レイヤー {
名前: "conv1"          
  タイプ: 「畳み込み」          
  下部: 「データ」          
上: "conv1"  
 }
レイヤー {
名前: "pool1"  
  タイプ: 「プーリング」  
  下部: "conv1"  
上: "pool1"  
 }
レイヤー {
名前: "conv2"  
  タイプ: 「畳み込み」  
  下部: 「プール1」  
上: "conv2"  
 }
レイヤー {
名前: "pool2"  
  タイプ: 「プーリング」  
  下: "conv2"  
上： 「プール2」  
 }
レイヤー {
名前: "ip1"  
  タイプ: "InnerProduct"  
  下部: 「プール2」  
上: "ip1"  
 }
レイヤー {
名前: "relu1"  
  タイプ: "ReLU"  
  下部: 「ip1」  
上: "ip1"  
 }
レイヤー {
名前: "ip2"  
  タイプ: "InnerProduct"  
  下部: 「ip1」  
トップ： 「ip2」  
 }
レイヤー {
名前： 「損失」  
  タイプ: "SoftmaxWithLoss"  
  下: 「ip2」  
  下部: 「ラベル」  
トップ： 「損失」  
 }

ここではネットワーク構造の基本的な構成のみが示されていますが、これも多くのスペースを占有します。一般的に、このファイルに 100 行以上が含まれることは珍しくありません。たとえば、有名な ResNet ネットワークのファイルの長さは通常 1,000 行を超えており、読み取るのはさらに困難になります。そこで疑問になるのが、このような大規模なネットワークファイルは人間によって直接編集されるのか、ということです。必ずしもそうとは限りません。忍耐強く少しずつ書き終える人もいますが、そのような大変な作業はやりたくないという人もいます。実際、Caffe は一連のインターフェースを提供しており、コードを記述することでこのファイルを生成できます。これにより、モデル構成の記述がはるかに簡単になります。以下は、LeNet ネットワーク構造を生成するコードを示しています。

最終結果は皆さんによく知られているので、ここでは述べません。

レイヤー {
名前: 「データ」  
  タイプ: 「データ」  
上部： 「データ」  
上部： 「ラベル」  
  変換パラメータ {
    スケール: 0.00390625
    ミラー:偽 
  }
  データパラメータ {
    出典: "123"  
    バッチサイズ: 128
    バックエンド: LMDB
  }
 }
レイヤー {
名前: "conv1"  
  タイプ: 「畳み込み」  
  下部: 「データ」  
上: "conv1"  
  畳み込みパラメータ {
    出力数: 20
    カーネルサイズ: 5
    歩幅: 1
    ウェイトフィラー {
      タイプ: "xavier"  
    }
    バイアスフィラー {
      タイプ: "定数"  
    }
  }
 }
レイヤー {
名前: "pool1"  
  タイプ: 「プーリング」  
  下部: "conv1"  
上: "pool1"  
  プーリングパラメータ{
    プール: MAX  
    カーネルサイズ: 2
    歩幅: 2
  }
 }
レイヤー {
名前: "conv2"  
  タイプ: 「畳み込み」  
  下部: 「プール1」  
上: "conv2"  
  畳み込みパラメータ {
    出力数: 50
    カーネルサイズ: 5
    歩幅: 1
    ウェイトフィラー {
      タイプ: "xavier"  
    }
    バイアスフィラー {
      タイプ: "定数"  
    }
  }
 }
レイヤー {
名前: "pool2"  
  タイプ: 「プーリング」  
  下: "conv2"  
上： 「プール2」  
  プーリングパラメータ{
    プール: MAX  
    カーネルサイズ: 2
    歩幅: 2
  }
 }
レイヤー {
名前: "ip1"  
  タイプ: "InnerProduct"  
  下部: 「プール2」  
上: "ip1"  
  内部製品パラメータ {
    出力数: 500
    ウェイトフィラー {
      タイプ: "xavier"  
    }
    バイアスフィラー {
      タイプ: "定数"  
    }
  }
 }
レイヤー {
名前: "relu1"  
  タイプ: "ReLU"  
  下部: 「ip1」  
上: "ip1"  
 }
レイヤー {
名前: "ip2"  
  タイプ: "InnerProduct"  
  下部: 「ip1」  
トップ： 「ip2」  
  内部製品パラメータ {
    出力数: 10
    ウェイトフィラー {
      タイプ: "xavier"  
    }
    バイアスフィラー {
      タイプ: "定数"  
    }
  }
 }
レイヤー {
名前： 「損失」  
  タイプ: "SoftmaxWithLoss"  
  下: 「ip2」  
  下部: 「ラベル」  
トップ： 「損失」  
 }

上記のコードではスペースをあまり節約できないと思われるかもしれません。実際、上記のコードをより適切にモジュール化すれば、非常に簡潔になります。ここではデモンストレーションしませんので、ぜひご自身で試してみてください。

3. トレーニングと再トレーニング

データの準備とトレーニングに関する構成の決定が完了したら、正式にトレーニングを開始しましょう。トレーニングでは次のスクリプトを開始する必要があります:

その後、一定期間のトレーニングの後、コマンドラインは大量のログを生成し、トレーニングプロセスが完了します。現時点では、トレーニング済みモデルディレクトリにはさらにいくつかのファイルがあります。

明らかに、これらのファイルはトレーニングプロセスのコンテンツを保存しますが、これらのファイルは何をするのでしょうか。 *caffemodel* ファイルは caffe モデルのパラメーターを保存し、 *solverstate* ファイルはトレーニングプロセスの中間結果を保存します。パラメータを保存することは想像しやすいですが、トレーニング中の中間結果を保存することは少し抽象的です。 solverstate には何が保存されているのでしょうか? この質問に答えるには、src/caffe/proto/caffe.proto ファイルから取得される、solverstate のコンテンツ定義を見つける必要があります。

その内容の意味は定義から明確に分かります。その中でも、履歴はより興味深い情報であり、過去のパラメータ最適化情報を保存します。この情報はどのように使用されるのでしょうか? 多くのアルゴリズムは履歴更新情報に依存しているため、モデルがトレーニングを途中で停止し、以前のトレーニングの結果に基づいてトレーニングを続行する場合、トレーニングを続行するために履歴最適化情報が必要になります。モデルのトレーニングが突然中断され、履歴情報が失われた場合、モデルは最初からトレーニングするしかありません。このようなディープラーニングフレームワークには、「ブレークポイントトレーニング」の機能はなく、「もう一度やり直す」機能のみがあります。今日の大規模なディープラーニングモデルのトレーニングには長い時間がかかり、モデルによってはトレーニングに数日かかるものもあります。フレームワークがブレークポイントトレーニングを提供していない場合、マシンに問題が発生してプログラムがクラッシュすると、モデルを最初からトレーニングする必要があり、エンジニアの心身に大きな影響を与えます...そのため、このアーカイブメカニズムにより、モデルトレーニングの信頼性が大幅に向上します。

一方、モデルのトレーニングが完全に完了した場合、この履歴情報は役に立たなくなります。 caffemodel ファイルは保存する必要がありますが、solverstate ファイルは直接破棄できます。したがって、この個別の保管方法は操作が特に便利です。

先ほどの「ブレークポイントトレーニング」から、ディープラーニングには実は「再トレーニング」という概念が含まれていることがわかります。一般的に、「再トレーニング」には 2 つのモードがあり、その 1 つが前述の「ブレークポイントトレーニング」です。前の設定ファイルからわかるように、トレーニングの反復回数は合計 10,000 回で、モデルは 5,000 回のトレーニングごとに保存されます。トレーニング中に不可抗力によってモデルが中断された場合（たとえば、マシンの電源が切れた場合）、5000 回の反復中に保存されたモデルと履歴更新パラメータから復元できます。コマンドは次のとおりです。

これをもう少し深く分析してみましょう。モデルの履歴更新情報は保存されていますが、当時のトレーニングシナリオは完全に復元されているでしょうか? どうやらそうではないようです。トレーニングに影響を与える重要な要素がまだ復元されていません。それはデータであり、トレーニングプロセスで正確に制御することは容易ではありません。つまり、最初のトレーニング中の反復トレーニングの 5001 回目のデータは、現在の「ブレークポイントトレーニング」のデータとは異なります。しかし、一般的に言えば、各トレーニングバッチ内のデータの分布が類似しており、大きな違いがない限り、両方のタイプのトレーニングは正しい方向に進むことができ、それらの間の小さな違いは無視できます。

2 番目のタイプの「再トレーニング」は、理論的根拠によってサポートされるトレーニングモデルです。このモードでは、以前のトレーニングに基づいてモデル構造に特定の変更を加え、それを他のモデルに適用します。このタイプの学習は転移学習と呼ばれます。簡単な例を挙げます。現在のモデルのトレーニングが完了すると、モデルパラメータが新しいモデルに直接割り当てられ、新しいモデルが最初からトレーニングされます。これは次のコマンドで実行できます。

コマンドを実行すると、Caffe は通常通りトレーニングを開始し、大量のログを出力しますが、初期化が完了すると次のようなログが出力されます。

このログは、このパスのモデルに対する現在のトレーニングが「微調整」されていることを示しています。

4. トレーニングログ分析

トレーニングプロセス中に、Caffe は大量のログを生成します。これにはトレーニングプロセスに関する多くの情報が含まれており、分析する価値があります。分析する側面は多数ありますが、その 1 つは、トレーニング中の目的関数損失の変化曲線を分析することです。この例では、反復回数が増えるにつれて Softmax Loss がどのように変化するかを分析できます。まず、トレーニングプロセスのログ情報を保存します。たとえば、ログ情報は mnist.log ファイルに保存されます。次に、次のコマンドを使用して、反復と損失の情報を抽出して保存します。

抽出された情報は、別のスクリプトを使用して損失曲線を描画するために使用できます。

 matplotlib.pyplot をpltとしてインポートします。
 x = []
 y = []
と  'loss_data'をfとして開きます:
 fの行の場合:
        sps = 行[:-1].split()
        x.append( int (sps[0])) を追加
        y.append( float (sps[1]))
 plt.plot(x,y)
 plt.show()

結果は図 1 に示されています。損失が急速に非常に低いレベルまで低下し、モデルのトレーニング速度が非常に速かったことがわかります。この優れたパフォーマンスは多くの問題を説明できますが、ここでは詳細に分析しません。

さらに、テストフェーズの精度など、ログに出力されるその他の情報も観察および分析することができ、これも上記の方法を使用して解析できます。使用される方法は基本的に同じなので、ここでは詳細には触れず、自分で試してみてください。

通常のトレーニング中、ログには各反復セット後のモデルトレーニングの全体的な情報のみが表示されます。より詳細な情報を知りたい場合は、solver.prototxt でデバッグ情報をオンにして、分析に役立つより有用な情報を取得する必要があります。

デバッグ情報: true

デバッグ情報をオンにすると、各反復セット後のネットワークの各層の順方向および逆方向の計算プロセスに関する詳細情報を確認できます。ここでは、反復処理後に 1 セットのログ情報を傍受して表示します。

ネットワークのパフォーマンスについて詳しく知りたい場合は、これらを分析することが不可欠です。

5. 予測テストと分析

モデルのトレーニングが完了したら、そのトレーニングパフォーマンスを検証して、他のテストデータセットでも正しいかどうかを確認する必要があります。 Caffe はテスト結果を出力するための別の機能を提供します。そのスクリプトは次のとおりです。

スクリプトの出力は次のようになります。

テスト検証を完了することに加えて、モデルの動作の詳細を知る必要がある場合もあります。そのためには、モデルを深く調べて、モデルによって生成された中間結果を観察する必要があります。 Caffe が提供するインターフェースを使用すると、ネットワーク出力の各層の中間結果を視覚的に表示できるため、誰もがモデルの各層の役割を観察し、分析することができます。コードは次のとおりです。

上記のコードを実行すると、図 2 ～ 5 のような画像が生成されます。各画像はモデルレイヤーの出力画像を表します。

この一連の図は、畳み込みニューラルネットワークが数値を特徴コードに変換する方法を示しています。この方法はモデルの内部性能をよく示すことができますが、例えば、conv1 の結果画像の中には数字の境界を抽出したものや、前景ピクセルの位置を明確にしたものなどがあります。この現象は、第 3 章で例示した畳み込み効果に似ています。しかし、conv2 の結果グラフになると、モデルの出力が少しわかりにくくなります。実際のところ、これらの画像が何を表現しようとしているのかを本当に理解するのは非常に困難です。

6. パフォーマンステスト

テストデータの精度に加えて、モデルの実行時間も大きな懸念事項です。モデルの実行に時間がかかりすぎたり、使用できなくなるほどになったりすると、その高い精度は意味をなさなくなります。テスト時間のスクリプトは次のとおりです。

Caffe は前方および後方の計算を正常に完了し、時間を記録します。以下はテスト結果の時間記録です。

パフォーマンステスト中、Lenet モデルは順方向計算を完了するのに 1 ミリ秒未満しかかからず、非常に高速であることがわかります。もちろん、これは比較的良好な GPU 上で実行されていますが、条件の悪い GPU 上で実行された場合はどうなるでしょうか?

さまざまな環境がモデルの実行時間に大きな影響を与えることがわかります。

上記はモデルトレーニングの完全なプロセスです。今では、ディープラーニングモデルのトレーニングと使用について、誰もが基本的な理解を持っていると思います。実際、これを読んだ後は、本を置いてさまざまなモデルの効果を自分で練習し、ディープラーニングの実践的な旅を始めることもできます。

最後に、Caffe ソースコードの学習を容易にするために、Caffe ソースコードのアーキテクチャ図を示します。

著者について: Feng Chao は中国科学院大学を卒業し、現在は Yuanfudao でビジョンとディープラーニングの応用研究に従事しています。 2016 年から、私は Zhihu に独自のコラム「Painless Machine Learning」（https://zhuanlan.zhihu.com/hsmyy）を開設し、機械学習とディープラーニングに関する記事をいくつか公開し、好評を博しています。

<<: PyTorch でリカレントニューラルネットワークを実装するにはどうすればいいですか?

>>: 機械学習の人気のトレンドの概要