2019年のディープラーニングツールの概要

ディープラーニングツール

ディープラーニングの進歩は、ソフトウェアインフラストラクチャの進歩にも大きく依存しています。 Torch (2011)、Theano (2012)、DistBelief (2012)、PyLearn2 (2013)、Caffe (2013)、MXNet (2015)、TensorFlow (2015) などのソフトウェアライブラリはすべて、重要な研究プロジェクトや商用製品をサポートできます。

ディープラーニングといえば、私が個人的に触れたのは2015年です。実はこの技術は長らく隠れていたのですが、2012年に爆発的に普及し、AI分野の主流となりました。今日は、最も実用的かつ最もよく遭遇する側面、つまりフレームワーク、つまりツールについてお話ししましょう。

あなたが知っているツールにはどのようなものがありますか? ? ?

今日は私が使用したツールを皆さんと共有したいと思います。お気に入りのツールを見つけて、それを使って「エリクサーを作る」ことができればと思います（意味がわからない場合は、Baiduで検索してください）笑！

[[256719]]

大学院に入ってから、私が出会ったディープラーニングツールの数は片手で数えられるほどです。興味のある方は深く検索してみてください。インターネット上にはまだまださまざまな意見があります。次に、私自身の実践経験に基づいたディープラーニングツールについてお話します。マトラボ

マトラボ

私がディープラーニングを学び始めたとき、最初に使用したツールはディープラーニング用の Matlab ツールボックスである DeepLearnToolbox でした。ディープラーニングは機械学習の新しい分野です。ディープデータモデルの学習に重点を置いています。その主なインスピレーションは、人間の脳の表面にある深い階層構造にあります。ディープラーニング理論の優れた概要は、人工知能のディープアーキテクチャの学習です。このツールボックスは比較的シンプルです。当時は手書き数字と顔の分類（AR顔データベース）を作っていました。主に以下の内容が含まれます。

NN: フィードフォワード BP ニューラルネットワークのライブラリ

CNN: 畳み込みニューラルネットワークのライブラリ

DBN: ディープビリーフネットワークのライブラリ

SAE: スタック型オートエンコーダのライブラリ

CAE: 畳み込みオートエンコーダのライブラリ

Util : ライブラリで使用されるユーティリティ関数

データ：データ保存

テスト: ツールキットが動作していることを確認するためのテスト

ケースは以下のとおりです

rand( '状態' , 0 ) 
  
 cnn.レイヤー = { 
  
構造体( 'type' , 'i' )% 入力
  
 struct( 'type' , 'c' , 'outputmaps' , 6 , 'kernelsize' , 5 )%畳み込み層
  
 struct( 'type' , 's' , 'scale' , 2 )% ダウンサンプリングレイヤー
  
 struct( 'type' , 'c' , 'outputmaps' , 12 , 'kernelsize' , 5 )%畳み込み層
  
 struct( 'type' , 's' , 'scale' , 2 )% ダウンサンプリングレイヤー
  
 }; 
  
 cnn = cnnsetup(cnn, train_x, train_y); opts.alpha = 1 ; 
  
バッチサイズ = 50 ; 
  
 opts.numepochs = 5 ; 
  
 cnn = cnntrain(cnn, train_x, train_y, opts); CNN_5 cnnを保存します。 
  
 CNN_5をロードします。 
  
 [er、bad] = cnntest(cnn、test_x、test_y); 図; プロット(cnn.rL); 
  
 assert (er< 0.12 , 'エラーが大きすぎます' );

操作インターフェースは比較的シンプルです。

パイトーチ

Pytorch ライブラリについては、実はあまり使っていません。気軽に試した程度です。個人的には触らないほうがいいと思います。面白くないですから。以下で簡単に触れるだけにします。これは、2 種類のユーザーを対象とした Python ベースの科学計算パッケージです。 1 つは GPU を使用して numpy を置き換えることです。もう 1 つは、最大限の柔軟性と速度を提供するディープラーニングレスキュープラットフォームです。

ディープラーニングの場合、torch.nn パッケージを使用してニューラルネットワークを構築できます。 autograd パッケージはすでに知られています。nn パッケージは、モデルの定義と導関数の実行に autograd パッケージに依存しています。 nn.Module には、レイヤーと、出力を返す faward(input) メソッドが含まれています。

ケースは以下のとおりです

torch.autogradからtorchをインポートします
 
変数のインポートtorch.nn 
 
 torch.nn.function を F としてインポートします。 
 
クラスNet(nn.Module): 
 
 def __init__(自己): 
 
 super(Net, self ).__init__() 
 
 # 入力画像チャネル 1 つ、出力チャネル 6 つ、5*5 平方畳み込み  
 
 # カーネル  
 
自己.conv1 = nn.Conv2d( 1 , 6 , 5 ) 
 
自己.conv2 = nn.Conv2d( 6 , 16 , 5 ) 
 
 # アフィン演算: y = Wx + b   
 
自己.fc1 = nn.Linear( 16 * 5 * 5 , 120 ) 
 
自己.fc2 = nn.Linear( 120 , 84 ) 
 
自己.fc3 = nn.Linear ( 84,10 ) 
 
 def forward(自己, x ): 
 
 # (2, 2) ウィンドウ上の最大プーリング  
 
 x = F.max_pool2d(F.relu( self .conv1(x)), ( 2 , 2 )) 
 
 # サイズが正方形の場合は、1つの数値のみ指定できます  
 
 x = F.max_pool2d(F.relu( self .conv2(x)), 2 ) 
 
 x = x.view(- 1 ,自己.num_flat_features(x)) 
 
 x = F.relu(自己.fc1(x)) 
 
 x = F.relu(自己.fc2(x)) 
 
 x =自分.fc3(x) 
 
 xを返す
 
 num_flat_featuresを定義します( self , x): 
 
サイズ = x.size()[ 1 :] 
 
 # バッチディメンションを除くすべてのディメンション  
 
特徴数 = 1            
 
サイズがsの場合: 
 
 num_features *= s 
 
 num_featuresを返す
 
ネット = ネット() 
 
印刷（ネット）

具体的な操作や詳しい手順については、興味のある方は実際に触ってみてください！

カフェ

Caffe の作者はカリフォルニア大学バークレー校の Yangqing Jia です。 Caffe は、コマンドライン、Python、Matlab インターフェースをサポートし、CPU/GPU 上で実行できる C++/CUDA フレームワークです。

ディープラーニングは絶えず発展しており、それに対応する実験ツールも注目を集めています。 Caffe は、人気のディープラーニングフレームワークの 1 つです。ツールにはテンプレートがあらかじめ用意されているため、ツールには既製のプログラミングフレームワークがあり、現在人気のグラフィックスコンピューティング GPU と組み合わせて使用することで、ネットワークトレーニングを高速化できます。人気のニューラルネットワークフレームワークアルゴリズムはすべて Caffe で実行でき、Caffe ではさまざまな構造があらかじめ定義されているため、独自のフレームワークをセットアップできます。研究者は、独自の設計要件に基づいて対応する追加を行い、必要なタスクを完了するための新しいディープラーニングフレームワークを設計することもできます。

Caffe フレームワークには、 Blobs 、 Layers 、 Netsという 3 つの主要な構造があります。これらは事前定義された構造であるため、フレームワークを使用するときに変更することはできません。

ブロブ

Blob は Caffe フレームワークの主要な構造です。これはラッパーです。Caffe フレームワークを使用する場合、データをフォーマットする必要があります。このようなデータ形式のみが Caffe フレームワークで実行および処理できます。さらに、Caffe の設計時には、多くの関数とクラスが事前に設計されており、実行中にその構造を変更することはできず、そうしないとその中の関数を呼び出すことができず、ネットワークのトレーニングが失敗します。

Blob のフォーマットは、主に数値、チャンネル、高さ、幅の 4 つの要素で構成されています。画像処理を行う場合、画像チャンネルを表します (一般的に、カラー画像は 3 チャンネルデータであり、高さと幅は入力データのサイズを表します)。要素に関しては、主にトレーニングプロセスに反映されます。トレーニング中に、一度にどのくらいのデータを入力するか、つまり、一度に入力するデータの数 (通常はバッチと呼ばれます) を選択する必要があるためです。このトレーニング方法は、メモリ不足を大幅に緩和することもできます。

レイヤー

レイヤーは、Caffe フレームワークのネットワークの重要な構造の 1 つです。ネットワークは、入力データと出力データを受け取り、最終的に内部計算によって出力するレイヤーの役割によって構成されます。 Caffe がネットワーク層を使用する場合、その定義は特に単純かつ明確であり、おおよそ次の 3 つの小さなステップに分かれています。
1) ネットワーク層と層間の接続関係を確立します。ランダム初期化操作を通じて、一部のネットワーク層変数を初期化できます。
2) ネットワークのトレーニングプロセスでは、まず順方向伝播が計算されます。修正プロセスでは、レイヤーは前のレイヤーの出力データをこのレイヤーの入力データとして受け入れ、最後に内部の
計算結果が出力されます。
3) 順方向伝播後、得られた結果が期待と大きく異なるため、最良の結果を得るために、前述の逆方向伝播を通じてネットワークパラメータ値が調整されます。
メリット値、およびバックプロパゲーション計算中に、レイヤーは各計算の勾配値をこのレイヤーに保存します。

ネット

先ほど紹介したレイヤーはネットのサブ要素です。ネット全体は複数のレイヤーを組み合わせて接続することで得られます。この構造では、ネットはネットワークのレイヤー、入力、出力を定義します。

たとえば、Caffe の最も基本的な隠し層ネットワークは次のように定義されます。

名前: "LogReg"
レイヤー
名前: 「mnist」
タイプ: データ
上部：「データ」
上部:「ラベル」
データパラメータ {
ソース: "input_leveldb"
バッチサイズ: 64   
 }} 
 
レイヤー
名前: 「ip」
タイプ: INNER_PRODUCT
下部:「データ」
上: 「ip」
内部製品パラメータ {
出力数: 2   
 }} 
 
レイヤー
名前: 「損失」
タイプ: SOFTMAX_LOSS
下部:「ip」
下部:「ラベル」
上：「損失」
 }

カフェのメリット

オープンソースフレームワークである Caffe の表現構造は、より多くの人々が革新、変更、改善し、実際に適用することを促進できるため、多くの研究者や学者に愛されています。このフレームワークでは、対応する操作を取得するためにハードコーディングを必要とする他のツールフレームワークとは異なり、ネットワークモデル、設計、および最適化プロセスはすべて命令によって呼び出され、実行されます。さらに、Caffe アプリケーションでは、CPU 中央処理装置と GPU グラフィックス画像処理ユニットを学習に使用でき、GPU マシンにコマンドを設定することで 2 つのプロセッサを相互に切り替えることができます。また、ネットワークのトレーニング速度の向上、トレーニング時間の短縮、ネットワークのトレーニング効率の向上、ネットワークのさらなる微調整が可能になるため、GPU の使用は一般的に増加しています。
オープンソースフレームワークの利点は、誰でも拡張できることです。そのため、Caffe は独自の開発を推進してきました。Jia Yangqing が Caffe を作成した後、わずか 1 年で数千人の研究愛好家が開発に参加し、現在も最適化と開発が続けられている完璧なディープラーニングフレームワークに大きく貢献しました。
ネットワークモデルはコード形式で表現する必要がなく、テキスト形式でのみ表現でき、モデルは Caffe フレームワークで定義されているため、簡単に始めることができます。
Caffe は学術機関や産業関連部門の研究室で使用されています。 Caffe は NVIDIA GPU で使用されるため、非常に高い効率を実現できます。 NVIDIA社製のK40グラフィックスイメージプロセッサを使用して画像のトレーニングを行った実験では、1日で6000万枚以上のトレーニング画像を実行できたとのこと。現在のパフォーマンス速度は、一般的に使用されているディープラーニングフレームワークの中で最も高速なフレームワークの 1 つと言えます。
Caffe では各レイヤーのタイプが定義されているため、他のタスクでも迅速かつ簡単に使用でき、簡単な呼び出しで独自の設計のネットワークモデルを定義するだけで済みます。

Google は 2011 年に人工ディープラーニングシステムである DistBelief を立ち上げました。 DistBelief を使用すると、Google はデータセンター内の何千ものコアをスキャンし、より大規模なニューラルネットワークを構築できます。このシステムにより、Google アプリの音声認識が 25% 向上し、Google フォトに画像検索機能が構築され、Google の画像キャプションマッチング実験が促進されます。 DistBelief にはまだ多くの欠点と制限があります。設定が難しく、Google の内部インフラストラクチャに密接に結び付けられていたため、研究コードの共有は不可能でした。

上記の問題に対応して、Google は 2015 年に Google Research Blog で新世代の人工知能学習システムである TensorFlow のリリースを発表しました。

TensorFlow は、異種分散システム向けの大規模機械学習フレームワークです。優れた移植性 (携帯電話のような小型のモバイルデバイスから大規模なクラスターまでサポート可能) を備え、さまざまなディープラーニングモデルをサポートしています。 Google によれば、TensorFlow は包括的、柔軟、移植性があり、使いやすく、さらに重要なことにオープンソースです。同時に、TensorFlow の速度は前世代の DistBelief と比べて大幅に向上しました。いくつかのベンチマークテストでは、TensorFlow のスコアは第 1 世代システムの 2 倍です。

それにもかかわらず、TensorFlow はまだ他のほとんどのオープンソースフレームワークほど効率的ではありません。しかし、TensorFlow のソースコードが徐々に公開されるにつれて、新しいハードウェア、新しいデバイス、cuDNN などの新しいアクセラレーションのサポートが増え続けており、現時点で最も有望なディープラーニング手法となっています。

ご興味があれば、PlayGround をお試しください。これは、教育目的でシンプルなニューラルネットワークのオンラインデモンストレーションと実験を行うためのグラフィカルプラットフォームです。ニューラルネットワークのトレーニングプロセスを非常に強力に視覚化します。ブラウザでニューラルネットワークをトレーニングし、Tensorflow を知覚的に理解するために使用できます。

TFのデメリット