正しい姿勢で、Google の神レベルのディープラーニングフレームワーク TensorFlow の実用的なアイデアを見てみましょう。

2015年11月9日、Googleは人工知能システムTensorFlowをリリースし、オープンソース化を発表しました。この動きはディープラーニングの分野に大きな影響を与え、多くのディープラーニング開発者から大きな注目を集めました。もちろん、人工知能の分野については依然として多くの疑問が残っていますが、人工知能が依然として将来の発展のトレンドであることは否定できません。

TensorFlow は、GitHub でリリースされたその日に最も人気のあるプロジェクトになりました。ディープラーニングモデルを構築する最良の方法であり、ディープラーニングフレームワークのリーダーとして、リリースの週に 10,000 を超える星評価を簡単に獲得しました。これは主に、Google の人工知能分野における目覚ましい研究開発の成果と、神レベルの技術人材プールによるものです。もちろん、囲碁で初めて人間に勝利し、その後60戦無敗の記録を維持したAlphaGoも、TensorFlowの高レベルAPIをベースにした強化学習フレームワークを使用していたという点もポイントです。

TensorFlow: なぜですか?

データフローグラフを計算に利用するTensorFlowは、Googleの第2世代DLフレームワークとして、機械学習やディープラーニングの分野で最も人気のあるフレームワークの1つとなっています。 TensorFlowはリリース以来、継続的に改善され、新機能が追加されてきました。今年2月26日、マウンテンビューで開催された第1回TensorFlow Developer Summitで、TensorFlow 1.0が正式にリリースされました。その最大のハイライトは、モデルの最適化によって最速の速度を実現し、信じられないほど高速であることです。さらに予想外なのは、多くの支持者がTensorFlow 1.0のリリースをAI元年の定義としていることです。

上記の Google インデックスによると、現在のプロセス技術ではディープラーニングが第 1 位となっています。

TensorFlow は過去に次のような成果を達成しています。

TensorFlow は、Gmail、Google Play のおすすめ、検索、翻訳、マップなど、多くの Google アプリケーションで使用されています。
医療分野では、科学者が糖尿病性失明を防ぐための網膜アルゴリズムを構築するために TensorFlow が使用されています (スタンフォード大学の博士が皮膚がんを予測するために TensorFlow を使用し、関連する研究が Nature の表紙を飾ったことも後述します)。
TensorFlow を使用して音楽と絵画の分野でディープラーニングモデルを構築し、人間が芸術をより深く理解できるようにします。
TensorFlow フレームワークとハイテク機器を使用して、科学者が海洋生物の状況を理解するのに役立つ自動海洋生物検出システムを構築します。
TensorFlow はモバイルクライアントで勢いを増しており、多くのモバイルデバイスが翻訳、スタイル設定、その他のタスクに TensorFlow を使用しています。
TensorFlow は、モバイルデバイスの CPU (Qualcomm 820) でより高いパフォーマンスとより低い消費電力を実現できます。
TensorFlow エコシステムを他のオープンソースプロジェクトと組み合わせることで、高性能な本番環境を迅速に構築できます。
TensorBoard 組み込みベクトル可視化作業
博士号/科学研究者がプロジェクト研究を迅速に実行するのに役立ちます。

Google の第 1 世代の分散型機械学習フレームワーク DistBelief は、Google の社内ニーズを満たさなくなりました。Google の同僚は DistBelief を再設計して、CPU/GPU/TPU を含むさまざまなコンピューティングデバイスのサポートを導入し、Android デバイス、iOS、Raspberry Pi などのモバイルデバイスで適切に実行でき、さまざまな言語をサポートしました (さまざまな高レベル API のため、トレーニングは Python のみをサポートし、推論は C++、Go、Java などを含むサポート)。また、TensorBoard などの優れたツールも含まれており、ディープラーニング研究者の効率を効果的に向上できます。

Google の社内プロジェクトにおける TensorFlow の応用も急速に拡大しており、Gmail、Google Play のおすすめ、検索、翻訳、マップなど、多くの Google 製品で使用されており、関連作業に TensorFlow を使用しているプロジェクトや論文は 100 件近くあります。

TensorFlow は、公式リリース前の過去 14 か月間で、475 人以上の非 Google コントリビューター、14,000 件以上のコミット、タイトルに TensorFlow が含まれる 5,500 件以上の github プロジェクト、Stack Overflow での 5,000 件以上の回答済み質問、週平均 80 件以上の問題提出など、多くの成果を達成しており、いくつかのトップクラスの学術研究プロジェクトで使用されています: – ニューラル機械翻訳 – ニューラルアーキテクチャ検索 – Show and Tell。

もちろん、最終的には、ディープラーニングは、教師なしまたは半教師ありの特徴学習、階層的特徴抽出、大学のアルゴリズムを使用して、手動の特徴取得を置き換えることになります。現在、ディープラーニングに携わる研究者や開発者が使用するディープラーニングフレームワークは TensorFlow だけではありません。視覚、言語、自然言語処理、バイオインフォマティクスの分野でも、Torch、Caffe、Theano、Deeplearning4j など、優れたフレームワークが数多く存在します。

以下では、ネットワークニューラルモデルとアルゴリズムの詳細な分析を提供する Duan Shishi のブログ投稿の一部を編集者がまとめ、オープンソースのディープラーニングフレームワークである TensorFlow の威力を理解できるようにしています。

ニューラルスタイルへの深い理解

この記事では、主に Tensorflow の CNN メソッドを使用して、芸術的な写真に対して Neural Style 関連の作業を実行します。まず、著者は論文「芸術的スタイルのニューラルアルゴリズム」がどのように作られたかを詳しく説明し、次にオープンソースの Tensorflow Neural Style バージョンを組み合わせて、偉大な神のスタイルを鑑賞します。

芸術スタイルのニューラルアルゴリズム

芸術、特に絵画の分野では、アーティストはさまざまなコンテンツやスタイルを作成し、それらを融合したり影響を与えたりすることで、独立した視覚体験を生み出します。現在の技術では、2 つの画像が与えられた場合、コンピューターが画像の特定の内容を認識できるようにすることが十分に可能です。スタイルは非常に抽象的なものです。コンピューターの目には、もちろん数ピクセルに過ぎませんが、人間の目は、異なる画家の異なるスタイルや、より複雑な特徴があるかどうかを効果的に区別することができます。私が初めてディープラーニングの論文を研究したとき、多層ネットワークの本質は、実際にはより複雑で本質的な特徴を見つけることであるため、理論的には、画像のスタイルを多層ネットワークを通じて抽出し、いくつかの興味深いものを抽出できます。この記事では、畳み込みニューラルネットワーク (事前トレーニング済みの VGG ネットワークモデルを使用) を使用してコンテンツとスタイルをそれぞれ再構築し、合成中のコンテンツ損失とスタイル損失 (実際にはノイズ除去損失も含む) を最小限に抑えることを検討します。このようにして、合成された画像は、コンテンツとスタイルのより正確な再構築を保証します。

論文全体のワークフローをニューラルスタイルで示します。この図を理解することは、論文全体のロジックを理解する上で非常に重要です。主に 2 つの部分に分かれています。

コンテンツ再構成：上の図の下の部分がコンテンツ再構成で、CNN の a、b、c、d、e 層に相当します。コンテンツ表現と記された最初の部分は元の画像ではなく（分類器などのコンピュータにとっては画像として理解できるので、可視化するとコンテンツが何なのかさっぱり分からないかもしれません）、事前学習済みの VGG ネットワークモデルの画像データであることに注意してください。このモデルは主に物体認識に使用され、ここでは主に画像のコンテンツ表現を生成するために使用されます。これを理解すれば、残りは簡単になります。5層の畳み込みネットワークを使用してコンテンツを再構築した後、記事の著者は実験を通じて、最初の3層のコンテンツ再構築効果が優れていることを発見しました。d層とe層は詳細な情報の一部を失い、比較的高レベルの情報を保持しました。
スタイルの再構築: スタイルの再構築はより複雑です。スタイルをモデル化するのは困難です。スタイル表現の生成はコンテンツ表現の生成と似ており、VGG ネットワークモデルによっても行われます。違いは、a、b、c、d、e の処理方法が異なることです。スタイル表現の再構築は、CNN の異なるサブセットで計算されます。言い換えると、それぞれ conv1_1(a)、[conv1_1、conv2_1](b)、[conv1_1、conv2_1、conv3_1]、[conv1_1、conv2_1、conv3_1、conv4_1]、[conv1_1、conv2_1、conv3_1、conv4_1、conv5_1] が構築されます。再構築されたスタイルは、シーンのグローバル情報を無視して、さまざまなスケールで画像自体のスタイルとよりよく一致するようになります。

方法

上記 2 つのポイントを理解した後、残る問題はモデリングのデータの問題です。ここでは、コンテンツとスタイルに応じて損失を個別に計算します。コンテンツ損失の方法は比較的簡単です。

ここで、F^l は l 番目のレイヤーで生成されたコンテンツ表現のデータ表現、P^l は l 番目のレイヤーでの元の画像のデータ表現、二乗誤差損失は 2 つの特徴表現間の誤差として定義されます。

スタイル損失は基本的にコンテンツ損失と同じですが、各レイヤーによって出力されるエラーの合計が含まれる点が異なります。

ここで、A^l は l 番目のレイヤーの元のスタイルイメージのデータ表現であり、G^l は l 番目のレイヤーで生成されたスタイル表現の表現です。

損失を定義した後、最適化手法を使用してモデル損失を最小限に抑えます (論文ではコンテンツ損失とスタイル損失のみがあることに注意してください)。ソースコードにはノイズ低減損失も含まれています。

Tensorflow にはこれを処理するための Adam などの組み込みメソッドがあるため、ここでは最適化方法については説明しません。

AlexNetの深い理解

これまでに Tensorflow のドキュメントや興味深いプロジェクトをいくつか読んだことがありますが、非常に複雑であることがわかりました。最初から理解するには、特に興味のある cv の部分について、もっと時間をかけて理解する必要があります。今後は、ImageNet コンテストで良い結果を出したモデル、AlexNet、GoogLeNet、VGG (そうです、これは以前のニューラルネットワークで使用された事前トレーニング済みモデルです)、およびディープ残差ネットワークについてさらに学習し始めます。

深層畳み込みニューラルネットワークによる ImageNet 分類

ディープ畳み込みニューラルネットワークによる ImageNet 分類は、2012 年の ImageNet チャレンジで Hinton 氏と彼の学生 Alex Krizhevsky 氏が使用したモデル構造であり、画像分類の可能性を一新しました。それ以来、ディープラーニングは画像分野の最先端技術を何度も上回り、人間に勝つところまで到達しました。この記事を読んでいると、以前から散発的に目にしていた最適化手法が数多く見つかりましたが、その多くは深く理解されていませんでした。この記事では、Alexnet がどのようにしてこのような優れた結果を達成できるかを説明します。さて、これ以上前置きせずに、記事を読み始めましょう。

この図は、caffe の alexnet の基本的なネットワーク構造です。ここでは比較的抽象的です。著者は、caffe の draw_net を使用して alexnet のネットワーク構造を描画します。

AlexNetの基本構造

Alexnet は合計 8 つの層で構成されており、最初の 5 つは畳み込み層、最後の 3 つは完全接続層です。記事によると、畳み込みを減らすと結果が非常に悪くなるとのことです。以下は、各層の構成の詳細な説明です。

第一畳み込み層の入力画像は227*227*3です（論文では224*224*3の画像に問題があるようです）。96個のカーネル（96,11,11,3）が使用され、4ピクセルを単位として右または下にシフトすることで、5555個の畳み込み長方形ボックス値を生成でき、その後、応答正規化（実際にはLocal Response Normalized、これについては後で説明します）してプールされます。プール層は、caffeのalexnetと論文で異なるようです。Alexnetでは2つのGPUがサンプリングされるため、上図から、第一畳み込み層の厚さは2つの部分があり、プーリングpool_size =（3,3）、スライディングステップサイズは2ピクセル、96 2727の特徴が得られます。
2 番目の畳み込み層は 256 個のカーネル (同じで、2 つの GPU に分散され、それぞれ 128 個のカーネル (5*5*48) を持つ) を使用し、pad_size(2,2) 処理を実行し、1 ピクセル単位で移動します (指摘してくれたネットユーザーに感謝します)。これにより、27*27 畳み込み行列ボックスが生成され、LRN 処理が実行され、プールされます。プールでは、2 ピクセルのステップサイズで 3*3 の長方形ボックスを使用して、256 個の 13*13 の特徴を取得します。
3 番目と 4 番目のレイヤーには LRN とプーリングがなく、5 番目のレイヤーにはプーリングのみがあります。3 番目のレイヤーは 384 個のカーネルを使用します (3*3*384、pad_size=(1,1) で 384*15*15 になり、kernel_size は (3, 3)、ステップサイズは 1 ピクセルで、384*13*13 になります)。4 番目のレイヤーは 384 個のカーネルを使用します (pad_size(1,1) で 384*15*15 になり、kernel_size は (3, 3)、ステップサイズは 1 ピクセルで、384*13*13 になります)。5 番目のレイヤーは 256 個のカーネルを使用します (pad_size(1,1) で 384*15*15 になり、kernel_size(3,3) で 256*13*13 になり、pool_size(3,3)、ステップサイズは 2 ピクセルで、256*6*6 になります)。
完全接続層: 最初の 2 つの層にはそれぞれ 4096 個のニューロンがあり、最終的な出力ソフトマックスは 1000 です (ImageNet)。Caffe の図の完全接続層には relu、dropout、innerProduct があることに注意してください。

論文では、この図は2つのGPUで作成されたものであり、CaffeのAlexnetといくつかの違いがあるかもしれないが、これは重要ではないかもしれないと指摘しています。使用時には、CaffeのAlexnetのネットワーク結果を直接参照できます。各レイヤーは非常に詳細であり、基本的な構造の理解は上記と一致しています。

AlexNetが優れた成果を達成した理由

これまでAlexNetの基本的なネットワーク構造についてお話ししてきました。LRN、Relu、ドロップアウトなど、いくつか疑問に思う点があるかと思います。dlに触れたことのある方なら聞いたことがある、もしくは理解したことがあると思います。ここでは、論文に記載されているように、これらのことが最終的なネットワークのパフォーマンスを向上させることができる理由を詳しく説明します。

ReLU非線形性

一般的に、ニューラルネットワークに触れたばかりで、ディープラーニングをまだ深く理解していない人にとっては、これはあまり馴染みのないものです。一般的には、他の 2 つの活性化関数 (ニューラルネットワークに非線形関係を導入して、ニューラルネットワークが非線形関数を効果的に適合できるようにするもの) tanh(x) と (1+e^(-x))^(-1)、および ReLU (Rectified Linear Units) f(x)=max(0,x) の方が馴染みがあります。 ReLU に基づく深層畳み込みネットワークのトレーニングには、tanh に基づくネットワークよりも数倍の時間がかかります。次の図は、CIFAR-10 に基づく 4 層畳み込みネットワークが tanh と ReLU の 25% のトレーニングエラーに到達するまでにかかる反復回数を示しています。

実線と破線はそれぞれReLUとtanhのトレーニング誤差を表しています。ReLUはtanhよりも速く収束できることがわかります。

ローカルレスポンスの正規化

ReLU f(x)=max(0,x) を使用すると、活性化関数後の値は tanh 関数やシグモイド関数のような値の範囲を持たないことがわかります。そのため、通常は ReLU 後に正規化が行われます。LRU は、この記事で提案されている方法です (ここではよくわかりませんが、提案するべきでしょうか?)。神経科学には、「側方抑制」と呼ばれる概念があり、これは、アクティブなニューロンが周囲のニューロンに与える影響について説明しています。

ドロップアウト

ドロップアウトもよく言及される概念であり、ニューラルネットワークの過剰適合を効果的に防ぐことができます。正規化を使用してモデルの過剰適合を防ぐ一般的な線形モデルと比較して、ニューラルネットワークのドロップアウトは、ニューラルネットワーク自体の構造を変更することによって実現されます。あるニューロン層では、入力層と出力層の個々のニューロンは変更せずに、定義された確率で一部のニューロンがランダムに削除され、その後、ニューラルネットワークの学習方法に従ってパラメータが更新されます。次の反復では、トレーニングが完了するまで、一部のニューロンが再びランダムに削除されます。

データ拡張

実際、モデルのパフォーマンスを向上させ、モデルのオーバーフィッティングを防ぐ最も簡単な方法は、データを追加することです。ただし、データを追加するための戦略があります。論文では、256 * 256（論文では224 * 224）から227 * 227のパッチをランダムに提案し、PCAを通じてデータセットを拡張します。これにより、データセットが効果的に拡張されます。実際、明るさの増減などの基本的な画像変換や、フィルタリングアルゴリズムなど、ビジネスシナリオに応じて使用できる方法は他にもあります。これは、特にデータ量が十分でない場合に特に効果的な方法です。

GoogLeNetの深い理解

GoogLeNetはILSVRC 2014のチャンピオンです。これは主に古典的なLeNet-5アルゴリズムへのオマージュです。これは主にGoogleチームのメンバーによって完成されました。論文Going Deeper with Convolutionsを参照してください。関連する作業には主にLeNet-5、ガボールフィルター、Network-in-Networkが含まれます。Network-in-Networkは従来のCNNネットワークを改良し、少数のパラメータでAlexNetネットワークを簡単に打ち負かしました。Network-in-Networkを使用したモデルの最終的なサイズは約29MNetwork-in-Network caffeモデルです。GoogLeNetはNetwork-in-Networkのアイデアを借用しました。これについては以下で詳しく説明します。

1) ネットワークインネットワーク

左側は CNN の線形畳み込み層です。一般的に、線形畳み込み層は線形に分離可能な特徴を抽出するために使用されます。ただし、抽出された特徴が高度に非線形である場合、さまざまな潜在的な特徴を抽出するために、より多くのフィルターが必要になります。これにより、フィルターが多すぎるとネットワークパラメーターが多くなりすぎて、ネットワークが複雑になりすぎて、計算に過度の負担がかかるという問題が発生します。

この記事では、主に次の 2 つの点で改善を行っています。

1. 畳み込み層の改善：MLPconv は、上図右に示すように、各ローカル部分で従来の畳み込み層よりも複雑な計算を実行し、複雑な特徴に対する各畳み込み層の認識能力を向上させます。これは不適切な例です。従来の CNN ネットワークでは、各畳み込み層は単一のタスクに相当します。特定の種類のタスクを完了するには、多数のフィルターを追加する必要があります。ただし、MLPconv の各畳み込み層にはより大きな機能があります。各層は複数の異なる種類のタスクを実行でき、フィルターを選択するときに必要なパーツはわずかです。
2. グローバル平均プーリングは、従来の CNN ネットワークの最後の完全接続層のパラメータが複雑すぎるという問題を解決するために使用されます。また、完全接続により、ネットワークの一般化能力が低下します。Alexnet は、ドロップアウトを使用して、ネットワークの一般化能力を向上させます。

最後に、著者は、イメージネット分類問題を解決するために、4 層のネットワークインネットワーク + グローバル平均プーリング層を設計しました。

クラスNiN(ネットワーク):
 defセットアップ( self ):
        (自己.feed( 'データ' )
             .conv( 11 , 11 , 96 , 4 , 4 , パディング= 'VALID' , 名前= 'conv1' )
             .conv( 1 , 1 , 96 , 1 , 1 , 名前 = 'cccp1' )
             .conv( 1 , 1 , 96 , 1 , 1 , 名前 = 'cccp2' )
             .max_pool( 3 , 3 , 2 , 2 , 名前 = 'pool1' )
             .conv( 5 , 5 , 256 , 1 , 1 , 名前 = 'conv2' )
             .conv( 1 , 1 , 256 , 1 , 1 , 名前 = 'cccp3' )
             .conv( 1 , 1 , 256 , 1 , 1 , 名前 = 'cccp4' )
             .max_pool( 3 , 3 , 2 , 2 , パディング= 'VALID' , 名前= 'pool2' )
             .conv( 3 , 3 , 384 , 1 , 1 , 名前 = 'conv3' )
             .conv( 1 , 1 , 384 , 1 , 1 , 名前 = 'cccp5' )
             .conv( 1 , 1 , 384 , 1 , 1 , 名前 = 'cccp6' )
             .max_pool( 3 , 3 , 2 , 2 , パディング= 'VALID' , 名前= 'pool3' )
             .conv( 3 , 3 , 1024 , 1 , 1 , 名前 = 'conv4-1024' )
             .conv( 1 , 1 , 1024 , 1 , 1 , 名前 = 'cccp7-1024' )
             .conv( 1 , 1 , 1000 , 1 , 1 , 名前 = 'cccp8-1024' )
             .avg_pool( 6 , 6 , 1 , 1 , パディング= 'VALID' , 名前= 'pool4' )
             .softmax(名前 = 'prob' ))

ネットワークの基本的な結果は上記の通りで、コードは https://github.com/ethereon/caffe-tensorflow にあります。著者の最近の転職により、この記事を実行するマシンが無く、基本的なネットワーク構造図を描くことができません。後ほど補う予定です。ここで提案されているのは、中間の cccp1 と ccp2 (クロスチャネルプーリング) が 1*1 カーネルサイズの畳み込み層と同等であるということです。 Caffe での NIN の実装 (省略しました。原文を読んでください)

NIN の導入は、実はネットワークの深さを深くすることとみなすことができます。ネットワークの深さを深くし (単一の NIN の特徴表現能力を高める)、元の完全接続層を aver_pool 層に変換することで、本来必要だったフィルターの数が大幅に減り、モデルのパラメータも減ります。論文の実験では、パフォーマンスはAlexnetと同じであり、最終的なモデルサイズはわずか29Mであることが示されています。

NIN を理解すれば、GoogLeNet を見るときに混乱することはなくなります。

問題点:

CNN ネットワークが大きくなるほど、モデルパラメータが大きくなり、必要な計算能力も大きくなり、モデルが複雑になるにつれて、過剰適合の可能性が高くなります。
CNN では、ネットワーク層の数が増えると、必要なコンピューティングリソースも増加します。
スパースネットワークは許容されますが、スパースデータ構造は通常、計算効率が悪くなります。

インセプションモジュール

Inception モジュールは、主に、異なるサイズの複数の畳み込みカーネルが画像内の異なるクラスターの情報を保持できることを考慮して提案されています。計算の便宜上、この論文ではそれぞれ 1*1、3*3、5*5 を使用し、3*3 最大プーリングモジュールを追加しています。ただし、ここでは大きな計算リスクがあります。Inception モジュールの各レイヤーの出力フィルターは、すべてのブランチのフィルターの数の合計になります。複数のレイヤーの後、最終モデルの数は膨大になり、ナイーブな Inception はコンピューティングリソースに大きく依存するようになります。前述のように、1×1 モデルである Network-in-Network モデルは次元を効果的に削減できる (少ない次元でできるだけ多くの情報を表現できる) ため、この記事では、モデルの機能表現能力を失うことなくフィルターの数を最小限に抑え、モデルの複雑さを軽減する「次元削減機能を備えたインセプションモジュール」を提案しています。

GoogLeNetの全体

GoogLeNet を tensorflow で構築するための基本コードは https://github.com/ethereon/caffe-tensorflow にあります (探すのが面倒な場合は、元のテキストに示されています)。著者はいくつかの基本的な操作をカプセル化しています。ネットワーク構造を理解すれば、GoogLeNet を構築するのは簡単です。新会社が設立された後、著者はtflearnをベースにGoogLeNetのネットワークコードを作成しようとします。

Tensorflow 上の GoogLeNet

実装の都合上、著者はGoogLeNetをtflearnで書き直した。コードとcaffeモデルの違いは、一部パディングの位置のみ。変更が面倒なので、inception部分のconcatは一貫性を保たなければならない。ここ(caffe prototxt)のパディング値の変更方法が分からないので、パディングは同じにしている。具体的なコード(省略、原文はそのまま)

ご興味があれば、caffe モデルの prototxt のこの部分をご覧ください。問題がないか確認してください。コード作成者は tflearn の公式ライブラリに提出しており、例に GoogLeNet(Inception) を追加してください。tensorflow をお持ちの場合は、tflearn を直接インストールして、問題がないか確認してください。ここには GPU マシンがないため、動作が遅いです。TensorBoard グラフは次のとおりです。以前の Alexnet ほど明白ではありません (主に、それほど多くのエポックを実行していないためです。ここに書いているときに、ホストにディスク領域がないことがわかりました。恥ずかしかったので、restore を run に書き直しました。TensorBoard グラフにも問題があるようです。ロードするたびに同じではないようです。しかし、基本的なログから、徐々に収束しています。ここにグラフがありますのでご覧ください)

ネットワーク構造、ここにバグがあります、それは TensorBoard かもしれません、googlenet グラフが大きすぎるかもしれません、約 1.3M、Chrome ではダウンロードできません、Firefox を試してみましたが、できるようです:

VGG\Residual Networkの深い理解

私は新しい会社に入社したばかりで、仕事で DeepLearning と TensorFlow を勉強し始めました。とても忙しいです。しばらく前に VGG と deep residual に関する論文を読みましたが、それを書く時間がありませんでした。今日は、これら 2 つの関連論文を注意深く読み直すつもりです。

VGGネット

VGGnet は、オックスフォード大学の Visual Geometry Group チームが ILSVRC 2014 で行った関連研究です。主な研究は、ネットワークの深さを増やすと、ネットワークの最終的なパフォーマンスにある程度影響を与えることができることを証明することです。下の図に示すように、この記事では、ネットワークの深さを徐々に増やすことでパフォーマンスを向上させています。少し乱暴に見え、トリックもあまりありませんが、確かに効果的です。多くの事前トレーニング済みメソッドは、VGG モデル (主に 16 と 19) を使用します。他のメソッドと比較して、VGG はパラメーター空間が大きくなっています。最終モデルは 500 m 以上、alnext は 200 m のみ、googlenet はさらに少ないため、通常、vgg モデルのトレーニングには時間がかかります。幸いなことに、非常に便利に使用できる公開事前トレーニング済みモデルがあります。以前のニューラルスタイルの記事で使用した事前トレーニング済みモデルは次のとおりです。

図からわかるように、Aから最後のEまで、各畳み込みグループ内の畳み込み層の数を増やしています。最後に、DとEは、共通のVGG-16とVGG-19モデルです。Cでは、著者は1*1の導入は線形変換を考慮するためであると説明しています（ここではチャネルは一貫しており、次元削減は行われません）。その後、最終データの分析では、CはBよりもある程度の改善が見られますが、Dほどではありません。VGGの主な利点は次のとおりです。

パラメータを削減する対策: グループ (3 と仮定、論文では 3*3 を 3 つだけ積み重ねています) 畳み込みの場合、7*7 と比較すると、3 層の非線形関係 (3 層の RELU) を使用すると、パラメータの数は 3*(3^2C^2)=27C^2 ですが、7*7 では 49C^2 となり、パラメータは 7*7 の約 81% になります。
LRNを削除し、メモリ消費と計算時間を削減しました

VGG-16 tflearn 実装

tflearnの公式githubは、将来のインポート分割、print_function、absolute_importからtflearnに基づいたVGG-16の実装を提供しています。

 tflearnをインポートする
tflearn.layers.coreからinput_data、dropout、fully_connected をインポートします
tflearn.layers.convからconv_2d、max_pool_2dをインポートします
tflearn.layers.estimatorから回帰をインポートする
 
 # データの読み込みと前処理 
 tflearn.datasets.oxflower17 を oxflower17 としてインポートします
X、Y = oxflower17.load_data(one_hot= True ) 
 
 # 「VGGネットワーク」の構築 
ネットワーク = input_data(shape=[ None , 224 , 224 , 3 ]) 
 
ネットワーク = conv_2d(ネットワーク、 64、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 64、3 、アクティベーション= 'relu' )
ネットワーク = max_pool_2d(ネットワーク、 2 、ストライド= 2 ) 
 
ネットワーク = conv_2d(ネットワーク、 128、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 128、3 、アクティベーション= 'relu' )
ネットワーク = max_pool_2d(ネットワーク、 2 、ストライド= 2 ) 
 
ネットワーク = conv_2d(ネットワーク、 256、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 256、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 256、3 、アクティベーション= 'relu' )
ネットワーク = max_pool_2d(ネットワーク、 2 、ストライド= 2 ) 
 
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = max_pool_2d(ネットワーク、 2 、ストライド= 2 ) 
 
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = conv_2d(ネットワーク、 512、3 、アクティベーション= 'relu' )
ネットワーク = max_pool_2d(ネットワーク、 2 、ストライド= 2 ) 
 
ネットワーク = 完全接続(ネットワーク、 4096 、アクティベーション= 'relu' )
ネットワーク = ドロップアウト(ネットワーク、 0.5 )
ネットワーク = 完全接続(ネットワーク、 4096 、アクティベーション= 'relu' )
ネットワーク = ドロップアウト(ネットワーク、 0.5 )
ネットワーク = 完全接続(ネットワーク、 17 、アクティベーション= 'softmax' ) 
 
ネットワーク = 回帰(ネットワーク、オプティマイザ = 'rmsprop' 、
                     損失 = 'カテゴリクロスエントロピー' 、
                     学習率 = 0.001 ) 
 
 ＃ トレーニング 
モデル = tflearn.DNN(ネットワーク、チェックポイントパス = 'model_vgg' 、
                    max_checkpoints = 1 、 tensorboard_verbose = 0 )
 model.fit(X, Y, n_epoch= 500 , シャッフル= True ,
          show_metric= True 、batch_size= 32 、snapshot_step= 500 、
          snapshot_epoch = False 、 run_id = 'vgg_oxflowers17' )

VGG-16 グラフは次のとおりです。

VGGに関しては、筆者は個人的には目玉となる点があまりないと感じています。事前学習済みのモデルも十分使えますが、GoogLeNetほど目を引くものではありません。

ディープ残差ネットワーク

一般的に、ネットワークが深くなるほど、トレーニングが難しくなります。画像認識のための Deep Residual Learning は、モデルネットワークのトレーニング時間を大幅に簡素化できる残差学習フレームワークを提案しており、許容時間内にモデルをより深く (1000 回試行しても 152 回) することができます。この方法は、ILSVRC2015 で最高の結果を達成しました。

モデルの深さが増すにつれて、次の問題が発生します。

勾配の消失/爆発により、トレーニングの収束が非常に困難になります。この問題は、正規化された初期化と中間正規化レイヤーによって解決できます。
適切な深さのモデルにさらにレイヤーを追加すると、モデルの精度が急激に低下し（オーバーフィッティングによるものではなく）、トレーニングエラーとテストエラーの両方が非常に高くなります。この現象は、CIFAR-10 と ImageNet で言及されています。

深さの増加によって引き起こされるパフォーマンス低下の問題を解決するために、著者は残差学習に次の構造を提案します。

潜在的なマッピングが H(x) であると仮定して、積み重ねられた非線形レイヤーを使用して F(x):=H(x)-x を適合させます。残差の最適化は H(x) の最適化よりも簡単です。 F(x)+xは「ショートカット接続」を通じて簡単に実装できます。

この記事の主な改良点は、従来の畳み込みモデルに残差学習を追加し、残差最適化を通じてほぼ最適な恒等マッピングを見つけることです。

論文中のネットワーク構造:

Deep Residual Network tflearn の実装については、元の論文で詳しく説明されています。

高速ニューラルスタイルを理解する

前回の記事では、コンピュータビジョンの分野でよく使用されるモデルについて説明しました。次の期間では、著者は主に関連論文とソースコードを分析しながら、コンピュータビジョンの分野での TensorFlow のいくつかのアプリケーションを学習します。今日は、高速ニューラルスタイルの関連作業について詳しく学習します。ニューラルスタイルのコンテンツを分析した以前の記事もあります。その記事はニューラルスタイルの起源と見なされていますが、実際の作業には適用できません。なぜでしょうか。毎回コンテンツの画像とスタイルの画像を指定してから、画像を生成し、特定のスタイルのモデルを保存することはできません。現在、多くの大規模なインターネット企業、特にビデオウェブサイトで使用されています。

紙の原則

数ヶ月前、私は神経スタイル、Tensorflow：神経スタイルの詳細な理解、多層畳み込みネットワークを構築し、定義されたコンテンツの損失とスタイルの損失を使用することで非常に興味深いものを最小限に抑えることで、コンテンツとスタイルを組み合わせた画像を生成しました。 GGモデルは、元の損失計算を簡素化し、変換ネットワークを追加し、以下の図をどのように確認してください。

ネットワーク全体は、画像変換ネットワークで構成されています。イメージは、入力画像（コンテンツ画像）をスタイルで直接変換するために使用されます。変換された画像を取得すると、対応する損失が計算されます。

損失の計算は、以前のコンテンツ損失と非常に似ています。

スタイルの損失：

スタイル損失のグラムマトリックス：

グラムマトリックスは非常に重要なものであり、y^hatとyが同じ形状を確実にすることができます。グラムの説明はこの論文で詳しく説明していますが、読者はそれを一目で理解すると思います。

私はこれを読んだ後、あなたは基本的にこの論文が速いニューラルスタイルでどのように行われるかを理解していると信じています。

変換ネットワーク構造は、入力画像を特別なスタイルで画像に変換する深い残留ネットワークであり、ネットワークパラメーターを更新できます。
ロスネットワーク構造は、以前の論文に似ています。
グラムマトリックスの導入により、変換された画像の形状が損失ネットワークを通過した後の画像とは異なる場合、損失を計算するのが便利です。

注：この記事の技術コンテンツは、ディープラーニングエンジニアのデュアンシシによる公開を許可されています。ディープラーニングプラクティスについて詳しく知りたい場合は、 Xiao Shitouのコードキャンプにアクセスして読んでください。

【編集者のおすすめ】

Huawei Software Development CloudのMicroservicesの時代にDevOpsの実装を表示する方法
グーグルは空に反するつもりです！ Google Wear 2.0：最新のオフラインAIテクノロジー分析
ReactとVueに基づいて、モバイルオープンソースプロジェクトWeexはどのように未来を定義していますか？
ワールドクラスのオープンソースプロジェクト：TIDBが次世代のリレーショナルデータベースを再定義する方法
エントリーから放棄へのAPM：可用性監視システムと最適化方法の分析

[編集者：林世寿 TEL: (010) 68476606]

<<: ロボットにとっては、這う方が移動には良い方法かもしれない

>>: 人工知能が人間の仕事の6%を奪い、置き換える可能性がある

人工知能のもう一つの方向性：メモリスタに基づくストレージおよびコンピューティング技術

TensorFlow: なぜですか?

ニューラルスタイルへの深い理解

方法

AlexNetの深い理解

AlexNetの基本構造

AlexNetが優れた成果を達成した理由

ReLU非線形性

ローカルレスポンスの正規化

ドロップアウト

データ拡張

GoogLeNetの深い理解

1) ネットワークインネットワーク

インセプションモジュール

GoogLeNetの全体

Tensorflow 上の GoogLeNet

VGG\Residual Networkの深い理解

VGGネット

VGG-16 tflearn 実装

ディープ残差ネットワーク

高速ニューラルスタイルを理解する

紙の原則

推薦する