1 つの記事で TensorFlow ディープラーニングをマスターする

[[200803]]

EnsorFlow ディープラーニングフレームワーク

Google はビッグデータとクラウドコンピューティングのリーダーであるだけでなく、機械学習とディープラーニングの分野でも豊富な経験を持っています。2015 年末には、ディープラーニングフレームワーク TensorFlow を社内向けにオープンソース化しました。

Caffe、Theano、Torch、MXNet などのフレームワークと比較して、TensorFlow は Github 上でフォークとスターの数が最も多く、グラフ分類、オーディオ処理、推奨システム、自然言語処理などのシナリオで幅広く応用されています。最近人気のKerasフレームワークは、デフォルトで最下層にTensorFlowを使用しています。有名なスタンフォード大学のCS231nコースでは、授業や課題のプログラミング言語としてTensorFlowを使用しています。国内外で多くのTensorFlowの本がすでに準備中または販売中です。AlphaGoの開発チームDeepmindも、ニューラルネットワークアプリケーションをTensorFlowに移行する予定です。これらすべてが、業界でのTensorFlowの人気を裏付けています。

TensorFlow は Github でソースコードを公開しただけでなく、論文「TensorFlow: 異機種分散システムでの大規模機械学習」でシステムフレームワークの設計と実装も紹介しました。テストされた 200 ノード規模のトレーニングクラスターは、他の分散型ディープラーニングフレームワークの追随を許しません。 Google はまた、論文「レコメンデーションシステムのためのワイド & ディープラーニング」と「YouTube 動画レコメンデーションシステム」で、Google Play App Store と YouTube 動画レコメンデーションのアルゴリズムモデルを紹介し、TensorFlow に基づくコード例を提供しました。TensorFlow を使用すれば、ImageNet や Kaggle のコンペティションで、誰でも最先端に近い優れた結果を得ることができます。

TensorFlow 入門から応用まで

TensorFlow の人気により、ディープラーニングの敷居がどんどん下がったと言っても過言ではありません。Python と機械学習の基本的な知識さえあれば、ニューラルネットワークモデルを使い始めるのは非常に簡単になります。 TensorFlow は、Python と C++ の 2 つのプログラミング言語をサポートしています。最も複雑な多層ニューラルネットワークモデルでも、Python で実装できます。ビジネスで他のプログラミング言語を使用している場合でも心配はいりません。また、クロス言語 gRPC または HTTP サービスを使用して、TensorFlow でトレーニングされたスマートモデルにアクセスすることもできます。

では、Python を使用して TensorFlow アプリケーションを作成するにはどうすればよいでしょうか? 始めるのはどれくらい難しいのでしょうか?

以下では、文字列を出力し、簡単な計算を実行する Hello World アプリケーションを作成します。

 # ライブラリをインポートする
テンソルフローをtfとしてインポートする
 
 # グラフを定義する
hello_op = tf.constant( 'こんにちは、TensorFlow!' )
 a = tf.定数(10)
 b = tf.定数(32)
 compute_op = tf.add (a, b)を実行します。 
 
 #グラフを実行するセッションを定義する
tf.Session()を sessとして使用:
    印刷(sess.run(hello_op))
    印刷(sess.run(compute_op))

このシンプルなコードから、TensorFlow が非常に使いやすいことがわかります。追加のサービスを開始せずに、Python 標準ライブラリを介してインポートできます。初めて TensorFlow に触れると、戸惑うかもしれません。このロジックは Python でも実装できますが、なぜ tf.constant() と tf.Session() を使用するのでしょうか。実際、TensorFlow は Graph と Session を使用して実行中のモデルとトレーニングを定義します。これは、この記事の後半で紹介する複雑なモデルと分散トレーニングに非常に役立ちます。

前回の Hello world アプリケーションにはトレーニング済みのモデルがありませんでした。次に、ロジスティック回帰の問題とモデルを紹介します。 numpy を使用して線形関係データのセットを構築し、TensorFlow によって実装された確率的勾配アルゴリズムを使用して、十分な時間のトレーニング後に関数の傾きと切片を自動的に解きます。

テンソルフローをtfとしてインポートする
numpyをnpとしてインポートする
 
 #列車データを準備する
訓練_X = np.linspace(-1, 1, 100)
 train_Y = 2 * train_X + np.random.randn(*train_X.shape) * 0.33 + 10 
 
 # モデルを定義する
X = tf.placeholder(tf.float32)
 Y = tf.placeholder(tf.float32)
 w = tf.Variable(0.0,名前= "重量" )
 b = tf.Variable(0.0、名前= "バイアス" )
損失 = tf.square(Y - tf.matmul(X, w) - b)
 train_op = tf.train.GradientDescentOptimizer(0.01).minimize(損失) 
 
 #実行するセッションを作成する
tf.Session()を sessとして使用:
    sess.run(tf.initialize_all_variables())
    エポック = 1
 iが範囲(10)内にある場合:
 zip(train_X, train_Y)内の(x, y)の場合:
            _, w_value, b_value = sess.run([train_op, w, b],
                                           feed_dict={X: x, Y: y})
        print( "エポック: {}、 w: {}、 b: {}" .format(epoch、 w_value、 b_value))
        エポック += 1

上記のコードは、tensorflow_examples プロジェクトにあります。トレーニング後、出力の傾き w は約 2、切片 b は約 10 であることがわかります。これは、構築したデータ間の相関と一致しています。TensorFlow コードには最小二乗法やその他のアルゴリズムは実装されておらず、コードロジックを制御する if-else もありません。これは完全にデータ駆動型であり、勾配降下アルゴリズムに従って Loss 値を動的に調整することで学習されます。このように、他のデータセットに変更したり、画像分類などの他の分野の問題に変更したりしても、コードを修正することなく機械が自動的に学習することができます。これもニューラルネットワークとTensorFlowの力です。

エポック: 1、w: -0.909195065498352、b: 9.612462043762207
エポック: 2、w: 0.296161413192749、b: 10.418954849243164
エポック: 3、w: 1.108984351158142、b: 10.283171653747559
エポック: 4、w: 1.5482335090637207、b: 10.143315315246582
エポック: 5、w: 1.7749555110931396、b: 10.063009262084961
エポック: 6、w: 1.8906776905059814、b: 10.020986557006836
エポック: 7、w: 1.9495772123336792、b: 9.999467849731445
エポック: 8、w: 1.9795364141464233、b: 9.988500595092773
エポック: 9、w: 1.994771122932434、b: 9.982922554016113
エポック: 10、幅: 2.0025179386138916、幅: 9.980087280273438

以前のモデルには、w と b の 2 つの変数しかありませんでした。データが非線形関係にある場合、良い結果を得ることは困難です。そのため、TensorFlow が設計に重点を置いているディープラーニングモデルでもあるディープニューラルネットワークを使用することをお勧めします。 Google が 2014 年に Inception モデルで ImageNet グローバルコンペティションに勝利したことは知られています。そのコードは TensorFlow に基づいて実装されています。以下は、より複雑なモデル定義コードです。

 conv2d(inputs, 32, [3, 3], stride=2, scope= 'conv0' ) # 149 x 149 x 32 end_points[ 'conv1' ] = ops.conv2d(end_points[ 'conv0' ], 32, [3, 3], scope= ' conv0 ' ) # 149 x 149 x 32 end_points[ 'conv1' ] = ops.conv2d(end_points[ 'conv0' ], 32, [3, 3], scope= 'conv0' ) # 149 x 149 x 32 end_points[ 'conv1' ] = ops.conv2d(end_points[ 'conv0' ], 32, [3, 3], scope= conv2d（end_points [ 'conv1']、 64 、[ 3、3 ]、padding = 'same ' 、 scope = ' conv2' ） end_points [ ' pool1 ' ] 、80、[1、1 ] 、 scope = ' conv3 ' ） ops.conv2d(end_points[ 'conv3' ], 192, [3, 3], scope= 'conv4' ) # 71 x 71 x 192 end_points[ 'pool2' ] = ops.max_pool(end_points[ 'conv4' ], [3, 3], stride=2, scope= 'pool2' ) # 35 x 35 x 192 net = end_points[ 'pool2' ]

TensorFlow がパッケージ化した完全接続ネットワーク、畳み込みニューラルネットワーク、RNN、LSTM を使用すると、さまざまなネットワークモデルを組み合わせることができ、Inception などの多層ニューラルネットワークを実装するのはレゴを組み立てるのと同じくらい簡単です。ただし、最適化アルゴリズムの選択、TFRecord の生成、モデルファイルのエクスポート、分散トレーニングのサポートには多くの詳細があります。次に、TensorFlow に関連するすべてのコアな使用スキルを 1 つの記事で紹介します。

TensorFlow コアの使用に関するヒント

TensorFlowのさまざまな使い方を紹介するために、deep_recommend_system（https://github.com/tobegit3hub/deep_recommend_system）を使用します。

このオープンソースプロジェクトは、TFRecords、QueueRunner、Checkpoint、TensorBoard、推論、GPU サポート、分散トレーニング、多層ニューラルネットワークモデルなどの機能を実装しています。また、Wide や Deep などのモデルを実装するように簡単に拡張でき、直接ダウンロードして実際のプロジェクト開発に使用できます。

1. トレーニングデータを準備する

一般的に、TensorFlow アプリケーションコードには、Graph の定義と Session の操作が含まれます。コードの量が多くない場合は、cancer_classifier.py ファイルなどの 1 つのファイルにカプセル化できます。トレーニングの前に、サンプルデータとテストデータを準備する必要があります。通常、データファイルはスペースまたはカンマで区切られた CSV ファイルですが、TensorFlow では、QueuRunner と Coordinator によるマルチスレッドデータ読み取りをサポートするバイナリ TFRecords 形式の使用を推奨しています。バッチサイズとエポックパラメータを使用して、トレーニング中の単一バッチのサイズと、サンプルファイルの反復トレーニングラウンドの数を制御できます。 CSV ファイルを直接読み込む場合、次に読み込むデータのポインタをコード内に記録する必要があり、すべてのサンプルをメモリにロードできない場合には非常に不便です。

データディレクトリには、CSV と TFRecords 形式変換ツール generate_csv_tfrecords.py が用意されています。このスクリプトを参照することで、任意の形式の CSV ファイルを解析し、TensorFlow でサポートされている TFRecords 形式に変換できます。ビッグデータでもスモールデータでも、シンプルなスクリプトツールを使って TensorFlow に直接接続できます。また、このプロジェクトでは、API を呼び出して TFRecords ファイルの内容を直接読み取る print_csv_tfrecords.py スクリプトも提供しています。

 def generate_tfrecords(入力ファイル名、出力ファイル名):
    print( "{} を {} に変換し始めます" .format(input_filename, output_filename))
    ライター = tf.python_io.TFRecordWriter(出力ファイル名) 
 
ライン入力用 開く(input_filename, "r" ):
        データ = 行を分割します( ", " )
        ラベル = float (データ[9])
        特徴 = [ float (i)データのiの場合[:9]] 
 
        例 = tf.train.Example(features=tf.train.Features(feature={
 「ラベル」 :
            tf.train.Feature(float_list=tf.train.FloatList(値=[ラベル]))、
 "特徴" ：
            tf.train.Feature(float_list=tf.train.FloatList(値=機能))、
        }))
        ライター.write(example.SerializeToString()) 
 
    ライター.close ()
    print( "{} を {} に正常に変換しました" .format(input_filename,
                                                 出力ファイル名))

2. コマンドライン引数を受け入れる

TFRecords を使用すると、ニューラルネットワークモデルをトレーニングするためのコードを記述できます。ただし、ご存知のとおり、ディープラーニングには調整が必要なハイパーパラメータが多すぎます。最適化アルゴリズム、モデルレイヤー、さまざまなモデルを常に調整する必要があります。このとき、コマンドラインパラメータを使用すると非常に便利です。

TensorFlow は最下層で python-gflags プロジェクトを使用し、それが tf.app.flags インターフェースにカプセル化されます。使い方は非常にシンプルで直感的です。実際のプロジェクトでは、特に後述する Cloud Machine Learning サービスでは、コマンドラインパラメータが事前に定義されているのが一般的で、パラメータによるハイパーパラメータのチューニングが簡素化されます。

 # ハイパーパラメータを定義する
フラグ = tf.app.flags
フラグ = flags.FLAGS
 flags.DEFINE_boolean( "enable_colored_log" , False , "色付きログを有効にする" )
 flags.DEFINE_string( "train_tfrecords_file" ,
 "./data/a8a/a8a_train.libsvm.tfrecords" 、
 「列車の TFRecords ファイルの glob パターン」 )
 flags.DEFINE_string( "validate_tfrecords_file" ,
 "./data/a8a/a8a_test.libsvm.tfrecords" 、
 「TFRecords ファイルを検証するための glob パターン」 )
 flags.DEFINE_integer( "feature_size" , 124, "フィーチャーサイズの数" )
 flags.DEFINE_integer( "label_size" , 2, "ラベルサイズの数" )
 flags.DEFINE_float( "learning_rate" , 0.01, "学習率" )
 flags.DEFINE_integer( "epoch_number" , 10, "トレーニングするエポックの数" )
 flags.DEFINE_integer( "batch_size" , 1024, "トレーニングのバッチサイズ" )
 flags.DEFINE_integer( "validate_batch_size" , 1024,
 「検証のバッチサイズ」
 flags.DEFINE_integer( "バッチスレッド番号" , 1,
 「データを読み取るスレッドの数」
 flags.DEFINE_integer( "min_after_dequeue" , 100,
 「デキュー後の最小数」
 flags.DEFINE_string( "checkpoint_path" , "./sparse_checkpoint/" ,
 「チェックポイントの道」
 flags.DEFINE_string( "output_path" , "./sparse_tensorboard/" ,
 「テンソルボード イベント ファイルのパス」)
 flags.DEFINE_string( "model" , "dnn" , "dnn、lr、wide_and_deep をサポート" )
 flags.DEFINE_string( "model_network" , "128 32 8" , "モデルのニューラルネットワーク" )
 flags.DEFINE_boolean( "enable_bn" , False , "バッチ正規化を有効にするかどうか" )
 flags.DEFINE_float( "bn_epsilon" , 0.001, "バッチ正規化のイプシロン" )
 flags.DEFINE_boolean( "enable_dropout" , False , "ドロップアウトを有効にするかどうか" )
 flags.DEFINE_float( "dropout_keep_prob" , 0.5, "ドロップアウト保持確率" )
 flags.DEFINE_boolean( "enable_lr_decay" , False , "学習率の減衰を有効にする" )
 flags.DEFINE_float( "lr_decay_rate" , 0.96, "学習率の減衰率" )
 flags.DEFINE_string( "optimizer" , "adagrad" , "トレーニングするオプティマイザー" )
 flags.DEFINE_integer( "steps_to_validate" , 10,
 「状態を検証して印刷する手順」
 flags.DEFINE_string( "mode" , "train" , "train、export、inference をサポート" )
 flags.DEFINE_string( "saved_model_path" , "./sparse_saved_model/" ,
 「保存されたモデルのパス」 )
 flags.DEFINE_string( "model_path" , "./sparse_model/" , "モデルのパス" )
 flags.DEFINE_integer( "model_version" , 1, "モデルのバージョン" )
 flags.DEFINE_string( "推論テストファイル" , "./data/a8a_test.libsvm" ,
 「推論用テストファイル」
 flags.DEFINE_string( "inference_result_file" , "./inference_result.txt" ,
 「推論からの結果ファイル」 )

3. ニューラルネットワークモデルを定義する

データとパラメータを準備した後、最も重要なことはネットワークモデルを定義することです。モデルパラメータの定義は、複数の変数を作成するだけの簡単なものから、tf.variable_scope() および tf.get_variables() インターフェイスを使用するなどの複雑なものまであります。各変数に一意の名前が付けられ、隠しノードとネットワーク層の数を簡単に変更できるようにするには、変数を定義するときに CPU のバインドに特に注意しながら、プロジェクト内のコードを参照することをお勧めします。TensorFlow はデフォルトで GPU を使用するため、パラメータの更新が遅くなる可能性があります。

 # モデルを定義する
input_units = フィーチャーサイズ
隠し1ユニット = 10
隠し2ユニット = 10
隠し3_ユニット = 10
隠し4ユニット = 10
出力単位 = ラベルサイズ
 
 def full_connect(入力、weights_shape、biases_shape):
 tf.device( '/gpu:0' )を使用する場合:
        重み = tf.get_variable( "重み" , weights_shape,
                                 初期化子 = tf.random_normal_initializer())
        バイアス = tf.get_variable( "バイアス" ,biases_shape,
                                 初期化子 = tf.random_normal_initializer())
 tf.matmul(入力、重み) + バイアスを返す
 
 full_connect_reluを定義します(入力、weights_shape、biases_shape):
 tf.nn.relu(full_connect(inputs, weights_shape,biases_shape))を返します。 
 
 def deep_inference(入力):
 tf.variable_scope( "layer1" )を使用する場合:
        レイヤー = full_connect_relu(入力、[入力単位、隠し1単位]、
                                 [hidden1_units])
 tf.variable_scope( "layer2" )を使用する場合:
        レイヤー = full_connect_relu(入力、[hidden1_units、hidden2_units]、
                                 [hidden2_units])
 tf.variable_scope( "layer3" )を使用する場合:
        レイヤー = full_connect_relu(入力、[hidden2_units、hidden3_units]、
                                 [hidden3_units])
 tf.variable_scope( "layer4" )を使用する場合:
        レイヤー = full_connect_relu(入力、[hidden3_units、hidden4_units]、
                                 [hidden4_units])
 tf.variable_op_scope( "output" )を使用する場合:
        レイヤー = full_connect_relu(入力、[hidden4_units、output_units]、
                                 [出力単位])
リターンレイヤー

上記のコードは実稼働環境でも非常に一般的であり、トレーニング、推論の実装、モデルの精度と AUC の検証に使用されます。プロジェクトでは、このコードに基づいて、Google Play App Storeのレコメンデーション業務で広く使用されているワイド＆ディープモデルも実装しました。これは、従来のロジスティック回帰モデルとディープラーニングニューラルネットワークモデルを有機的に組み合わせたものであり、一般的なレコメンデーションシステムにも適しています。

4. 異なる最適化アルゴリズムを使用する

ネットワークモデルを定義した後、モデルパラメータを最適化するためにどのオプティマイザーを使用するかを考える必要があります。Sgd、Rmsprop、Adagrad、Ftrl のどれを選択すればよいでしょうか。さまざまなシナリオやデータセットに対して決まった答えはありません。最善の方法は実践することです。上記で定義したコマンドラインパラメータを使用すると、さまざまな最適化アルゴリズムを使用してモデルを簡単にトレーニングできます。

 def get_optimizer（optimizer、learning_rate）：logging.info（ "optimizer：{}" .format（optionizer））if optimizer == " sgd" ： tf.gradient.centoptimizer（Learning_rate）elifizer == "adadelta" ： tf.train.adagradoptimizer （Learning_rate）elif optimizer == " adam" ： tf.train.adamoptimizer （ Learning_rate）elif optimizer == "ftrl" ： tf.train.ftrloptimizer（Learning_rate）elif elif amplopまたは（ " Unking Optimizer、exit now" ）exit （ 1 ）

実際の運用では、最適化アルゴリズムによってトレーニング結果とトレーニング速度に大きな違いがあります。ネットワークパラメータの過剰最適化は、他の最適化アルゴリズムを使用する場合ほど効果的ではない可能性があります。したがって、適切な最適化アルゴリズムを選択することも、ハイパーパラメータのチューニングにおいて非常に重要なステップです。このロジックを TensorFlow コードに追加することで、対応する機能も適切に実装できます。

5. オンライン学習と継続学習

多くの機械学習ベンダーは、自社製品がオンライン学習をサポートしていると主張しています。実際、これはオンラインデータによるモデルの継続的な最適化をサポートするという TensorFlow の基本機能にすぎません。 TensorFlow は、tf.train.Saver() を通じてモデルを保存し、モデルパラメータを復元できます。Python を使用してモデルファイルをロードした後、オンラインで要求されたデータを継続的に受け入れ、モデルパラメータを更新し、次の最適化またはオンラインサービスのために Saver を通じてチェックポイントとして保存できます。

 #グラフを実行するためのセッションを作成する
tf.Session()を sessとして使用:
    summary_op = tf.merge_all_summaries()
    書き込み = tf.train.SummaryWriter(tensorboard_dir, sess.graph)
    セッションを実行します(init_op)
    sess.run(tf.initialize_local_variables()) 
 
    モード == "train"の場合 またはmode == "train_from_scratch" :
        モード!= "train_from_scratch"の場合:
            ckpt = tf.train.get_checkpoint_state(チェックポイントディレクトリ)
            ckptおよびckpt.model_checkpoint_path の場合:
                print( "モデルからトレーニングを続行します {}" .format(ckpt.model_checkpoint_path))
                saver.restore(sess、ckpt.model_checkpoint_path) を復元します。

継続的なトレーニングとは、トレーニングが中断された場合でも、前回のトレーニングの結果に基づいてモデルを最適化できることを意味します。TensorFlow では、これも Saver とチェックポイントファイルを通じて実現されます。 deep_recommend_system プロジェクトでは、デフォルトで前回のトレーニングからモデルの最適化を継続できます。また、コマンドラインで train_from_scratch を指定することもできます。トレーニングプロセスが中断されることを心配する必要がないだけでなく、トレーニングと推論をしながらオンラインサービスを提供することもできます。

6. TensorFlowを使用してパラメータを最適化する

TensorFlow には、強力なグラフィカルツールである TensorBoard も統合されています。通常は、必要なトレーニングインジケーターをコードに追加するだけで、TensorBoard がこれらのパラメーターに基づいてグラフを自動的に描画するため、モデルトレーニングの状態を視覚的に把握できます。

 tf.scalar_summary('損失', 損失)
 tf.scalar_summary('精度', 精度)
 tf.scalar_summary('auc', auc_op)

7. 分散TensorFlowアプリケーション

最後に、TensorFlow の強力な分散コンピューティング機能を紹介する必要があります。Caffe などの従来のコンピューティングフレームワークは、分散トレーニングをネイティブにサポートしておらず、データの量が膨大な場合にマシンを追加してスケールアウトできないことがよくあります。 TensorFlow は、Google のさまざまな事業から PB レベルのデータを運びます。分散コンピューティングのニーズは設計当初から考慮されており、ニューラルネットワークモデルの分散コンピューティングは、gRPC や Protobuf などの高性能ライブラリを通じて実装されています。

分散 TensorFlow アプリケーションを実装するのは難しくありません。グラフを構築するためのコードは、スタンドアロンバージョンと同じです。分散 cancer_classifier.py の例を実装しました。次のコマンドを使用して、マルチ ps マルチワーカートレーニングクラスターを起動できます。

 cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ps --task_index=0   
 
 cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ps --task_index=1   
 
 cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ワーカー --task_index=0   
 
 cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ワーカー --task_index=1

コードを詳しく読む前に、分散 TensorFlow における ps、ワーカー、グラフ内、グラフ間、同期トレーニング、非同期トレーニングの概念を理解する必要があります。まず、ps はトレーニングクラスター全体のパラメータサーバーであり、モデルの変数を保存します。ワーカーはモデルの勾配を計算するノードであり、得られた勾配ベクトルは ps に渡され、モデルを更新します。イングラフはビトウィーングラフに対応しますが、どちらも同期トレーニングと非同期トレーニングを実現できます。イングラフとは、クラスター全体を 1 つのクライアントで構築し、クライアントがグラフをクラスターに送信することを意味します。他のワーカーは、勾配計算タスクの処理のみを担当します。ビトウィーングラフとは、クラスター内の複数のワーカーが複数のグラフを作成できることを意味しますが、ワーカーは同じコードを実行するため、構築されたグラフも同じであり、パラメーターは同じ PS に保存され、同じモデルのトレーニングが保証されます。このようにして、複数のワーカーがグラフを構築し、トレーニングデータを読み取ることができるため、ビッグデータのシナリオに適しています。同期トレーニングと非同期トレーニングの違いは、同期トレーニングでは勾配が更新されるたびにブロックしてすべてのワーカーの結果を待つ必要があるのに対し、非同期トレーニングではブロックされず、トレーニング効率が高くなることです。非同期トレーニングは、通常、ビッグデータや分散シナリオで使用されます。

8. クラウド機械学習

TensorFlow に関するすべてのコンテンツを紹介しました。注意深いネットユーザーなら、TensorFlow は強力ですが、本質的にはライブラリであることに気付いたかもしれません。TensorFlow アプリケーションコードを記述するだけでなく、ユーザーは物理マシンでサービスを起動し、トレーニングデータとモデルファイルのディレクトリを手動で指定する必要があります。メンテナンスコストは比較的高く、マシン間で共有することはできません。

ビッグデータ処理とリソーススケジューリング業界を見ると、Hadoop エコシステムが業界標準になっています。データは MapReduce または Spark インターフェイスを介して処理されます。ユーザーは API を介してタスクを送信し、Yarn が統合されたリソース割り当てとスケジューリングを実行します。これにより、分散コンピューティングが可能になるだけでなく、リソース共有と統合されたスケジューリングプラットフォームを通じてサーバーの使用率が大幅に向上します。残念ながら、TensorFlow はディープラーニングフレームワークとして定義されており、クラスターリソース管理などの機能は含まれていません。しかし、TensorFlow をオープンソース化した後、Google はすぐに Google Cloud ML サービスを発表しました。私たちはアルファ版から Cloud ML の早期ユーザーであり、クラウドでのディープラーニングトレーニングの利便性を深く体験してきました。 Google Cloud ML サービスを使用すると、TensorFlow アプリケーションコードを直接クラウドに送信して実行したり、トレーニング済みのモデルをクラウドに直接デプロイして API から直接アクセスしたりすることができます。TensorFlow の優れた設計のおかげで、Kubernetes と TensorFlow サービングに基づく Cloud Machine Learning サービスを実装できました。アーキテクチャ設計と使用インターフェースは、Google Cloud ML のものと似ています。

TensorFlow は優れたディープラーニングフレームワークです。個人の開発者、研究者、企業にとって投資する価値のあるテクノロジーです。クラウドマシンラーニングは、環境の初期化、トレーニングタスクの管理、ニューラルネットワークモデルのオンラインサービスにおけるユーザーの管理とスケジュールの問題を解決できます。現在、Google Cloud ML はハイパーパラメータの自動チューニングをすでにサポートしており、パラメータチューニングは将来的には技術的な問題ではなく計算上の問題になるでしょう。一部の開発者が TensorFlow の代わりに MXNet などを使用するとしても、私たちはより多くのディープラーニングユーザーやプラットフォーム開発者とコミュニケーションをとり、コミュニティの発展を促進していきたいと考えています。

要約する

まとめると、この記事では主に TensorFlow ディープラーニングフレームワークの学習と応用について紹介しました。deep_recommend_system プロジェクトを通じて、TensorFlow を使用する際の次の 8 つのコアポイントを紹介します。試用とフィードバックのためにソースコードをダウンロードすることもできます。

<<: 分散機械学習プラットフォームの比較: Spark、PMLS、TensorFlow、MXNet

>>: ディープラーニングを自分の仕事にどのように統合しますか?