自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

[[211061]]

STATWORX チームは最近、Google Finance API から S&P 500 データを選択しました。このデータセットには、S&P 500 の指数と株価情報が含まれています。彼らはこのデータを使って、ディープラーニングモデルとその構成銘柄500銘柄の株価を利用してS&P500指数を予測したいと考えている。 STATWORX チームのデータセットは非常に斬新ですが、予測を行うために 4 つの隠れ層を持つ完全接続ネットワークのみを使用しています。読者はデータをダウンロードして、より高度なリカレントニューラルネットワークを試すこともできます。

この記事は、TensorFlow を使用して基本的なニューラルネットワークを構築する方法を理解する初心者に最適です。TensorFlow モデルの構築に関係する概念とモジュールを詳しく説明しています。この記事で使用されているデータセットは直接ダウンロードできるので、ある程度の基礎知識を持つ読者は、より強力なリカレントニューラルネットワークを使用してこのタイプの時系列データを処理することもできます。

データセットのアドレス: http://files.statworx.com/sp500.zip

データのインポートと前処理

STATWORX チームはサーバーから株価データをクロールし、csv ファイルとして保存します。このデータセットには、2017 年 4 月から 8 月までの 500 銘柄の株式と S&P 500 指数を網羅した n=41266 分の記録が含まれており、幅広い銘柄と指数をカバーしています。

 # データをインポート
 
データ = pd.read_csv( 'data_stocks.csv' ) 
 
 #データセットの次元
 
 n = データ形状[0] 
 
 p = データ.shape[1]

データセットはクリーンアップされ、前処理されています。つまり、欠落している株式と指数は LOCF されます (次の観測値は前の観測値をコピーします)。そのため、データセットには欠落値が含まれません。

pyplot.plot('SP500') ステートメントを使用して、S&P 時系列データをプロットできます。

S&P 500 時系列チャート

トレーニングデータとテストデータを準備する

データセットはトレーニングデータとテストデータに分割する必要があり、トレーニングデータにはデータセット全体のレコードの 80% が含まれます。データセットを乱す必要はなく、順番にスライスするだけで済みます。トレーニングデータは2017年4月から2017年7月末まで、テストデータは2017年8月までの残りのデータから選択できます。

 # トレーニングとテストデータ
 
トレイン開始 = 0 
 
トレーニング終了 = int (np.floor(0.8*n)) 
 
テスト開始 = トレーニング終了 + 1 
 
テスト終了 = n 
 
 data_train = データ[np.arange(train_start, train_end), :] 
 
 data_test = data[np.arange(test_start, test_end), :]

時系列クロス検証には、再フィッティングの有無にかかわらずローリング予測を実行したり、時系列ブートストラップ再サンプリングなどのより複雑な戦略を実行したりするなど、さまざまな方法があります。後者は、元の時系列と同じ周期パターンを持つサンプルをシミュレートするために、時系列の周期的分解の繰り返しサンプルを伴いますが、これは単に値をコピーするだけではありません。

データの標準化

ほとんどのニューラルネットワークアーキテクチャでは、tanh や sigmoid などのほとんどのニューロンの活性化関数が [-1, 1] または [0, 1] の区間で定義されているため、正規化されたデータが必要です。現在、ReLU 活性化関数が最も一般的に使用されていますが、その値の範囲には下限はありますが上限はありません。ただし、いずれにしても入力値とターゲット値を再スケールする必要があり、これは勾配降下アルゴリズムの使用にも役立ちます。スケーリングは、sklearn の MinMaxScaler を使用すると簡単に実現できます。

 # スケールデータ
 
 sklearn.preprocessingからMinMaxScaler をインポートします
 
スケーラー = MinMaxScaler() 
 
スケーラー.fit(data_train) 
 
スケーラー.transform(data_train) 
 
スケーラー.transform(data_test) 
 
 # Xとyを構築
 
 X_train = データ_train[:, 1:] 
 
 y_train = データ_train[:, 0] 
 
 X_test = データテスト[:, 1:] 
 
 y_test = data_test[:, 0]pycharm

データのどの部分をいつスケーリングするかを慎重に決定する必要があることに注意してください。よくある間違いは、データセットをテストデータセットとトレーニングデータセットに分割する前に、データセット全体をスケーリングすることです。スケーリングを実行するには、変数の最大値や最小値などの統計を計算する必要があるためです。しかし、現実の世界では将来の観測情報は得られないため、トレーニングデータに対して比例的に統計計算を実行し、その統計結果をテストデータに適用する必要があります。それ以外の場合は、将来の時系列予測情報を使用することになり、予測メトリックがプラスの側に偏ることがよくあります。

TensorFlow 入門

TensorFlow は優れたフレームワークであり、現在、ディープラーニングとニューラルネットワークで最も使用されているフレームワークです。基盤となるバックエンドは C++ ですが、通常は Python 経由で制御されます。 TensorFlow は強力な静的グラフを使用して、設計に必要なアルゴリズムと操作を表します。このアプローチにより、ユーザーはグラフ内のノードとして操作を指定し、テンソルの形式でデータを転送して、効率的なアルゴリズム設計を実現できます。ニューラルネットワークは実際にはデータと数学演算の計算グラフであるため、TensorFlow はニューラルネットワークとディープラーニングを適切にサポートできます。

一般的に、TensorFlow は、データフローグラフを使用した数値計算用のオープンソースソフトウェアライブラリです。 Tensor は渡されるデータがテンソル (多次元配列) であることを意味し、Flow は計算グラフを使用して計算することを意味します。データフローグラフは、「ノード」と「エッジ」で構成される有向グラフを使用して数学演算を記述します。「ノード」は一般に数学演算を表すために使用されますが、データ入力の開始点と出力の終了点、または永続変数の読み取り/書き込みの終了点を表すこともできます。エッジはノード間の入力/出力関係を表します。これらのデータエッジは、動的に調整可能な次元、つまりテンソルを持つ多次元データ配列を送信できます。

加算を実行する単純な計算グラフ

上の図では、2 つの 0 次元テンソル (スカラー) が追加され、2 つの変数 a と b に格納されています。これら 2 つの値はグラフを流れ、四角いノードに到達すると加算され、加算の結果が変数 c に格納されます。実際、a、b、c はプレースホルダーとして見ることができ、a と b に入力された値はすべて c に追加されます。これが TensorFlow の基本原理です。ユーザーはプレースホルダーと変数を通じてモデルの抽象表現を定義し、プレースホルダーに実際のデータを入力して実際の操作を生成できます。次のコードは、上図の単純な計算グラフを実装します。

 # TensorFlow をインポートする
 
テンソルフローをtfとしてインポートする
 
 # aとb をプレースホルダーとして定義する
 
 a = tf.placeholder(dtype=tf.int8) 
 
 b = tf.placeholder(dtype=tf.int8) 
 
 # 追加を定義する
 
 c = tf.add (a, b) 
 
 # グラフを初期化する
 
グラフ = tf.Session() 
 
 # グラフを実行する
 
 graph.run(c, feed_dict{a: 5, b: 4})

上記のように、TensorFlow ライブラリをインポートした後、tf.placeholder() を使用して、テンソル a と b を事前に保存するための 2 つのプレースホルダーを定義します。操作を定義した後、操作グラフを実行して結果を取得できます。

プレースホルダー

前述したように、ニューラルネットワークは最初はプレースホルダーから派生します。したがって、モデルに適合させるために 2 つのプレースホルダーを定義する必要があります。X にはニューラルネットワークへの入力 (T=t の時点でのすべての S&P 500 株価) が含まれ、Y にはニューラルネットワークの出力 (T=t+1 の時点での S&P 500 のインデックス値) が含まれます。

したがって、入力データプレースホルダーの次元は [None, n_stocks] として定義でき、出力プレースホルダーの次元は [None] となり、それぞれ 2 次元テンソルと 1 次元テンソルを表します。入力テンソルと出力テンソルの次元を理解することは、ニューラルネットワーク全体を構築する上で非常に重要です。

 # プレースホルダー
 
 X = tf.placeholder(dtype=tf.float32, shape=[なし, n_stocks]) 
 
 Y = tf.placeholder(dtype=tf.float32, shape=[なし])

上記のコードの None は、ニューラルネットワークに渡される各バッチの数はまだわからないことを意味します。そのため、None を使用すると柔軟性を維持できます。各トレーニングで使用されるバッチサイズを制御するために、後で batch_size を定義します。

変数

プレースホルダーに加えて、変数はデータと操作を表す TensorFlow のもう 1 つの重要な要素です。プレースホルダーは、入力データと出力データを格納するために計算グラフ内でよく使用されますが、変数は計算グラフ内の非常に柔軟なコンテナーであり、実行中に変更したり渡したりすることができます。ニューラルネットワークの重みとバイアスは、トレーニング中に簡単に調整できるように、通常、変数を使用して定義されます。変数は初期化する必要があり、これについては後で詳しく説明します。

このモデルは 4 つの隠し層で構成され、最初の層には 1024 個のニューロンが含まれ、次の 3 つの層は 2 の倍数で減少し、それぞれ 512、256、128 個のニューロンになります。後続の層のニューロンの数は順次削減され、前の層で抽出された特徴が圧縮されます。もちろん、他のニューラルネットワークアーキテクチャやニューロン構成を使用して、データをより適切に処理することもできます。たとえば、畳み込みニューラルネットワークアーキテクチャは画像データの処理に適しており、再帰型ニューラルネットワークは時系列データの処理に適しています。ただし、この記事は、完全接続ネットワークを使用して時系列データを処理する方法について初心者向けに簡単に紹介しただけなので、この記事ではそれらの複雑なアーキテクチャについては説明しません。

 # モデルアーキテクチャパラメータ
 
在庫数 = 500 
 
ニューロン数1 = 1024 
 
ニューロン数2 = 512 
 
ニューロン数3 = 256 
 
ニューロン数4 = 128 
 
 n_ターゲット = 1 
 
 # レイヤー 1:隠れた重みとバイアスの変数
 
 W_hidden_1 = tf.Variable(weight_initializer([n_stocks, n_neurons_1])) 
 
バイアス_hidden_1 = tf.Variable(バイアス_initializer([n_neurons_1])) 
 
 # レイヤー2:隠れた重みとバイアスの変数
 
 W_hidden_2 = tf.Variable(weight_initializer([n_neurons_1, n_neurons_2])) 
 
バイアス_hidden_2 = tf.Variable(バイアス_initializer([n_neurons_2])) 
 
 # レイヤー3:隠れた重みとバイアスの変数
 
 W_hidden_3 = tf.Variable(weight_initializer([n_neurons_2, n_neurons_3])) 
 
バイアス_hidden_3 = tf.Variable(バイアス_initializer([n_neurons_3])) 
 
 # レイヤー4:隠れた重みとバイアスの変数
 
 W_hidden_4 = tf.Variable(weight_initializer([n_neurons_3, n_neurons_4])) 
 
バイアス_hidden_4 = tf.Variable(バイアス_initializer([n_neurons_4]))
 #出力層:変数 出力の重みとバイアス
 
 W_out = tf.Variable(weight_initializer([n_neurons_4, n_target])) 
 
バイアス出力 = tf.Variable(バイアス初期化子([n_target]))

入力層、隠れ層、出力層間の変数の次元変換を理解することは、ネットワーク全体を理解する上で非常に重要です。多層パーセプトロンの経験則として、後の層の最初の次元は、前の層の重み変数の 2 番目の次元に対応します。複雑に聞こえるかもしれませんが、実際には各レイヤーの出力を次のレイヤーへの入力として渡すだけです。バイアス項の次元は、現在の層の重みの 2 番目の次元に等しく、その層内のニューロンの数にも等しくなります。

ニューラルネットワークのアーキテクチャの設計

ニューラルネットワークに必要な重み行列とバイアスベクトルを定義した後、ニューラルネットワークのトポロジまたはネットワークアーキテクチャを指定する必要があります。したがって、プレースホルダー (データ) と変数 (重みとバイアス) を、連続した行列乗算システムに組み合わせる必要があります。

さらに、ネットワークの隠れ層の各ニューロンにも、非線形変換のための活性化関数が必要です。活性化関数は、システムに非線形性を導入するため、ネットワークアーキテクチャの非常に重要なコンポーネントです。現在、多くの活性化関数が存在しますが、最も一般的なのは、このモデルでも使用される、正規化線形ユニット (ReLU) 活性化関数です。

 # 隠しレイヤー
 
 hidden_1 = tf.nn.relu( tf.add (tf.matmul(X, W_hidden_1),bias_hidden_1)) 
 
 hidden_2 = tf.nn.relu( tf.add (tf.matmul(hidden_1, W_hidden_2),bias_hidden_2)) 
 
 hidden_3 = tf.nn.relu( tf.add (tf.matmul(hidden_2, W_hidden_3),bias_hidden_3)) 
 
 hidden_4 = tf.nn.relu( tf.add (tf.matmul(hidden_3, W_hidden_4),bias_hidden_4)) 
 
 #出力層（転置する必要があります） 
 
出力= tf.transpose(tf.add ( tf.matmul(hidden_4, W_out),bias_out))

次の図は、この記事で構築したニューラルネットワークアーキテクチャを示しています。このモデルは、主に入力層、隠し層、出力層の 3 つの構成要素で構成されています。このアーキテクチャは、フィードフォワードネットワークまたは完全接続ネットワークと呼ばれます。フィードフォワードとは、入力バッチデータが左から右にのみ流れることを意味します。リカレントニューラルネットワークなどの他のアーキテクチャでは、データが逆方向に流れることもできます。

フィードフォワードネットワークのコアアーキテクチャ

損失関数

このネットワークの損失関数は主に、ネットワーク予測と実際の観測されたトレーニングターゲット間の偏差値を生成するために使用されます。回帰問題では、平均二乗誤差 (MSE) 関数が最も一般的に使用されます。 MSE は予測値と目標値の間の平均二乗誤差を計算します。

 # コスト関数  
 
 mse = tf.reduce_mean(tf.squared_difference(出力、Y))

しかし、MSE の特性は一般的な最適化問題では非常に有利です。

オプティマイザ

オプティマイザーは、トレーニング中にネットワークの重みとバイアス変数を適応させるために必要な計算を処理します。これらの計算には勾配計算が必要であり、ネットワークのコスト関数を最小限に抑えるためにトレーニング中に重みとバイアスをどの方向に変更する必要があるかを示します。安定した高速なオプティマイザーの開発は、ニューラルネットワークとディープラーニングの分野において常に重要な研究となっています。

 # オプティマイザー
 
 opt = tf.train.AdamOptimizer().minimize(mse)

上記では、ディープラーニングのデフォルトのオプティマイザーである Adam オプティマイザーを使用しています。 Adam は Adaptive Moment Estimation の略で、2 つの最適化ツール AdaGrad と RMSProp の組み合わせと考えることができます。

初期化子

初期化子は、トレーニング前にネットワークの変数を初期化するために使用されます。ニューラルネットワークは数値最適化手法を使用してトレーニングされるため、最適化問題の開始点は適切なソリューションを見つけることに焦点が当てられます。 TensorFlow にはさまざまな初期化子があり、それぞれ初期化方法が異なります。この投稿では、デフォルトの初期化戦略である tf.variance_scaling_initializer() を使用します。

 # 初期化子
 
シグマ = 
 
 weight_initializer = tf.variance_scaling_initializer(モード = "fan_avg" 、分布 = "uniform" 、スケール = sigma) 
 
バイアス初期化子 = tf.zeros_initializer()

TensorFlow 計算グラフでは、異なる変数に対して複数の初期化関数を定義できることに注意してください。ただし、ほとんどの場合、単一の統合された初期化関数で十分です。

ニューラルネットワークのフィッティング

ネットワークのプレースホルダー、変数、初期化子、コスト関数、およびオプティマイザーを定義したら、通常はミニバッチトレーニングを使用してモデルのトレーニングを開始できます。ミニバッチトレーニング中、n = batch_size のデータサンプルがトレーニングデータからランダムに抽出され、ネットワークに送られます。トレーニングデータセットは n/batch_size のバッチに分割され、順番にネットワークに供給されます。この時点で、プレースホルダー X と Y が機能します。これらは入力データとターゲットデータを格納し、ネットワーク内でそれぞれ入力とターゲットとして表されます。

X からのデータのバッチは、出力層に到達するまでネットワークを介して前方に流れます。出力層では、TensorFlow は現在のバッチのモデル予測と実際の観測ターゲット Y を比較します。次に、TensorFlow は最適化を実行し、選択された学習スキームを使用してネットワークのパラメータを更新します。重みとバイアスを更新した後、次のバッチがサンプリングされ、プロセスが繰り返されます。このプロセスは、すべてのバッチがネットワークに投入され、1 つのエポックが完了するまで継続されます。

トレーニングがエポックの最大値またはその他のユーザー定義の停止基準に達すると、ネットワークのトレーニングは停止します。

 # 初期化子を実行する
 
 net.run(tf.global_variables_initializer()) 
 
 
 
 # インタラクティブプロットを設定する
 
 plt.ion() 
 
図 = plt.figure() 
 
 ax1 = 図.add_subplot(111) 
 
ライン1、= ax1.plot(y_test) 
 
行2、= ax1.plot(y_test*0.5) 
 
 plt.show() 
 
 
 
 #エポック数とバッチサイズ  
 
エポック = 10 
 
 batch_size = 256、eの範囲(エポック): 
 
 
 
 # トレーニングデータをシャッフルする
 
 shuffle_indices = np.random.permutation(np.arange(len(y_train))) 
 
 X_train = X_train[シャッフルインデックス] 
 
 y_train = y_train[シャッフルインデックス] 
 
 
 
 # ミニバッチトレーニング
 
 iがrange(0, len(y_train) // batch_size)の場合: 
 
開始 = i * バッチサイズ
 
 batch_x = X_train[開始:開始 + batch_size] 
 
 batch_y = y_train[開始:開始 + batch_size] 
 
 #バッチでオプティマイザを実行する
 
 net.run(opt, feed_dict={X: batch_x, Y: batch_y}) 
 
 
 
 # 進捗状況を表示
 
 np.mod(i, 5) == 0の場合: 
 
 ＃ 予測
 
 pred = net.run(出力、 feed_dict={X: X_test}) 
 
 2行目.set_ydata(予測) 
 
 plt.title( 'エポック ' + str(e) + ', バッチ ' + str(i)) 
 
ファイル名 = 'img/epoch_' + str(e) + '_batch_' + str(i) + '.jpg'   
 
 plt.savefig(ファイル名) 
 
 plt.一時停止(0.01)

トレーニングプロセス中、5 回のトレーニングごとに 1 回、テストセット (ネットワークによって学習されていないデータ) に対するネットワークの予測能力を評価し、結果を表示しました。さらに、これらの画像はディスクにエクスポートされ、トレーニングプロセスのビデオアニメーションに結合されます。モデルはテストデータ内の時系列の位置と形状をすばやく学習し、数回のトレーニングの後に正確な予測を生成します。素晴らしい！

ご覧のとおり、ネットワークは時系列の基本的な形状に素早く適応し、データ内のより細かいパターンを学習し続けます。これは、最小値を見逃さないようにモデルトレーニング中に学習率を下げる Adam 学習スキームによるものです。 10 エポック後、テストデータが完全に適合しました。最良のテスト MSE は 0.00078 に等しく、ターゲットがスケーリングされているため非常に低い値です。テストセットの予測の平均パーセンテージ誤差は 5.31% であり、これは非常に良好な結果です。

S&P の予測価格と実際の価格の散布図 (拡大)

この結果をさらに最適化する方法は多数あることに注意してください。レイヤーとニューロンの設計、さまざまな初期化およびアクティベーションスキームの選択、ニューロンのドロップアウトレイヤーの導入、早期停止の適用などです。さらに、リカレントニューラルネットワークなどの他の異なるタイプのディープラーニングモデルでは、このタスクでより良い結果を達成できる可能性があります。しかし、これは私たちの議論の範囲を超えています。

結論と展望

TensorFlow のリリースは、ディープラーニング研究における画期的な出来事です。その高い柔軟性と強力なパフォーマンスにより、研究者はあらゆる種類の複雑なニューラルネットワークアーキテクチャやその他の機械学習アルゴリズムを開発できます。ただし、柔軟性の代償として、Keras や MxNet などの高レベル API を使用する場合と比べてモデリング時間が長くなります。それにもかかわらず、TensorFlow は進化を続け、ニューラルネットワークとディープラーニング開発の研究と実用化の両方において事実上の標準になると信じています。弊社のお客様の多くはすでに TensorFlow を使用しているか、TensorFlow モデルを適用するプロジェクトを開発しています。 STATWORX (https://www.statworx.com/de/data-science/) のデータサイエンスコンサルタントは、基本的に TensorFlow 研究コースを使用してディープラーニングとニューラルネットワークを開発しています。

Google の TensorFlow に関する今後の計画は何ですか?少なくとも私の意見では、TensorFlow には、TensorFlow バックエンドでニューラルネットワークアーキテクチャを設計および開発するための優れたグラフィカルユーザーインターフェイスが欠けています。おそらくこれが Google の将来の目標なのでしょう。

<<: ブラックボックス問題が依然としてディープラーニングの普及を妨げている

>>: 李開復：今後数年間、中国で最も収益性の高い仕事は何でしょうか？