機械学習を使って株価を予測する非常に簡単な方法

機械学習を使って株価を予測する非常に簡単な方法

[[336572]]

この記事では、H2o.ai フレームワークを使用した機械学習を使用して R 言語で株価を予測する手順を段階的に説明しました。 このフレームワークは Python でも使用できますが、私は R に慣れているため、このチュートリアルでは R 言語を使用します。 「人工知能を使って株価を予測するにはどうしたらいいのだろう?」と疑問に思ったことがあるかもしれません。その手順は次のとおりです。

  • 情報を収集する
  • データのインポート
  • データのクリーニングと処理
  • テストとトレーニングの観察を分ける
  • モデルを選択
  • モデルのトレーニング
  • モデルをテストデータに適用する
  • 評価結果
  • 必要に応じてモデルを強化する
  • 結果に満足するまで、手順 5 から 10 を繰り返します。

前回の記事では、Plotly ライブラリを使用して高頻度データをプロットする方法を示し、分析のためにデータを収集する方法を説明しました。 リストのステップ 3 に直接進みましょう。ステップ 1 と 2 の実行方法を知りたい場合は、前の出版物を参照してください。

私たちの研究の質問は、「今後 1 時間の資産の終値はいくらになるか」です。

データクリーニング

MetaTrader を使用して予測する資産のデータをインポートした後、いくつかの変数を変更する必要があります。 まず、変数の名前を定義します。

  1. #名前の設定 変数
  2.  
  3. col_names <- c( "日付" "始値" "高値" "安値" "終値" "ティック" "出来高" )
  4.  
  5. colnames(データ) <- col_nameshead(データ)

データは次の形式になります:

> データ — 著者による画像

利用可能な変数のうち、始値、高値、安値、終値、およびボリュームのみを使用します。 このようにして、他者を排除します。

  1. data$日付<- NULL  
  2.  
  3. データ$ティック <- NULL  

次の観測値の終値を知りたいので、次の値を1行上に移動する必要があります。 これを行うには、関数を作成し、元のデータセットに新しいデータを含む変数を作成します。

  1. # 指定された変数nを上にシフトするshift <- function (x, n) { c(x[-(seq(n))], rep(NA, n))}data$shifted <- shift(data$ Close , 1)tail(data)

> データ — 著者による画像

上記の最初の行で変数 Close の値を割り当てたことに注意してください。 この方法では、最後の行に NA があり、na.omit() 関数を使用してその行を省略します。

  1. #NA 観測データを削除 <- na.omit(data)write.csv(data, "data.csv" )

完璧です。モデリングを開始するためのデータが準備できました。

データの分割

この問題では、人工知能モデルを分析およびトレーニングするための完全なソリューションを提供する H2O.ai というソフトウェア パッケージを使用します。 ユーザーフレンドリーな構造により、データサイエンスの知識がない人でも複雑な問題を解決できます。 まずライブラリを環境にロードしましょう:

  1. #パッケージのインストールinstall.packages( "h2o" )#ライブラリの読み込み library(h2o)

インストールしてロードしたら、モデルを構築するための基盤として使用される仮想マシンを起動します。 仮想マシンを起動するときに、必要なコア数とメモリ パラメータを設定する必要があります。

  1. #すべてのスレッド (-1)16 GBメモリを使用して仮想マシンを初期化しますh2o.init(nthreads = -1, max_mem_size = "16g" )

データをインポート:

  1. h2o.importFile( "data.csv" )h2o.describe(データ)

> データを水に変える — 著者による画像

ここで、データセット内で予測する変数と、モデルを「教える」ために使用される変数を定義します。

  1. y <- "shifted" #予測たい変数x <- setdiff(names(data), y)

次に、トレーニング データの 80% の比率でデータをトレーニングとテストに分割します。

  1. パーツ <- h2o.splitFrame(データ、.80) トレーニング <- パーツ[[1]] テスト <- パーツ[[2]]

データをセグメント化した後、H2O.ai パッケージの驚くべき部分に進みます。

モデルを選択

すべてのデータ サイエンティストが機械学習プロジェクトを作成するときに実行する必要があるタスクの 1 つは、予測を行うための最適なモデルまたはモデル セットを決定することです。 特定のタスクに最適なものを選択するには、多くの知識、特に数学の確固たる基礎が必要です。

H2O.ai パッケージを使用すると、他の懸念事項にも対処しながら、最適なモデルを選択するように要求できます。 これを自動モデリングと呼びます。 明らかに、この種の魔法は問題を解決する最も効率的な方法ではないかもしれませんが、良いスタートです。

モデルのトレーニング

モデルを作成するには、automl 関数を呼び出して、次のように必要なパラメータを渡します。

  1. オートモデル <- h2o.automl(x, y, トレーニング, テスト, max_runtime_secs=120)

数分後には、パフォーマンス別に分類されたモデルのリストが表示されます。 詳細については、下記までお電話ください。

オートモデル@リーダー

> モデルの説明 — 著者による画像

アプリケーションモデル

リーダーができたので、それをテスト データに適用してみましょう。モデルがまだ観測していないデータを使用してパフォーマンスを評価するので、ここが面白いところです。

モデルとテスト データを引数として、予測関数を呼び出します。

  1. 予測 <- h2o.predict(automodel@leader, test)

結論は

この記事では、資産の財務データを処理および操作し、データを分析してから 1 時間以内に終値を予測する機械学習モデルを簡単に作成する方法を説明しました。

モデルの評価と最適化については次の記事で説明します。

ではまた来週!

<<:  AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

>>:  スマートワーク: AI がリモートワークをどう変えるのか

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

VRシルキーパノラマはもうすぐそこ? Googleの360°NeRFは人々に未来を垣間見せる

少し前に、CVPR 2022 が今年の論文採択結果を発表しましたが、これは提出された論文がようやく沈...

基準に問題があり、人工知能は間違った方向に向かっている

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

自動運転車を巡る最大の論争の一つは、それが保険業界にどのような影響を与えるかということだ。

自動運転車は新しい概念ではありません。ほぼすべての大手自動車メーカーが何らかの形の自動運転車を開発し...

AIと自動化によるセキュリティの向上

2020年に突如発生した新型コロナウイルス感染症のパンデミックにより多くの従業員が自宅待機を余儀なく...

...

なぜ人工知能が将来主流になるのか、これを読めば分かる

人工知能と自動化は将来のトレンドではないでしょうか?機械に人体の複雑な筋肉や動作を認識させる方法を考...

マイクロソフトの新特許公開:機械学習で「赤面」するリアルなアバターを作成

11月16日、現地時間の火曜日、米国特許商標庁のウェブサイトでマイクロソフトの新しい特許が公開された...

データマイニング: 機械学習手法に基づく POI カテゴリ推奨アルゴリズム

序文Meituan マーチャント データ センター (MDC) には、調整および監査済みの POI ...

日本の女性型ロボットは人気があります。本物の人間のようで、「生殖」の機能も持っています。

さまざまなスマート電子製品の普及により、ほとんどの人が知能についてある程度理解するようになりました。...

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...

天才少年・志慧君が志遠ロボットとともに会場に入場!脳としてAIモデル、目標価格は20万以下

Huaweiの才能あふれる若者Zhihuiの起業家デビューがついに登場!観衆の注目が集まる中、「Ex...

APPは顔認識を強制しますか?アカウントをキャンセルできませんか?国は行動を起こしている

現在、インターネット上では個人のプライバシー情報の漏洩が頻繁に発生しています。アプリは多くの場合、ユ...

ガートナー:2025年までにデータセンターの半数がAI対応ロボットを導入

ガートナーは11月11日、2025年までにデータセンターの半数が人工知能と機械学習機能を備えた高度な...

陳丹奇チームの新作:5%のコストでSOTAを達成、「アルパカの毛刈り」法が人気

わずか3% の計算労力と5% のコストで SOTA を達成し、1B-3B 規模の大規模オープンソース...

自動運転の安全上のリスクはどこから来るのでしょうか?

最近、当社の自動運転デビューがニュースで取り上げられており、ADS はついに謎の組織ではなくなりまし...