人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習できる。」 — スティーブ・ウォズニアック 明日の天気を予測する場合でも、将来の株価を予想する場合でも、好機を特定する場合でも、患者の病気発症リスクを推定する場合でも、一定期間にわたって行われた観察の集合である時系列データを解釈する場合があります。 ただし、時系列データを予測に使用するには、通常、複数のデータ前処理手順と複雑な機械学習アルゴリズムが必要です。専門家でない人にとって、これらのアルゴリズムの原理と使用シナリオを理解するのは簡単ではありません。 最近、MIT の研究者は、ユーザーが時系列データを処理し、既存の時系列データベースに予測機能を直接統合できるようにする強力なシステム ツール tspDB を開発しました。システムには多くの複雑なモデルが含まれており、専門家でなくても数秒以内に予測を行うことができます。新しいシステムは、将来の値を予測し、欠落しているデータポイントを埋めるという両方のタスクを実行する際に、最先端のディープラーニング手法よりも正確かつ効率的でした。この論文はACM SIGMETRICSカンファレンスで発表されました。 論文アドレス: http://proceedings.mlr.press/v133/agarwal21a/agarwal21a.pdf tspDB のパフォーマンスが向上した主な理由は、多変量時系列データを予測する場合に特に効果的な、新しい時系列予測アルゴリズムを使用していることです。多変量とは、気温、露点、雲量の現在の値がすべてそれぞれの過去の値に依存する気象データベースなど、複数の時間依存変数を持つデータを指します。 このアルゴリズムは、多変量時系列のボラティリティを推定し、モデル予測の精度に対する信頼性をユーザーに提供することもできます。 著者らは、時系列データがますます複雑になっても、このアルゴリズムが時系列構造を効果的に捉えることができることを示しています。 この記事の著者である Anish Agarwal 博士は、MIT を卒業しています。彼の主な研究対象は、因果推論と機械学習の相互作用、高次元統計、データ経済学などです。 2022年1月、カリフォルニア大学バークレー校サイモンズ研究所にポスドク研究員として着任。 時系列データを処理する正しいアプローチ現在の機械学習ワークフローの主なボトルネックは、データ処理に時間がかかり、エラーが発生しやすいことです。開発者は、まずデータ ストレージまたはデータベースからデータを取得し、次にトレーニングと予測のために機械学習アルゴリズムを適用する必要があります。このプロセスでは、データ処理に多くの手作業が必要です。 機械学習ではますます多くのデータを取り込む必要があり、管理が困難になっているため、この状況は現在ますます深刻になっています。特にリアルタイム予測の分野、特に金融やリアルタイム制御などのさまざまな時系列アプリケーションシナリオでは、データを適切に管理する必要があります。 データベース上で直接予測を行うことができれば、データを取得する手順を省くことができるのではないでしょうか。 ただし、データベース上のこの種の予測統合システムでは、データ エンジニアリングの繰り返しを防ぐために直感的な予測クエリ インターフェイスを提供するだけでなく、精度が sota に達すること、増分モデル更新をサポートすること、比較的短いトレーニング時間、および低い予測レイテンシを保証する必要もあります。 tspDB は PostgreSQL と直接統合されており、一般化線形モデル、ランダム フォレスト、ニューラル ネットワークなどの複数の機械学習アルゴリズムをネイティブにサポートしています。モデルのトレーニング時に、データベースでハイパーパラメータを調整することもできます。 他のデータベースとは異なり、tspDB の重要な出発点は、「エンド ユーザー」がシステムに接続して予測値を取得する方法です。 機械学習インターフェースをより普遍的なものにするために、tspDB は異なるアプローチを採用しています。つまり、機械学習モデルをユーザーから抽象化し、すべて SQL を使用する標準データベース クエリと予測クエリに応答するために単一のインターフェースのみを使用するよう努めています。 tspDB では、予測クエリは標準の SELECT クエリと同じ形式になります。予測クエリと通常のクエリの違いは、一方がモデル予測であり、もう一方が検索である点です。 例えば、データベースにデータが 100 件しかなく、101 日目の値を予測したい場合、PREDICT キーワード、WHERE day = 101 を使用できます。また、WHERE day = 10 のときは、10 日目の株価の推定値/ノイズ除去値が解析されるため、PREDICT を使用して欠損値を予測することもできます。 PREDICT クエリを実装するには、まず既存の多変量時系列データを使用して予測モデルを構築する必要があります。 CREATE キーワードを使用して tspDB で予測モデルを構築することができ、入力機能は複数のデータ列にすることもできます。 PostgreSQL DB と比較すると、tspDB で予測モデルを作成するのに必要な時間は、標準的な多変量時系列データセットに対する PostgreSQL バッチ挿入の時間の 0.58 倍から 1.52 倍になります。クエリのレイテンシに関して言えば、tspDB で PREDICT クエリに応答するのに必要な時間は、標準の PREDICT クエリに応答するのに必要な時間よりも 1.6 ~ 2.8 倍長く、標準の SELECT クエリに応答するのに必要な時間よりも 1.6 ~ 2.8 倍長くなります。 絶対的に言えば、SELECT クエリの応答に 1.32 ミリ秒、PREDICTION クエリの応答に 3.5 ミリ秒、INDUCT/PREDICTION クエリの応答に 3.36/3.45 ミリ秒かかります。 つまり、tspDB の計算性能は PostgreSQL からデータを挿入して読み取るのに必要な時間に近く、基本的にリアルタイム予測システムで使用できます。 tspDB は単なる概念実証であるため、PostgreSQL の拡張機能に相当します。ユーザーは、単一または複数の列の予測クエリを作成したり、時系列関係の単一または複数の列の予測クエリを作成したり、予測間隔の推定を提供したりできます。何よりも素晴らしいのは、コードがオープンソースであることです。 コードリンク: https://github.com/AbdullahO/tspdb また、この論文では、時系列アルゴリズムに基づく行列分解アルゴリズムを提案しています。多変量時系列データ Page Matrix を積み重ねた後、SVD アルゴリズムを使用して分解し、サブ行列の最後の列を予測値として削除し、線形回帰を使用してターゲット値を予測します。 時系列データが継続的に流入する場合、アルゴリズムは増分モデル更新もサポートします。 アルゴリズムのパフォーマンスをテストするために、研究者は電力、交通、金融を含む 3 つの現実世界のデータセットを選択しました。正規化二乗平均平方根誤差 (NRMSE) が精度評価指標として使用されます。さまざまな方法の統計的精度を定量化するために、研究者らは標準的なボルダカウント (WBC) のバリエーションも評価基準として追加しました。値が 0.5 の場合、アルゴリズムのパフォーマンスは他のアルゴリズムと比較して平均的であることを意味し、値が 1 の場合、アルゴリズムが他のアルゴリズムよりも絶対的に優れていることを意味し、値が 0 の場合、アルゴリズムが絶対的に劣っていることを意味します。 tspDB の予測性能を、LSTM、DeepAR、TRMF、Prophet など、学界や産業界で最も人気のある時系列ライブラリと比較すると、tspDB の性能はディープラーニング アルゴリズム (DeepAR および LSTM) の性能と同等であり、TRMF および Prophet の性能を上回っていることがわかります。 欠損値の割合と追加されるノイズの量を変えた場合、tspDB は 50% の実験で最もパフォーマンスの高い方法であり、80% の実験では少なくとも 2 番目に優れた方法でした。 WBC および NRMSE メトリックを使用すると、tspDB は電力および金融データセット内の他のすべてのアルゴリズムよりも優れており、交通データセットでは DeepAR および LSTM に匹敵します。 分散推定に関しては、現実世界のデータにおける真の根本的な時間変動分散を取得することはできないため、研究者は分析を合成データに限定しました。合成データセット II には、時系列ダイナミクスとさまざまなノイズ観測モデル (ガウス、ポアソン、ベルヌーイ ノイズ) の異なる加法的な組み合わせを持つ 9 セットの多変量時系列が含まれています。 実験結果から、1 つを除くすべての実験において、tspDB は TRMF および DeepAR (予測用) よりも高いパフォーマンス (> 98%) を示していることがわかります。 全体として、これらの実験は、時系列の平均と分散を推定する際にノイズの影響を部分的に排除できる tspDB の堅牢性を示しています。 |
<<: ドライバー疲労モニタリングシステムの開発動向に関する簡単な分析
>>: 清華大学の劉志遠氏:「ビッグモデルに関する10の質問」、新しいパラダイムの下での研究の方向性を見つける
金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...
[[379190]]スタックの本質は、特殊なデータ構造です。その特殊な構造は、データのエントリと終了...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2017年10月、ケンブリッジ・アナリティカのスキャンダルが発覚した直後、FacebookはIns...
[[227618]]人工知能がどのレベルに到達したかという質問に答える前に、まず人工知能の概念が何で...
先ほど、負荷分散を完了するための最初のステップである Linux LVS インストール プロセスを紹...
[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...
[[251877]]計算の観点から見ると、ビッグデータ分析のトレンドは流れ星のように消えることはあ...
画像を生成するための大規模なモデルがコンピュータービジョンやグラフィックスの基礎となっている一方で、...
生体認証技術である顔認証は、非接触、非強制、同時性などの特徴から、ますます広く利用され、人々の生活の...
海外メディアの報道によると、マイクロソフトは2月26日、生成AIシステムのリスクを積極的に特定するた...
[51CTO.comよりオリジナル記事] 近年、都市化の急速な発展に伴い、中国の都市の街灯の数はます...
[[443041]]今年ももうすぐ終わり、あと3日で2021年も終わりです。さまざまなAI分野でも...
OpenAI の無敵という神話は崩れ去った。 Claude 3 (中国語対応)が一夜にして発売され...