時間畳み込みネットワーク: 時系列の次の革命?

時間畳み込みネットワーク: 時系列の次の革命?

この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。

まず、動き検出のケーススタディを紹介し、TCN アーキテクチャと、畳み込みニューラル ネットワーク (CNN) や再帰型ニューラル ネットワーク (RNN) などの従来の方法と比較したその利点について簡単に説明します。次に、改善された交通予測、サウンドイベントの位置特定と検出、確率予測など、TCN のいくつかの新しいアプリケーションが紹介されます。

TCNの簡単なレビュー

Lea らによる先駆的な研究(2016) は、ビデオベースのアクションセグメンテーションのための時間畳み込みネットワーク (TCN) を初めて提案しました。この一般的なプロセスの 2 つのステップでは、まず、時空間情報をエンコードする (通常は) CNN を使用して低レベルの特徴を計算し、次に、これらの低レベルの特徴を、(通常は RNN を使用して) 高レベルの時間情報を取得する分類器に入力します。このアプローチの主な欠点は、2 つの別個のモデルが必要になることです。 TCN は、2 つの情報レベルすべてを階層的にキャプチャするための統一されたアプローチを提供します。

エンコーダー/デコーダー フレームワークを図 1 に示します。アーキテクチャの詳細については、最初の 2 つの参考文献 (記事の最後にあります) を参照してください。最も重要な問題は、TCN が任意の長さのシーケンスを受け取り、それを同じ長さで出力できることです。 1D 完全畳み込みネットワーク アーキテクチャを使用する場合は、因果畳み込みが使用されます。重要な特徴は、時刻 t の出力が t より前に発生した要素のみと畳み込まれることです。

Yan らによる最近の研究成果の発表により、TCN をめぐる話題は Nature 誌にも掲載されました。 (2020) TCNの天気予報タスク。彼らの研究では、TCN と LSTM を使用した比較実験が行われました。彼らの結果の 1 つは、他の方法の中でも、TCN が時系列データを使用した予測タスクで優れたパフォーマンスを発揮したというものでした。

次のセクションでは、この古典的な TCN の実装と拡張について説明します。

交通予測の改善

ライドシェアリングやオンラインナビゲーションサービスは、交通予測を改善し、人々の移動方法を変えることができます。交通予測の精度が向上すると、交通渋滞の減少、汚染の低減、運転の安全性と速度の向上などにつながります。これはリアルタイムのデータ駆動型の問題であるため、今後の交通の蓄積されたデータを活用する必要があります。これに基づいて、Dai et al. (2020) は最近、ハイブリッド時空間グラフ畳み込みネットワーク (H-STGCN) を提案しました。基本的な考え方は、セグメント化されたライニングの流量と密度の関係を利用し、対向車の交通量を同等の移動時間に変換することです。この研究で使用された最も興味深い方法の 1 つは、空間依存性を捉えるグラフ畳み込みです。複合隣接行列は、フロー近似の固有の特性を捉えます (詳細については、Li、2017 を参照してください)。次のアーキテクチャでは、予測プロセス全体を記述するために 4 つのモジュールが提案されています。

ダイら(2020)

音響イベントの位置特定と検出

音響イベントの位置特定と検出 (SELD) の分野は継続的に成長しています。環境の理解は自律航行において重要な役割を果たします。 Guirguisら(2020)は最近、サウンドイベントSELD-TCNの新しいアーキテクチャを提案しました。彼らは、彼らのフレームワークが現場トレーニングにおける現在の最先端技術よりも優れていると主張しています。 SELDnet (構造は下記) では、44.1 kHz でサンプリングされたマルチチャンネルのオーディオ録音に短時間フーリエ変換を適用してスペクトルの位相と振幅を抽出し、個別の入力機能としてスタックします。次に、畳み込みブロックと再帰ブロック (双方向 GRU) が接続され、その後に完全接続ブロックが続きます。 SELDnet の出力は、サウンド イベント検出 (SED) と到着方向 (DOA) です。

ギルギスら(2020)

それを上回るために、彼らはSELD-TCNを提案しました。

ギルギスら(2020)

拡張畳み込みにより、ネットワークはさまざまな入力を処理できるようになるため、より深いネットワークが必要になる場合があります (ネットワークはバックプロパゲーション中に不安定な勾配の影響を受けます)。彼らは、WaveNet (Dario et al., 2017) アーキテクチャを採用することでこの課題を克服しました。彼らは、SELD タスクには再帰層は必要なく、アクティブなサウンド イベントの開始時間と終了時間を正常に検出できることを示しました。

確率予測

Chen et al. (2020) によって設計された新しいフレームワークを使用して、確率密度を推定できます。時系列予測は、多くのビジネス上の意思決定シナリオ (リソース管理など) を改善します。確率予測は、履歴データから情報を抽出し、将来の出来事に関する不確実性を最小限に抑えることができます。予測タスクが数百万の関連データ シリーズを予測することである場合 (小売業など)、パラメーター推定に多大な労力とコンピューティング リソースが必要になります。これらの困難に対処するために、彼らは CNN ベースの密度推定および予測フレームワークを提案しました。彼らのフレームワークは、系列間の潜在的な相関関係を学習することができます。彼らの研究の斬新さは、彼らのアーキテクチャに示されているように、彼らが提案したディープ TCN にあります。

チェンら(2020)

エンコーダー/デコーダー モジュール ソリューションは、実用的な大規模アプリケーションの設計に役立つ可能性があります。

<<:  GitHub で 2.3k スターを獲得した ML 論文のリストを入手し、自分の仕事に活用しましょう。

>>:  絶賛されていたGPT-3が充電開始します!ネットユーザー:値段が高す​​ぎる。もう行っちゃった。

ブログ    

推薦する

...

...

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...

...

Keras を使用して、30 行未満のコードで最初のニューラル ネットワークを記述します。

[51CTO.com クイック翻訳] 私が初めて AI に触れたときのことを振り返ると、いくつかの...

このレビューでは、5年間にわたる89の研究を数え、ディープラーニングにおけるコードデータ拡張がどのように進んでいるかを示しています。

今日のディープラーニングと大規模モデルの急速な発展により、革新的なテクノロジーの絶え間ない追求がもた...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...

...

...

スマート交通技術が再び都市開発を推進する方法

都市はバスに大金を賭けている。パンデミックが沈静化し、アメリカ人が仕事に復帰するにつれ、全国の都市や...

ポストエピデミック時代:医療業界で成功するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

ChatGPTでPPTを書く別の方法

以前、GPT + mindshow 自動 PPT の操作プロセスを紹介しました。主な手順は、まず G...

...

ChatGPT のセキュリティ制限が「謎のコード」によって侵害されました!人類を滅ぼすための手順が口から出され、アルパカとクロードも逃れられない

大型模型の「堀」が再び破られた。謎のコードを入力することで、ビッグモデルは有害なコンテンツを生成する...