DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニングフレームワークです。ローカルで処理する必要があるセンサーデータを取得し、クラウドにアップロードせずに、畳み込みニューラルネットワークやゲート型リカレントニューラルネットワークなどのディープラーニングモデルをこのデータに適用できます。

DeepSense は、モバイルデバイス上で実行され、モバイルセンサー (モーションセンサーなど) からのデータに基づいて回帰タスクと分類タスクを実行できるディープラーニングフレームワークです。分類タスクの例としては、異種人間活動認識 (HHAR) があります。これは、モーションセンサーの測定に基づいて、人が行っている可能性のある活動 (歩行、サイクリング、立っているなど) を検出するものです。もう 1 つの例は、歩き方からユーザーを識別する生体認証動作分析です。回帰タスクの例としては、加速度測定を使用して車の位置を追跡し、車が将来どこにあるかを推測することが挙げられます。

最先端のフレームワークと比較して、DeepSense は特に、車両追跡問題の場合よりもはるかに小さい追跡誤差を達成し、HHAR およびユーザー識別タスクの最先端のアルゴリズムを大幅に上回る推定値を提供します。

通常、ほとんどのモバイルアプリケーションはリモートクラウド処理に転送されますが、転送プロセスには時間遅延に対する要件が高く、センサーのサンプリング周波数が高い (加速度計、ジャイロスコープなど) とデータ転送のサポートが困難になるため、大規模なセンサータスクをローカルデバイスで実行することを優先します。したがって、2 種類のスマートデバイスで 3 つのタスクすべてに対して適度なエネルギー消費と低いオーバーヘッドでテストすることにより、モバイルデバイスに DeepSense を実装して展開する実現可能性を実証します。

ローカル処理は、多くの潜在的なアプリケーションでプライバシーを保護するための重要な要素でもあります。そのため、現在多くの研究者がこのタイプの端末デバイスでのディープラーニングに非常に興味を持っています。この記事の著者は、DeepSense の仕組みを深く理解しており、フレームワークのコアネットワーク設計の紹介に重点を置いています。評価の残りの詳細は、論文で簡単に見つけられるはずです。

単一センサーデータの処理

まず、単一のセンサーについて考えてみましょう (最終的には、複数のセンサーからのデータを組み合わせたアプリケーションを構築したいと考えています)。単一のセンサーで、x 軸、y 軸、z 軸に沿った動きを報告するモーションセンサーなどの多次元測定を提供できます。これら 3 つの次元のセンサー読み取り値は、一定の間隔 (つまり時系列) で収集され、次のように表現できます。

幅τの重複しないウィンドウでデータを処理します。ウィンドウの合計数は、時系列サンプル内のデータポイントの数を τ で割ることによって得られます。たとえば、5 秒間のモーションセンサーデータがあり、それを 0.25 秒のウィンドウに分割する場合、20 個のウィンドウが作成されます。

時系列データのパターンを見つけるには、時間次元よりも周波数次元の方が適しているため、次のステップでは、T ウィンドウ内の各小さなウィンドウをフーリエ変換して f 周波数成分に変換します。各周波数成分には、大きさと位相があります。各ウィンドウは dx 2f の順序の行列を取得します。

これで T が得られたので、すべてのデータを dx 2f x T の 3 次テンソルにパックできます。

すべての情報を 1 つのテンソルにうまくパッケージ化しておくと便利ですが、実際には t 次元でレイヤーごとに (一度に 1 つのウィンドウごとに) 処理することになります。各 dx 2f ウィンドウスライスは、次の図に示すように、3 つのステージを含む畳み込みニューラルネットワークコンポーネントを通過します。

まず、2D 畳み込みフィルターを使用して、ローカル周波数領域内の次元間の相互作用をキャプチャします。次に、出力は 1D 畳み込みフィルターのレイヤーを通過し、高レベルの関係をキャプチャします。 ***最初のフィルターレイヤーの出力は平坦化され、センサー特徴ベクトルが生成されます。

マルチセンサーデータの統合

アプリケーションで各 K センサーを使用するには、上記のプロセスに従います。これで、K 個のセンサー特徴ベクトルが得られ、これを K 行の行列にパックできるようになりました。

次に、センサー特徴マトリックスは、先ほど見たものと同じ構造を持つ 2 番目の畳み込みニューラルネットワークコンポーネントに渡されます。つまり、2D 畳み込みフィルターレイヤーの後に 2 つの 1D ベクトルレイヤーが続きます。 ***、最後のフィルターの出力を統合センサー特徴ベクトルに平坦化します。ウィンドウ幅 τ はこのベクトルの末尾に追加されます。

DeepSenses は、畳み込み層ごとに 64 個のフィルターを学習し、ReLU を活性化関数として使用します。さらに、内部共変量の変動を減らすために、各レイヤーでバッチ正規化が適用されます。

これで、時間ウィンドウに結合したセンサー特徴ベクトルが含まれるようになりました。そして、すべての T ウィンドウに対して上記のプロセスを繰り返す必要があります。

これで、T 個の結合されたセンサー特徴ベクトルが得られ、それぞれがウィンドウ内の相互作用を学習することになります。もちろん、時間ウィンドウ全体にわたるウィンドウ間の関係を学習することも重要です。これを行うには、T 個の特徴ベクトルが RNN に入力されます。この点については、問題を説明するための例の図を用意したと思います。

著者らは、RNN 層で LSTM の代わりに Gated Recurrent Units (GRU) を使用しました。

GRU は、よりシンプルな構造を持ちながら、さまざまなタスクで LSTM と同様のパフォーマンスを発揮し、モバイルアプリケーションのネットワークの複雑さを軽減します。

DeepSense は 2 層に積み重ねられた GRU 構造を使用します。この構造は、新しい時間ウィンドウが利用可能になったときに増分的に実行できるため、ストリーミングデータをより高速に処理できます。

すべてのデータを出力層に出力する

再帰層の出力は、一連の T ベクトル (時間ウィンドウごとに 1 つの T ベクトル) です。

回帰タスク（車の位置の予測など）の場合、出力層は、学習に使用される重みとバイアス項を共有するすべてのベクトルの上にある完全に接続された層であり、それによって学習が行われます。

分類タスクの場合、個々のベクトルは固定長の単一のベクトルに結合され、さらに処理されます。注意ネットワークによって学習された加重平均の同じトリックを使用することもできますが、この論文では、時間の経過に伴う平均を取る（ベクトルを累積して T で割る）ことで優れた結果を達成しています。最終的な特徴ベクトルはソフトマックス層に渡され、最終的なクラス予測スコアが生成されます。

現在のアプリケーションをカスタマイズする

DeepSense を特定のモバイルマッピングおよびコンピューティングタスクに適したシステムに磨き上げるには、次の手順に従います。

センサー入力の数 k を決定し、入力を dx 2f x T テンソルのセットに前処理します。
タスクの種類を決定し、適切な出力レイヤーを選択します。
オプションでカスタムコスト関数。回帰タスクのデフォルトのコスト関数は平均二乗誤差であり、分類タスクのデフォルトのコスト関数はクロスエントロピー誤差です。

評価におけるアクティビティ認識 (HHAR) およびユーザー識別タスクでは、デフォルトのコスト関数が使用されます。車の位置追跡タスクでは、負の対数尤度関数が使用されます（詳細についてはセクション4.2を参照）。

主な結果

ここでは、センサーフュージョンと eNav アルゴリズムと比較して、DeepSense が車両追跡タスクでどの程度正確であるかを示します。マップアシスト精度バーには、位置が地図上の最も近い道路セグメントにどれだけ正確にマッピングされているかが表示されます。

DeepSense は、HHAR タスクにおいて他の方法よりも 10% 優れたパフォーマンスを発揮します。

ユーザー識別タスクでは他の方法より 20% 優れたパフォーマンスを発揮します。

私たちは 3 つの代表的なモバイル測定タスクで DeepSense を評価しました。その結果、DeepSense は既存の最先端のベースラインよりも大幅に優れたパフォーマンスを発揮すると同時に、モバイルおよび組み込みプラットフォームでの適度なエネルギー消費と低レイテンシにより、モバイル展開の実現可能性を実証しました。

評価タスクはモーションセンサーに焦点を当てていましたが、この方法はマイク、ルーター、気圧計、光センサーなど、他の多くの種類のセンサーにも適用できます。

<<: Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

>>: 人工知能業界の給与が明らかに、転職の時期が来た