DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニング フレームワークです。ローカルで処理する必要があるセンサー データを取得し、クラウドにアップロードせずに、畳み込みニューラル ネットワークやゲート型リカレント ニューラル ネットワークなどのディープラーニング モデルをこのデータに適用できます。

DeepSense は、モバイル デバイス上で実行され、モバイル センサー (モーション センサーなど) からのデータに基づいて回帰タスクと分類タスクを実行できるディープラーニング フレームワークです。分類タスクの例としては、異種人間活動認識 (HHAR) があります。これは、モーション センサーの測定に基づいて、人が行っている可能性のある活動 (歩行、サイクリング、立っているなど) を検出するものです。もう 1 つの例は、歩き方からユーザーを識別する生体認証動作分析です。回帰タスクの例としては、加速度測定を使用して車の位置を追跡し、車が将来どこにあるかを推測することが挙げられます。

最先端のフレームワークと比較して、DeepSense は特に、車両追跡問題の場合よりもはるかに小さい追跡誤差を達成し、HHAR およびユーザー識別タスクの最先端のアルゴリズムを大幅に上回る推定値を提供します。

通常、ほとんどのモバイル アプリケーションはリモート クラウド処理に転送されますが、転送プロセスには時間遅延に対する要件が高く、センサーのサンプリング周波数が高い (加速度計、ジャイロスコープなど) とデータ転送のサポートが困難になるため、大規模なセンサー タスクをローカル デバイスで実行することを優先します。したがって、2 種類のスマート デバイスで 3 つのタスクすべてに対して適度なエネルギー消費と低いオーバーヘッドでテストすることにより、モバイル デバイスに DeepSense を実装して展開する実現可能性を実証します。

ローカル処理は、多くの潜在的なアプリケーションでプライバシーを保護するための重要な要素でもあります。そのため、現在多くの研究者がこのタイプの端末デバイスでのディープラーニングに非常に興味を持っています。この記事の著者は、DeepSense の仕組みを深く理解しており、フレームワークのコア ネットワーク設計の紹介に重点を置いています。評価の残りの詳細は、論文で簡単に見つけられるはずです。

単一センサーデータの処理

まず、単一のセンサーについて考えてみましょう (最終的には、複数のセンサーからのデータを組み合わせたアプリケーションを構築したいと考えています)。単一のセンサーで、x 軸、y 軸、z 軸に沿った動きを報告するモーション センサーなどの多次元測定を提供できます。これら 3 つの次元のセンサー読み取り値は、一定の間隔 (つまり時系列) で収集され、次のように表現できます。

幅τの重複しないウィンドウでデータを処理します。ウィンドウの合計数は、時系列サンプル内のデータ ポイントの数を τ で割ることによって得られます。たとえば、5 秒間のモーション センサー データがあり、それを 0.25 秒のウィンドウに分割する場合、20 個のウィンドウが作成されます。

時系列データのパターンを見つけるには、時間次元よりも周波数次元の方が適しているため、次のステップでは、T ウィンドウ内の各小さなウィンドウをフーリエ変換して f 周波数成分に変換します。各周波数成分には、大きさと位相があります。各ウィンドウは dx 2f の順序の行列を取得します。

これで T が得られたので、すべてのデータを dx 2f x T の 3 次テンソルにパックできます。

すべての情報を 1 つのテンソルにうまくパッケージ化しておくと便利ですが、実際には t 次元でレイヤーごとに (一度に 1 つのウィンドウごとに) 処理することになります。各 dx 2f ウィンドウ スライスは、次の図に示すように、3 つのステージを含む畳み込みニューラル ネットワーク コンポーネントを通過します。

まず、2D 畳み込みフィルターを使用して、ローカル周波数領域内の次元間の相互作用をキャプチャします。次に、出力は 1D 畳み込みフィルターのレイヤーを通過し、高レベルの関係をキャプチャします。 ***最初のフィルター レイヤーの出力は平坦化され、センサー特徴ベクトルが生成されます。

マルチセンサーデータの統合

アプリケーションで各 K センサーを使用するには、上記のプロセスに従います。これで、K 個のセンサー特徴ベクトルが得られ、これを K 行の行列にパックできるようになりました。

次に、センサー特徴マトリックスは、先ほど見たものと同じ構造を持つ 2 番目の畳み込みニューラル ネットワーク コンポーネントに渡されます。つまり、2D 畳み込みフィルター レイヤーの後に 2 つの 1D ベクトル レイヤーが続きます。 ***、最後のフィルターの出力を統合センサー特徴ベクトルに平坦化します。ウィンドウ幅 τ はこのベクトルの末尾に追加されます。

DeepSenses は、畳み込み層ごとに 64 個のフィルターを学習し、ReLU を活性化関数として使用します。さらに、内部共変量の変動を減らすために、各レイヤーでバッチ正規化が適用されます。

これで、時間ウィンドウに結合したセンサー特徴ベクトルが含まれるようになりました。そして、すべての T ウィンドウに対して上記のプロセスを繰り返す必要があります。

これで、T 個の結合されたセンサー特徴ベクトルが得られ、それぞれがウィンドウ内の相互作用を学習することになります。もちろん、時間ウィンドウ全体にわたるウィンドウ間の関係を学習することも重要です。これを行うには、T 個の特徴ベクトルが RNN に入力されます。この点については、問題を説明するための例の図を用意したと思います。

著者らは、RNN 層で LSTM の代わりに Gated Recurrent Units (GRU) を使用しました。

GRU は、よりシンプルな構造を持ちながら、さまざまなタスクで LSTM と同様のパフォーマンスを発揮し、モバイル アプリケーションのネットワークの複雑さを軽減します。

DeepSense は 2 層に積み重ねられた GRU 構造を使用します。この構造は、新しい時間ウィンドウが利用可能になったときに増分的に実行できるため、ストリーミング データをより高速に処理できます。

すべてのデータを出力層に出力する

再帰層の出力は、一連の T ベクトル (時間ウィンドウごとに 1 つの T ベクトル) です。

回帰タスク(車の位置の予測など)の場合、出力層は、学習に使用される重みとバイアス項を共有するすべてのベクトルの上にある完全に接続された層であり、それによって学習が行われます。

分類タスクの場合、個々のベクトルは固定長の単一​​のベクトルに結合され、さらに処理されます。注意ネットワークによって学習された加重平均の同じトリックを使用することもできますが、この論文では、時間の経過に伴う平均を取る(ベクトルを累積して T で割る)ことで優れた結果を達成しています。最終的な特徴ベクトルはソフトマックス層に渡され、最終的なクラス予測スコアが生成されます。

現在のアプリケーションをカスタマイズする

DeepSense を特定のモバイル マッピングおよびコンピューティング タスクに適したシステムに磨き上げるには、次の手順に従います。

  • センサー入力の数 k を決定し、入力を dx 2f x T テンソルのセットに前処理します。
  • タスクの種類を決定し、適切な出力レイヤーを選択します。
  • オプションでカスタム コスト関数。回帰タスクのデフォルトのコスト関数は平均二乗誤差であり、分類タスクのデフォルトのコスト関数はクロスエントロピー誤差です。

評価におけるアクティビティ認識 (HHAR) およびユーザー識別タスクでは、デフォルトのコスト関数が使用されます。車の位置追跡タスクでは、負の対数尤度関数が使用されます(詳細についてはセクション4.2を参照)。

主な結果

ここでは、センサー フュージョンと eNav アルゴリズムと比較して、DeepSense が車両追跡タスクでどの程度正確であるかを示します。マップアシスト精度バーには、位置が地図上の最も近い道路セグメントにどれだけ正確にマッピングされているかが表示されます。

DeepSense は、HHAR タスクにおいて他の方法よりも 10% 優れたパフォーマンスを発揮します。

ユーザー識別タスクでは他の方法より 20% 優れたパフォーマンスを発揮します。

私たちは 3 つの代表的なモバイル測定タスクで DeepSense を評価しました。その結果、DeepSense は既存の最先端のベースラインよりも大幅に優れたパフォーマンスを発揮すると同時に、モバイルおよび組み込みプラットフォームでの適度なエネルギー消費と低レイテンシにより、モバイル展開の実現可能性を実証しました。

評価タスクはモーションセンサーに焦点を当てていましたが、この方法はマイク、ルーター、気圧計、光センサーなど、他の多くの種類のセンサーにも適用できます。

<<:  Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

>>:  人工知能業界の給与が明らかに、転職の時期が来た

ブログ    
ブログ    

推薦する

AIに感情を与えることは本当に重要なのでしょうか?

「合成感情」は人工知能の発展を妨げるのか?私たちは他の人とコミュニケーションをとるとき、通常は直接...

目を覚ませ、自動運転車は皇帝の新しい服に過ぎない

高速で運転していて、車がブレーキをかけられないとします。目の前の片側には段ボール箱が山積みになってい...

人工知能を軸に:現代の情報管理の力を解き放つ

情報の海の中で、価値ある洞察を見つけることが重要です。最新の情報管理は、高度なテクノロジーと革新的な...

マイクロソフトは低コストのAIモデルを見つけるために多方面に賭けている

マイクロソフトはOpenAI LPの半分以下を所有していると言われているが、それでもパワーは劣るがよ...

...

...

ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

01 データサイエンスとは何ですか? データサイエンスは何をするのですか?まずはデータサイエンスの分...

将来、ロボットが私たちを支配するようになるのでしょうか?

[[431476]] 「ターミネーター」のように、観た後に私に大きな影響を与える映画はほとんどあり...

新たな美容問題:彼女がAIではないことをどうやって証明するか

私の家族の皆さん、人間として生きることが昨今こんなにも困難になっているとは誰が想像したでしょうか?最...

「人工バカ」、いつまで我慢できるの?

[[251715]]毎年、メディアでは AI の失敗に関する報道が見られます。なぜこのようなばかげ...

自動運転がまだ人間から解放されていないとき

「不適切なタイミングで車線変更をすることがよくあるのですが、状況を救うためにハンドルを切ろうとすると...

AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」

機械が人間のようにコンピューターを使用できる場合、機械は私たちが日常のタスクを完了するのを手助けする...

DL時代のコード補完ツールは言語モデルよりもはるかに効果的である

プログラマーからデータ エンジニアまで、プログラム コードを書くことは基本的なスキルですが、長いコー...

...

10000000000!マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

Microsoft Research Asia の最新の調査は少々衝撃的だ。彼らは、実際にトークンを...