DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニング フレームワークです。ローカルで処理する必要があるセンサー データを取得し、クラウドにアップロードせずに、畳み込みニューラル ネットワークやゲート型リカレント ニューラル ネットワークなどのディープラーニング モデルをこのデータに適用できます。

DeepSense は、モバイル デバイス上で実行され、モバイル センサー (モーション センサーなど) からのデータに基づいて回帰タスクと分類タスクを実行できるディープラーニング フレームワークです。分類タスクの例としては、異種人間活動認識 (HHAR) があります。これは、モーション センサーの測定に基づいて、人が行っている可能性のある活動 (歩行、サイクリング、立っているなど) を検出するものです。もう 1 つの例は、歩き方からユーザーを識別する生体認証動作分析です。回帰タスクの例としては、加速度測定を使用して車の位置を追跡し、車が将来どこにあるかを推測することが挙げられます。

最先端のフレームワークと比較して、DeepSense は特に、車両追跡問題の場合よりもはるかに小さい追跡誤差を達成し、HHAR およびユーザー識別タスクの最先端のアルゴリズムを大幅に上回る推定値を提供します。

通常、ほとんどのモバイル アプリケーションはリモート クラウド処理に転送されますが、転送プロセスには時間遅延に対する要件が高く、センサーのサンプリング周波数が高い (加速度計、ジャイロスコープなど) とデータ転送のサポートが困難になるため、大規模なセンサー タスクをローカル デバイスで実行することを優先します。したがって、2 種類のスマート デバイスで 3 つのタスクすべてに対して適度なエネルギー消費と低いオーバーヘッドでテストすることにより、モバイル デバイスに DeepSense を実装して展開する実現可能性を実証します。

ローカル処理は、多くの潜在的なアプリケーションでプライバシーを保護するための重要な要素でもあります。そのため、現在多くの研究者がこのタイプの端末デバイスでのディープラーニングに非常に興味を持っています。この記事の著者は、DeepSense の仕組みを深く理解しており、フレームワークのコア ネットワーク設計の紹介に重点を置いています。評価の残りの詳細は、論文で簡単に見つけられるはずです。

単一センサーデータの処理

まず、単一のセンサーについて考えてみましょう (最終的には、複数のセンサーからのデータを組み合わせたアプリケーションを構築したいと考えています)。単一のセンサーで、x 軸、y 軸、z 軸に沿った動きを報告するモーション センサーなどの多次元測定を提供できます。これら 3 つの次元のセンサー読み取り値は、一定の間隔 (つまり時系列) で収集され、次のように表現できます。

幅τの重複しないウィンドウでデータを処理します。ウィンドウの合計数は、時系列サンプル内のデータ ポイントの数を τ で割ることによって得られます。たとえば、5 秒間のモーション センサー データがあり、それを 0.25 秒のウィンドウに分割する場合、20 個のウィンドウが作成されます。

時系列データのパターンを見つけるには、時間次元よりも周波数次元の方が適しているため、次のステップでは、T ウィンドウ内の各小さなウィンドウをフーリエ変換して f 周波数成分に変換します。各周波数成分には、大きさと位相があります。各ウィンドウは dx 2f の順序の行列を取得します。

これで T が得られたので、すべてのデータを dx 2f x T の 3 次テンソルにパックできます。

すべての情報を 1 つのテンソルにうまくパッケージ化しておくと便利ですが、実際には t 次元でレイヤーごとに (一度に 1 つのウィンドウごとに) 処理することになります。各 dx 2f ウィンドウ スライスは、次の図に示すように、3 つのステージを含む畳み込みニューラル ネットワーク コンポーネントを通過します。

まず、2D 畳み込みフィルターを使用して、ローカル周波数領域内の次元間の相互作用をキャプチャします。次に、出力は 1D 畳み込みフィルターのレイヤーを通過し、高レベルの関係をキャプチャします。 ***最初のフィルター レイヤーの出力は平坦化され、センサー特徴ベクトルが生成されます。

マルチセンサーデータの統合

アプリケーションで各 K センサーを使用するには、上記のプロセスに従います。これで、K 個のセンサー特徴ベクトルが得られ、これを K 行の行列にパックできるようになりました。

次に、センサー特徴マトリックスは、先ほど見たものと同じ構造を持つ 2 番目の畳み込みニューラル ネットワーク コンポーネントに渡されます。つまり、2D 畳み込みフィルター レイヤーの後に 2 つの 1D ベクトル レイヤーが続きます。 ***、最後のフィルターの出力を統合センサー特徴ベクトルに平坦化します。ウィンドウ幅 τ はこのベクトルの末尾に追加されます。

DeepSenses は、畳み込み層ごとに 64 個のフィルターを学習し、ReLU を活性化関数として使用します。さらに、内部共変量の変動を減らすために、各レイヤーでバッチ正規化が適用されます。

これで、時間ウィンドウに結合したセンサー特徴ベクトルが含まれるようになりました。そして、すべての T ウィンドウに対して上記のプロセスを繰り返す必要があります。

これで、T 個の結合されたセンサー特徴ベクトルが得られ、それぞれがウィンドウ内の相互作用を学習することになります。もちろん、時間ウィンドウ全体にわたるウィンドウ間の関係を学習することも重要です。これを行うには、T 個の特徴ベクトルが RNN に入力されます。この点については、問題を説明するための例の図を用意したと思います。

著者らは、RNN 層で LSTM の代わりに Gated Recurrent Units (GRU) を使用しました。

GRU は、よりシンプルな構造を持ちながら、さまざまなタスクで LSTM と同様のパフォーマンスを発揮し、モバイル アプリケーションのネットワークの複雑さを軽減します。

DeepSense は 2 層に積み重ねられた GRU 構造を使用します。この構造は、新しい時間ウィンドウが利用可能になったときに増分的に実行できるため、ストリーミング データをより高速に処理できます。

すべてのデータを出力層に出力する

再帰層の出力は、一連の T ベクトル (時間ウィンドウごとに 1 つの T ベクトル) です。

回帰タスク(車の位置の予測など)の場合、出力層は、学習に使用される重みとバイアス項を共有するすべてのベクトルの上にある完全に接続された層であり、それによって学習が行われます。

分類タスクの場合、個々のベクトルは固定長の単一​​のベクトルに結合され、さらに処理されます。注意ネットワークによって学習された加重平均の同じトリックを使用することもできますが、この論文では、時間の経過に伴う平均を取る(ベクトルを累積して T で割る)ことで優れた結果を達成しています。最終的な特徴ベクトルはソフトマックス層に渡され、最終的なクラス予測スコアが生成されます。

現在のアプリケーションをカスタマイズする

DeepSense を特定のモバイル マッピングおよびコンピューティング タスクに適したシステムに磨き上げるには、次の手順に従います。

  • センサー入力の数 k を決定し、入力を dx 2f x T テンソルのセットに前処理します。
  • タスクの種類を決定し、適切な出力レイヤーを選択します。
  • オプションでカスタム コスト関数。回帰タスクのデフォルトのコスト関数は平均二乗誤差であり、分類タスクのデフォルトのコスト関数はクロスエントロピー誤差です。

評価におけるアクティビティ認識 (HHAR) およびユーザー識別タスクでは、デフォルトのコスト関数が使用されます。車の位置追跡タスクでは、負の対数尤度関数が使用されます(詳細についてはセクション4.2を参照)。

主な結果

ここでは、センサー フュージョンと eNav アルゴリズムと比較して、DeepSense が車両追跡タスクでどの程度正確であるかを示します。マップアシスト精度バーには、位置が地図上の最も近い道路セグメントにどれだけ正確にマッピングされているかが表示されます。

DeepSense は、HHAR タスクにおいて他の方法よりも 10% 優れたパフォーマンスを発揮します。

ユーザー識別タスクでは他の方法より 20% 優れたパフォーマンスを発揮します。

私たちは 3 つの代表的なモバイル測定タスクで DeepSense を評価しました。その結果、DeepSense は既存の最先端のベースラインよりも大幅に優れたパフォーマンスを発揮すると同時に、モバイルおよび組み込みプラットフォームでの適度なエネルギー消費と低レイテンシにより、モバイル展開の実現可能性を実証しました。

評価タスクはモーションセンサーに焦点を当てていましたが、この方法はマイク、ルーター、気圧計、光センサーなど、他の多くの種類のセンサーにも適用できます。

<<:  Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

>>:  人工知能業界の給与が明らかに、転職の時期が来た

ブログ    

推薦する

AIシステムが初めて真の自律プログラミングを実現:遺伝的アルゴリズムを使用して初心者プログラマーを上回る

編集者注:この記事は、WeChatのパブリックアカウント「New Intelligence」(ID:...

ChatGPT は EDR 検出を回避する変異型マルウェアを作成します

ChatGPTは昨年末のリリース以来、世界中で大きな話題を呼んでいます。しかし、消費者やIT専門家の...

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

「新インフラ」は中国の「産業インテリジェンス」に強力な新たな原動力をもたらした。インテリジェント時...

Scikit-Learn を使用して、MNIST データセットを分類するための K 近傍法アルゴリズムを構築する

K 最近傍アルゴリズム、K-NN とも呼ばれます。今日のディープラーニングの時代では、この古典的な機...

人工知能とモノのインターネットの統合は、今後10年間で最大のイノベーションの機会となるかもしれない

先日終了した全国人民代表大会と中国人民政治協商会議では、「科学技術イノベーション」という言葉が頻繁に...

...

...

...

ゴースト吹き替えチームにとって朗報です! AIがあらゆる言語のリップシンクを自動生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

エンドツーエンドの自動運転までどれくらい遠いのでしょうか?

エンドツーエンドの自動運転は、システムの複雑性が高まるなどのモジュール式システムに伴う欠点を回避でき...

GPT-LLMトレーナー: タスク固有のLLMトレーニングを1文で実装

人工知能の急速な発展を背景に、特定のタスクを実行するためのモデルのトレーニングは常に困難な作業となっ...

2019年の人工知能の予測と展望

2019 年に人工知能の分野はどのように進化するでしょうか? 過去数年と比べてどのように変化するでし...