USTC 統合入力フィルタリングフレームワーク: すべてのデータモダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイルデバイスの計算能力が向上し、センサーデータのリアルタイム分析の需要が高まるにつれて、モバイル中心の人工知能アプリケーションが一般的になりつつあります。 2022 年までに、商用 IoT プロジェクトの 80% 以上に AI アプリケーションが含まれるようになると予測されています。しかし、最高精度の AI モデルのほとんどは計算量が多すぎて、モバイルデバイスで高スループットの推論を実行することができません。推論タスクをエッジサーバーまたはクラウドサーバーにオフロードしても、推論の効率がアプリケーションの要件を満たすのは困難です。

冗長な入力はモバイル中心の人工知能アプリケーションに広く存在しており、それらをフィルタリングすることは推論効率を向上させる効果的な方法です。既存の研究では、推論スキップと推論再利用という 2 種類の入力フィルタリングメカニズムが検討されています。推論スキップメソッドは、意味のある出力を生成しない推論計算をスキップするように設計されています。たとえば、写真分類アプリケーションは、顔のない写真に対して顔検出モデルを実行する場合があります。

スマートスピーカーアプリケーションは、音声認識のためにコマンドなしで音声をクラウドにアップロードする場合があります。

推論再利用メソッドは、実行された推論計算結果を再利用して、新しいデータが到着したときにキャッシュから結果をより速く返すことを目指します。たとえば、スマートブレスレットのアクション分類モデルは、同じアクションラベルを生成するモーション信号を処理する場合があります。

また、ドローンとエッジサーバーに基づく交通監視では、連続する 2 つのフレームで変更のない車両カウント結果が得られる可能性があります。

これまでの研究により、多くのアプリケーションに効果的な入力フィルタリング方法が設計されてきました。しかし、2 つの重要な問題が未解決のままであり、入力フィルタリング方法の適用に深刻な影響を与えています。

推論タスクのフィルタリング可能性。入力フィルタリング技術は多くの特定のアプリケーションで最適化効果を示していますが、冗長入力の主観的な観察からヒントを得ることがよくあります。「どの推論タスクに入力フィルタリングの最適化の機会があるか」という質問に理論的に答えることができない場合、入力フィルタリング技術の適用には必然的に高コストの試行錯誤のプロセスが伴うことになります。
堅牢な特徴識別能力。入力データの特徴表現は、推論のスキップと再利用可能な推論結果の検出の精度に直接関係するため、入力フィルタリングのパフォーマンスに重要な影響を及ぼします。既存の方法のほとんどは、手動の特徴または事前にトレーニングされた深層特徴に依存していますが、これらは適用中に確実に区別できず、フィルタリング効果が完全に失われる可能性があります。

MobiCom 2022において、中国科学技術大学のLINKE研究室は、モバイル中心のモデル推論シナリオ向けのエンドツーエンドの学習可能な入力フィルタリングフレームワークInFi（INput FIlter）を提案しました。この研究では、入力フィルタリング問題を初めて正式にモデル化し、推論モデルと入力フィルタの機能ファミリの複雑さの比較に基づいて、理論レベルで推論タスクのフィルタリング可能性を分析します。 InFi フレームワークは、既存の SOTA メソッドで使用される推論スキップおよび推論再利用メカニズムをカバーします。この研究では、InFi フレームワークに基づいて、モバイル中心の推論シナリオに幅広く適用できる、6 つの入力モダリティと 3 つの推論タスク展開方法をサポートする入力フィルターを設計および実装します。 12 のモバイル中心の AI アプリケーションでの実験により、理論分析結果が検証され、適用性、精度、リソース効率の点で InFi が SOTA 方式よりも優れていることが示されました。その中で、モバイルプラットフォーム上のビデオ分析アプリケーションでは、元の推論タスクと比較して、InFiは推論スループットを8.5倍に高め、通信帯域幅を95％節約しながら、推論精度を90％以上維持しました。

論文アドレス: https://yuanmu97.github.io/preprint/InFi_MobiCom22.pdf

プロジェクトアドレス: https://github.com/yuanmu97/infi

濾過性分析

直感的には、推論タスクのフィルタリング可能性とは、元の推論タスクと比較して、入力データの冗長性の低コストで高精度の予測子を取得できるかどうかを指します。元の推論タスクは、入力データを推論出力にマッピングする関数ファミリ H に属するモデル h として定義されます。たとえば、顔検出モデルは、画像を入力として受け取り、検出結果 (顔の位置の検出ボックス) を出力します。推論モデルの出力結果に応じて、冗長性判定関数 f_h が定義され、冗長なラベルが出力されます。たとえば、顔位置検出ボックスの出力が空の場合、推論計算は冗長であるとみなされます。関数ファミリー G に属する入力フィルタ g は、入力データから冗長ラベルへのマッピング関数として定義されます。

元の推論モデルの目的関数（つまり、真のラベルを提供する関数）がcであり、そのフィルタの目的関数が

元の推論モデルのトレーニングと入力フィルタのトレーニングの違いは、監督ラベルの違いにあることがわかります。つまり、推論予測は元のタスクラベルドメイン Y によって監督されますが、フィルタ予測は冗長ラベルドメイン Z によって監督されます。推論タスクのフィルタリング可能性に関する直感的な考え方は、入力フィルタの学習が元の推論モデルの学習よりも簡単であれば、効果的な入力フィルタを取得できる可能性があるということです。

この考えに基づいて、本研究では、3 つの一般的な推論タスクのフィルタリング可能性を分析します。

分析プロセスの鍵となるのは、入力フィルターの目的関数を元の推論モデルに関連付けることです。これにより、2 つの学習タスク間に同等の複雑さの橋が構築されます。冗長識別の信頼度に基づく分類タスクを例にとると、入力フィルタの目的関数族は次のようになる。

これにより、入力フィルタの関数ファミリのRademarcher複雑度が元の推論モデル以下であることが証明され、タスクのフィルタリング可能性の分析結果が得られます。

フレームワークの設計と実装

上記のフィルタリング可能性分析は、入力フィルタリングを学習タスクとして考えることを前提としています。したがって、フレームワークの設計は、手動機能や事前トレーニング済みのディープ機能に依存せずに、エンドツーエンドで学習可能である必要があります。同時に、フレームワーク設計では、推論スキップ (SKIP) メカニズムと推論再利用 (REUSE) メカニズムを統一的にサポートする必要があります。この研究は、SKIP がすべてゼロの入力の推論結果の REUSE と同等であるという単純なアイデアに基づいており、2 つのメカニズムを 1 つのフレームワークに統合しています。

このフレームワークは、トレーニングと推論の 2 つの段階で構成されます。トレーニングフェーズでは、ツイン特徴ネットワークを通じて入力データのペアの特徴が抽出され、特徴距離を計算した後、分類ネットワークを使用して冗長ラベル予測結果が取得されます。

推論段階では、SKIP メカニズムを採用すると、他の入力の特徴がゼロに固定され、基本的な分類器に退化し、予測された冗長ラベルに基づいて現在の入力データをスキップするかどうかを決定します。REUSE メカニズムを採用すると、「入力特徴 - 推論出力」テーブルをキャッシュとして維持する必要があり、現在の入力特徴とキャッシュされた入力特徴間の距離を計算することにより、K 近傍法を使用して、キャッシュされた推論結果を再利用するかどうかを決定します。

この研究では、「モダリティ関連特徴ネットワーク+タスク非依存分類ネットワーク」の設計を提案し、テキスト、画像、ビデオ、オーディオ、知覚信号、中間層特徴の特徴抽出ネットワークを設計し、より多くのデータモダリティに簡単に拡張できます。分類器ネットワークは、多層パーセプトロンモデルとして設計されています。入力方式の柔軟なサポートは、オンデバイス推論、エッジ推論へのオフロード、デバイスエッジモデル分割推論という 3 つの一般的なモバイル中心の推論タスク展開方法を含む、さまざまなタスク展開方法での InFi の適用性の基盤を提供します。

InFi は Python で実装されており、ディープラーニングモジュールは TensorFlow 2.4 に基づいています。コードは現在オープンソースです。

検証実験

InFi は、画像、ビデオ、テキスト、オーディオ、モーション信号、中間層機能の 6 つの入力様式をカバーする 5 つのデータセットで 12 の AI 推論タスクの検証実験を実施しました。 3 つのベースラインメソッドとの比較実験により、InFi は適用範囲が広く、精度と効率の両方で優れていることが示されました。

都市部の道路監視ビデオで車両をカウントするタスクを例にとると、オンエンド推論を実行する場合、SKIP および REUSE メカニズムを使用する InFi メソッドは、推論スループットを元のワークフローと比較してそれぞれ 1.9 倍と 7.5 倍に増加させながら、90% を超える推論精度を維持できます。エンドツーエッジのモデル分割推論を実行する場合、2 つのメカニズムを使用する InFi は、通信帯域幅をそれぞれ 70.7% と 95.0% 節約できます。

InFi はトレーニング費用も非常に安価です。モーション信号に基づくアクション認識アプリケーションでは、トレーニングデータセットの 10% のみを使用するだけで、フィルタリングパフォーマンスが最高に近い SKIP および REUSE の結果を得ることができます。 InFi は、95% 以上の推論精度を維持しながら、推論操作を 80% 節約できます。

結論と今後の展望

この研究は、フィルタリング可能性に関する最初の理論的分析を提供し、統一されたエンドツーエンドの学習可能な入力フィルタリングフレームワークを提案し、その設計と実装の優位性を幅広い人工知能推論タスクで検証します。これは、モバイル中心のリソース効率の高い推論を実現するために非常に重要です。 InFi フレームワークの主な利点は、手動のラベル付けが不要であることです。将来的には、各モデルの推論サービス中に入力フィルターの自己教師トレーニングを行い、精度とリソースのトレードオフを伴うモデル推論を実現するという、人工知能モデルの展開に関する新しいベストプラクティスが形成される可能性があります。

<<: 大量のニューロンを必要とせず、ニューロモルフィックロボットはスピードと正確さでテーブルサッカーをプレイします

>>: テキストの説明に基づいてビデオから画像を切り取る、Transformer：このクロスモーダルタスクは私が最も得意とすることです