AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

大した言葉はありません！将来的には、AI がキーボードの音を聞くだけで、最大 95% の精度でパスワードを盗むことができるようになります。

おっしゃる通りです。キーボードで入力するのは現在安全ではなく、防御するのはほぼ不可能です。

最近、ダラム大学を含む3つの大学の研究者らが、音響攻撃を極めて簡単にするAIモデルを訓練した。キーボードの音を分析することで、ユーザーが入力したパスワードや機密情報を再構築できる。もしこれが悪意を持って第三者に漏洩したら…

これを聞いたネットユーザーたちは柯睿を泥棒と呼び、中には次のように言う者もいた。

だから私は、パスワードを入力しながら、音量を最大にしてヘビーメタル音楽を聴いています。

危険！危険！危険！

この物語は、英国の複数の大学の研究者が発表した「キーボードに対する実用的なディープラーニングベースの音響サイドチャネル攻撃」と題された論文から始まります。

この研究では、研究者らはディープラーニング手法を使用して、キーのセグメンテーション、メルスペクトログラムによる特徴抽出、CoAtNet モデルを使用した分類など、完全に自動化されたキーボード音響サイドチャネル攻撃プロセスを提案しました。

具体的には、キー分割の最初のステップは、ターゲットキーボード上のキーを記録することです。

この研究では、研究者らは携帯電話（iPhone 13 mini）とビデオ会議ソフトウェアZoom（遠隔攻撃のシナリオをシミュレート）を使用して音を収集し、MacBook Proの36個のキー（0〜9、a〜z）を押して音を作成した。

△携帯電話はターゲットから17cm離れている

各キーを 25 回連続して押すと、押下音を記録したファイルが生成されます。

次のステップは、録音に対して高速フーリエ変換を実行し、周波数にわたる係数を合計して「エネルギー」を取得することです。次に、エネルギーしきい値を定義します。エネルギーがこのしきい値を超えると、キートーンとしてマークされます。

この方法により、長いオーディオから独立したキー押下音セグメントを分離できます。

△キー分割プロセスでは、信号はFFTを介してエネルギーに変換され、しきい値を超えるとキーがマークされます。

携帯電話の録音とは異なり、Zoom はノイズ低減技術を使用して音量範囲を圧縮するため、異なるボタン間の音量差は非常に小さくなります。ここで研究者らは、この問題を解決するために閾値を徐々に調整する方法を提案した。

つまり、最初に初期しきい値を設定し、現在のしきい値を使用してオーディオを分割し、キーの数を取得します。セグメンテーションによって取得されたキーの数が目標数より少ない場合は、しきい値が低くなり、セグメンテーションによって取得されたキーの数が目標数より多い場合は、しきい値が高くなります。しきい値を徐々に微調整することで、セグメンテーションの結果はターゲットキーの数と等しくなります。

ここでより正確な調整を行うために、すべてのキーが正確に分割されるまで、調整振幅は毎回小さくなります。

次に、波形とスペクトログラムのプロットを生成して特徴抽出を実行し、各キーの識別可能な違いを視覚化できます。

△左の写真は携帯電話録音の波形と対応するメルスペクトルを示し、右の写真はズーム録音を示しています。

さて、ここからがハイライトです。これらのスペクトログラム画像は、画像分類器であるCoAtNetのトレーニングに使用されます。

研究者たちは、メルスペクトログラムを音の視覚的表現として使用し、それを画像の形で CoAtNet に入力しました。 CoAtNet は畳み込み層と自己注意層で構成されており、特徴を効率的に学習し、特徴間のグローバルな関係をモデル化できます。

そして、CoAtNet に基づいて、平均プーリング層と完全接続層が追加され、最終的なキー分類結果が得られます。

さらに、研究者らは、クロスエントロピー損失関数と Adam オプティマイザーを使用してモデルをトレーニングしました。トレーニングプロセス中、検証セットの精度は 5 エポックごとにテストされました。学習率やエポック数などのハイパーパラメータを調整することで、モデル精度の急激な低下の問題が解決されました。

最終的に、このモデルは携帯電話で記録されたデータセットでは95%、Zoomで記録されたデータセットでは93%の分類精度を達成しました。

△ 携帯電話で記録されたMacBookキー分類器の混同行列

携帯電話とズームという 2 つの録画方法の結果の差はわずか 2% であり、録画方法の変更が精度に大きな影響を与えないことも間接的に示しています。

さらに、研究者らは誤分類のほとんどが隣接するキーの押下によるものであり、エラーには一定の規則性があることも発見した点も特筆に値します。