リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

米国の主要都市では、市民は 24 時間体制で何千もの公共緊急対応無線電波を受信して​​おり、この情報は 500 万人以上のユーザーに火災、強盗、行方不明などの緊急事態に関するリアルタイムの安全警報を提供するために使用されています。人々は毎日 1,000 時間以上の音声を聞いており、これは新しい都市を開発する必要がある企業にとって課題となっています。

[[340648]]

そこで、音声から重大な安全事故に関する情報を取得できる機械学習モデルを構築しました。


カスタム ソフトウェア定義無線 (SDR) は、広範囲の無線周波数 (RF) をキャプチャし、最適化されたオーディオ クリップを ML モデルに送信してラベル付けします。タグ付けされたクリップはオペレーションアナリストに送信され、アナリストはアプリにインシデントを記録し、最終的にインシデント発生場所の近くにいるユーザーに通知します。

セキュリティアラートワークフロー(著者提供の画像)

問題領域に音声テキスト変換エンジンを適応させる

公開音声テキスト変換エンジンを使用したクリップ分類器(画像提供:著者)

まず、単語誤り率 (WER) に基づいて、最もパフォーマンスの高い音声テキスト変換エンジンから始めます。多くの警察官は、日常語にはない特別なコードを使用します。たとえば、ニューヨーク市警の警察官は、援軍を要請するために「シグナル 13」を送信します。

音声コンテキストを使用して語彙をカスタマイズします。ドメインに適応するために、いくつかの語彙も拡張しました。たとえば、「assault」は一般的ではありませんが、ドメインでは一般的です。モデルは「a salt」ではなく「assault」を検出する必要があります。

パラメータを調整した後、いくつかの都市では比較的正確な転写を得ることができました。次に、音声クリップの文字起こしデータを使用して、どのクリップが市民に関連しているかを調べます。

転写と音声特徴に基づくバイナリ分類器

転写を入力、信頼度レベルを出力とするバイナリ分類問題のモデルを構築し、XGBoost アルゴリズムがデータセットに対して最高のパフォーマンスを発揮しました。

元警察官から聞いた話によると、一部の都市では、地元警察の注意を引くために、大きな出来事をラジオで放送する前に特別なサイレンを鳴らしているそうだ。この「追加」機能により、特に転写エラーが発生した場合に、モデルがより堅牢になります。その他の便利な機能としては、警察チャンネルと送信 ID があります。

私たちは運用ワークフローで ML モデルをテストしました。数日間実行した後、モデルタグ付きスニペットのみを使用したアナリストはイベントで間違いを起こさなかったことに気付きました。

私たちはこのモデルをいくつかの都市で立ち上げました。これまでは不可能だった、1 人のアナリストが複数の都市からの音声を同時に処理できるようになりました。より多くの遊休容量が稼働するようになれば、新たな都市を開発することが可能になります。

このモデルの導入により、アナリストの音声量が大幅に削減されました(画像は著者提供)

パブリック音声テキスト変換エンジンを超えて

このモデルはすべての問題の万能薬ではなく、音質が良かったいくつかの都市でのみ使用できました。公開されている音声テキスト変換エンジンは、ラジオとは異なる音響プロファイルを持つ音素モデルに基づいてトレーニングされているため、文字起こしの品質が信頼できない場合があります。ノイズの多い古いアナログ システムでは、転写はまったく使えませんでした。

複数のソースから複数のモデルを試しましたが、データセットに類似した音響プロファイルでトレーニングされたモデルはなく、ノイズの多いオーディオを処理できませんでした。

パイプラインの残りの部分は変更せずに、元の音声テキスト変換エンジンをデータでトレーニングされたエンジンに置き換えようとしました。しかし、音声の場合は何百時間もの文字起こしデータが必要となり、その生成には時間とコストがかかります。

また、語彙の中で「重要」と定義されている単語のみを転記し、無関係な単語にはスペースを追加することでプロセスを最適化するオプションもありますが、これはまだ作業量を徐々に削減するだけです。最終的に、私たちは問題領域向けにカスタム音声処理パイプラインを構築することにしました。

キーワード検出のための畳み込みニューラルネットワーク

キーワードだけを気にするので、単語の正しい順序を知る必要はなく、キーワード認識の問題を簡素化できます。これははるかに簡単なので、データセットでトレーニングされた畳み込みニューラル ネットワーク (CNN) を使用することにしました。

畳み込みニューラル ネットワーク (CNN) を再帰型ニューラル ネットワーク (RNN) または長短期記憶 (LSTM) モデル上で使用することで、トレーニングと反復処理をより高速に行うことができます。ほぼ同等ですが、実行には大量のハードウェアを必要とする Transformer モデルを評価しました。

単語を検出するためにオーディオ セグメント間の短期的な依存関係のみを探すため、計算的に単純な CNN は Transformer モデルよりも優れているように見えますが、ハードウェア スペースが解放され、ハイパーパラメータの調整によって柔軟性が向上します。

畳み込みニューラル ネットワークを使用してキーワードを識別するためのクリップ タグ付けモデル (画像提供: 著者)

オーディオ クリップは、固定の長さのサブクリップに分割されます。語彙の単語が出現すると、サブセグメントに肯定的なラベルが付けられます。次に、セグメント内にそのようなサブセグメントが見つかった場合、オーディオ セグメントは有用であるとマークされます。

トレーニング中、サブクリップの継続時間を変えて、それが融合パフォーマンスにどのように影響するかを実験しました。スニペットが長いと、モデルがスニペットのどの部分が有用であるかを判断するのが難しくなり、モデルのデバッグも難しくなります。短いスニペットは、単語の一部が複数のクリップに表示されることを意味し、モデルが認識するのが難しくなります。このハイパーパラメータを調整して、適切な期間を見つけることは可能です。

各サブクリップについて、オーディオをメル周波数ケプストラム係数 (MFCC) に変換し、1 次および 2 次導関数を追加します。特徴は、25 ミリ秒のフレーム サイズと 10 ミリ秒のストライドで生成されます。次に、Tensorflow バックエンドを介して Keras シーケンス モデルに基づくニューラル ネットワークに入力されます。

最初のレイヤーはガウス ノイズであり、これによりモデルは異なる無線チャネル間のノイズの違いに対して堅牢になります。クリップにリアルなノイズを人工的に重ね合わせるという別のアプローチを試しましたが、パフォーマンスが大幅に向上することなく、トレーニングの速度が大幅に低下しました。

次に、Conv1D、BatchNormalization、MaxPooling1D の 3 つのレイヤーを追加しました。バッチ正規化はモデルの収束に役立ち、最大プーリングは音声やチャネル ノイズの微妙な変化に対してモデルを堅牢にするのに役立ちます。さらに、ドロップアウト レイヤーを追加してみましたが、モデルは大幅に改善されませんでした。

最後に、密に接続されたニューラル ネットワーク レイヤーが追加され、シグモイド アクティベーションを持つ単一の出力密レイヤーに入力されます。

ラベル付きデータを生成する

オーディオクリップのラベル付けのプロセス(写真提供:著者)

トレーニング データにラベルを付けるには、問題領域のキーワードのリストを注釈者に渡し、語彙の単語が出現した場合はセグメントの開始位置と終了位置、および単語ラベルをマークするように依頼しました。

注釈の信頼性を確保するために、注釈者間で 10% の重複を設け、重複するセグメントでのパフォーマンスを計算しました。約 50 時間のラベル付きデータが揃うとトレーニングが開始され、トレーニング プロセスを繰り返しながらデータを収集し続けます。

語彙の中には他の単語よりも一般的な単語があるため、このモデルは一般的な単語に対してはうまく機能しますが、例が少ない単語に対しては困難を伴います。

単語の発音を他のセグメントに重ね合わせることで、人工的に例を作成することを試みました。ただし、パフォーマンスの向上は、これらの単語のトークンの実際の量に見合ったものではありません。最終的に、モデルは一般的な単語などに対してより敏感になります。ラベル付けされていないオーディオ クリップに対してモデルを実行し、学習した単語を含むクリップを削除します。これにより、将来のラベル付けで冗長な単語を削減できます。

モデルリリース

データ収集とハイパーパラメータ調整を数回繰り返した後、語彙内の単語に対して高い再現率と精度を持つモデルをトレーニングすることができました。重要なセキュリティアラートをキャプチャするには、高い再現率が非常に重要です。フラグが付けられたクリップはアラートが送信される前に聞かれるため、誤報は大きな問題にはなりません。

私たちはこのモデルをニューヨーク市のいくつかの行政区でテストし、音声の音量を 50~75% (チャネルによって異なります) 削減することができました。これは、ニューヨークではアナログ システムが原因で音声のノイズが非常に多いため、公共の音声テキスト変換エンジンでトレーニングしたモデルを大幅に上回る結果でした。

驚いたことに、モデルはニューヨーク市のデータでトレーニングされたにもかかわらず、シカゴの音声に切り替えてもうまく機能しました。シカゴの数時間の映像を収集した後、ニューヨーク市のモデルから得た学習内容をシカゴに転送したところ、シカゴでもモデルは良好なパフォーマンスを発揮しました。

[[340650]]

画像ソース: unsplash

カスタム ディープ ニューラル ネットワークを使用した音声処理パイプラインは、米国の主要都市の警察の音声に広範囲に適用されました。音声から重大な安全事故を検知し、全国の住民が市に迅速に放送できるようにすることで、地域の安全を守るという使命を果たします。

RNN、LSTM、Transformer よりも計算が簡単な CNN アーキテクチャを選択し、タグ付けプロセスを簡素化したことは、限られた時間とリソース内で、公開されている音声テキスト変換モデルを上回ることを可能にする大きな進歩です。

<<:  仕事とAIの未来

>>:  変革的な AI、ノーコード、ローコード - エンタープライズ AI 導入に最適なパスはどれでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ケビン・ケリーがAIブームを解説:超人的なAIを暴く5つの神話

人工知能は非常に人気が高まっているため、ニュースで報道される超知能に関する予測が実現可能なものなのか...

人工知能と機械学習 – これらの流行語を理解していますか?

2017 年現在までに最もよく使われている流行語は人工知能 (AI) と機械学習 (ML) ですが...

...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...

研究によると、AppleのCSAMスキャンアルゴリズムは簡単に騙される可能性がある

最近、インペリアル・カレッジ・ロンドンの研究チームは、画像の内容を変えずに画像内容をスキャンするアル...

...

2022 年のヘルスケアと医薬品における AI の予測

市場の一流専門家によると、AI は病院の運営、新薬の発見、超音波検査を改善する可能性を秘めています。...

素晴らしいツールです!機械学習のためのテキスト注釈ツールとサービス 10 選

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈

人工知能は社会を変えようとしています。民間企業、学界、政府を問わず、国レベルおよび国際レベルを問わず...

AIoT: 人工知能 (AI) とモノのインターネット (IoT) が出会うとき

AIoT: AIとモノのインターネットが出会うときモノのインターネット (IoT) は私たちの日常生...

...

GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。結果は良好です。 Ch...