コンピューターにビデオの字幕を認識させる

馬文華氏は、中国科学院自動化研究所でパターン認識と人工知能の博士号を取得しました。主に画像認識、ターゲット検出、追跡に関する理論と応用研究に従事しており、この分野の重要な学会や雑誌に4本の論文を発表し、関連する特許を2件申請しています。在職中、OCRおよび自然シーンOCRの応用研究に従事し、テキスト背景領域検出と適応型階層クラスタリングに基づくテキスト検出方法を提案しました。研究成果は、米国特許2件、日本特許2件、中国特許5件に申請されています。現在は主に文書認識、自然風景テキスト認識などの研究に携わっています。

背景

ポータブル撮影機器の普及とセルフメディアおよびオンラインライブ放送プラットフォームの台頭により、デジタルビデオは爆発的な成長を遂げました。ビデオの効果的なカタログ作成と検索が緊急に必要になっています。ただし、ビデオはさまざまなソースから取得され、標準化された説明情報 (字幕ファイルなど) がないものも多くあります。純粋な画像認識技術に基づいてビデオコンテンツを理解するには、画像から意味理解までのギャップを埋める必要がありますが、現在の技術はまだ不完全です。一方、動画内の字幕には非常に正確で重要な説明情報が含まれていることが多く、字幕を認識するという観点から動画の内容を理解することは比較的実現可能なアプローチとなっています。

字幕テキストの認識には通常、字幕の配置とテキストの認識という 2 つの手順が必要です。

字幕の配置は、ビデオフレーム内の字幕の位置を見つけることです。通常、字幕は水平または垂直に配置されます。配置結果は、図 1 に示すように、最小の境界ボックスで表すことができます。字幕テキスト認識は、字幕領域の画像特徴を抽出し、その中のテキストを識別し、最終的にテキスト文字列を出力します。

図1: ビデオ字幕認識の一般的なプロセス

テクニカルルート

字幕の位置

字幕の配置には、字幕領域と背景領域を区別する必要があります。効果的な区別機能には、次のものがあります。

字幕の色とフォントは比較的規則的で、背景との色の違いが明確です。
字幕エリアには豊かなストロークがあり、角と端の特徴がより顕著です。
字幕の文字間隔は固定されており、レイアウトは主に水平方向または垂直方向です。
同じ動画内で字幕が表示される位置は比較的固定されており、同じ字幕が数秒間表示されることが一般的です。

このうち、最初の 3 点は字幕の外観上の特徴であり、4 点目は時間的冗長性の特徴です。これらの機能を使用すると、実現可能な字幕ローカリゼーションソリューションは次のようになります。

図2: エッジ密度に基づく字幕の配置

まず、ビデオフレームのグレースケール画像に対してエッジ検出を実行し、エッジマップを取得します。

次に、エッジマップに対して水平方向と垂直方向それぞれに投影分析を行い、投影ヒストグラムの分布を通じて字幕の候補領域を大まかに決定します。候補領域が複数ある場合は、字幕領域のサイズとアスペクト比の範囲に応じて、不合理な検出結果が除外されます。最後に、複数フレームの検出結果を比較して融合することで、不安定な検出領域をさらに除去します。このようにして、基本的に信頼性の高いテスト結果が得られます。

複雑なシナリオでは、上記の方法で検出された領域、特に垂直方向と字幕方向の両端の境界において、字幕境界の検出が不正確になる可能性があります。このとき、連結領域解析法をさらに利用して、字幕が配置されている行領域の連結領域を見つけ、連結領域の色や配置の規則性に応じて検出結果を微調整することができます。

字幕テキスト認識

字幕テキスト認識によく使用される方法は、まず行領域のグレースケールヒストグラム投影に従って単語領域を分割し、次に単語領域ごとにグレースケール画像の正規化、勾配特徴抽出、マルチテンプレートマッチング、および MCE (最小分類誤差) 分類を実行することです。しかし、特徴エンジニアリングに基づくこの従来の分類および認識方法では、複雑な背景テクスチャ、ノイズ、ビデオ自体の解像度が低いなどの問題に対処することが困難です。

改善されたアイデアは、ディープラーニングに基づくエンドツーエンドの文字列認識ソリューションである CRNN (畳み込み再帰型ニューラルネットワーク) を採用することです。方法フローを図 3 に示します。

図3: CRNNはエンドツーエンドの単語認識を実装する

まず、高さが固定で幅が無制限の単語画像を入力します（単語領域情報は不要）。トレーニングプロセス中に、画像は 32*100 に正規化されます。

次に、CNN レイヤーを通じて画像の特徴が抽出され、Map-to-Sequence を使用して特徴ベクトルが形成され、特徴マップとして出力されます。ここで、およびは入力画像のサイズに比例します。論文では、特徴マップのサイズは次のとおりです。

。これは、画像を過剰にセグメント化して、それぞれが 512 次元の特徴によって表される 26 個のストリップ領域に分割することと同じです。その中で、26 が英語の単語の長さの上限と考えられています。畳み込みの性質上、ここでのストリップ領域は「ソフト境界」であり、重なり合っており、その幅は畳み込みの最後の層の受容野に対応していることに留意してください。

次に、RNN レイヤーを通じてストリップ領域のコンテキスト特徴を抽出し、カテゴリ確率分布を取得します。ここでは 2 層の双方向 LSTM が使用されており、LSTM ユニットの数はと一致しています。 RNN の出力は確率行列であり、はカテゴリの数に対応します。26 個の英語の文字 + 10 個の数字 + 1 つの負のクラス (文字間の灰色の領域に対応) を考慮すると、カテゴリの数は 37 になります。

最後に、確率行列は CTC レイヤーを通じて特定の文字列に対応する確率出力に変換されます。 CTC レイヤー自体にはパラメーターがありません。最適なラベルシーケンスを解決するためにフォワードバックワードアルゴリズムを使用し、理論的には膨大な網羅的な計算を可能にします。

上記の分析から、CRNN の主な特徴は、セグメンテーションと認識を 1 つのモジュールに統合してエラーの蓄積を回避することと、エンドツーエンドでトレーニングできることであることがわかります。私たちの初期の実践では、そのパフォーマンスが従来の方法と比較して実際に大幅に向上していることがわかり、主に芸術的なフォントや手書きフォントなどの難しいセグメンテーション状況での優れた認識パフォーマンスに表れています。しかし、実際のアプリケーションシナリオを分析した結果、次の 2 つの理由により、このソリューションを断念することにしました。

適時性: 英語の単語に関する実験的な比較に基づくと、CRNN は従来の方法よりも約 2 ～ 3 倍の時間がかかり、ビデオ処理のリアルタイム要件を満たすことができません。

パフォーマンス：CRNN は分割が難しい文字列の処理に優れていますが、字幕テキストの間隔とフォントは比較的規則的で、単語間の接着はほとんどないため、CRNN の利点を反映できません。

上記をすべて考慮して、最終的にセグメンテーションにストローク応答プラス投影統計法を採用し、単語認識段階で CNN を使用して複雑なシナリオでの認識パフォーマンスを向上させました。プロセスの簡単な説明は次のとおりです。

セグメンテーションプロセスは次の 3 つのステップで構成されます。

字幕領域画像のストローク応答マップを取得します。
統計的ストローク反応図の水平グレースケール投影ヒストグラム。
字幕領域の高さに応じて 1 文字の幅を推定し、これに基づいて投影ヒストグラム上で一連の最適な接点を見つけます。

図4: 字幕領域の分割

セグメンテーションステップでは単一の文字領域が提供され、CNN モデルを使用してこの領域から特徴を抽出し、単語認識を実行します。ここで考慮すべき点が 2 つあります。

モデルの選択: 実験の結果、3 ～ 5 層の畳み込みプーリングユニットを含む単純な CNN モデルは、従来の認識方法のパフォーマンスを約 10 パーセントポイント向上させることができます。もちろん、ResNet などのより深いネットワークでは、パフォーマンスがさらに向上します。実際のシナリオでは、モデルの選択では要件に基づいて速度とパフォーマンスのバランスを取る必要があります。

データソース: ディープラーニングベースの方法では、パフォーマンスの鍵となるのは、大量かつ信頼性の高いトレーニングサンプルセットです。トレーニングプロセスでは、数百万のサンプルセットを使用しましたが、これらのサンプルを手動で収集してラベル付けするのは明らかに非現実的です。そのため、ディープラーニングの多くのアプリケーションでは、合成サンプルのトレーニングと実際のサンプルの検証のモデルを採用し、その実現可能性を証明してきました。

字幕テキストの合成を例に挙げると、字幕ファイルの形式を分析し、生成するテキストを字幕ファイルに書き込み、ビデオの再生時に字幕を自動的に読み込み、ビデオにテキストをオーバーレイします。このようにして、データの生成と注釈付けを同時に完了することができます。また、必要に応じてさまざまなフォントをカスタマイズし、影やぼかしなどの追加効果も追加しました。この方法では、理論的には無限の数の合成サンプルを取得できます。

図5: 字幕テキストサンプルの合成

認識モジュールは強力なパフォーマンスを備えていますが、見た目が似ている文字については認識エラーが発生することは避けられません。ここで言語モデルの力が発揮されます。言語モデルは、n-gram モデルとも呼ばれます。語彙内の単語の共起確率を数えることで、どの単語の並びがより出現する可能性が高いかを判断することができます。 N-gram の n は、統計的な単語 (文字) シーケンスの長さを表します。n が大きいほど、モデルは複雑になります。字幕認識システムでは、最も単純な 2 グラムモデルを使用しました。これにより、最終的な認識精度が 2 パーセントポイント向上しました。

図6: 言語モデルに基づく修正結果

まとめ

上記のシステムを使用して実際のビデオサンプルをテストしたところ、単語認識精度は 99% に達し、CPU での単語認識時間は 2 ミリ秒で、基本的に実用的な要件を満たしていました。ディープラーニングの手法を実際のビジネスに適用する大まかな試みとして、2 つの洞察があります。

方法の選択に関しては、問題から始めて、困難を詳細に分析し、目新しさへの貪欲と本末転倒を避け、最も単純で効果的な方法を選択する必要があります。

データ合成に関しては、合成データはトレーニングに使用され、実際のデータは微調整とテストに使用されます。これは、ディープラーニングネットワークをトレーニングするための最も費用対効果の高い方法です。もちろん、時間や人的資源の消費を気にする必要のない富裕層は、好きなようにすればよい。操作中は、合成サンプルと実際のサンプルを可能な限り同じ状態に保つことが重要です。複数の検証調整を実行して、最適な合成方法を選択できます。

オリジナルリンク: http://t.cn/R0w2Z6L

著者: 馬文華

[この記事は51CTOコラムニスト「テンセントクラウドテクノロジーコミュニティ」によるオリジナル記事です。転載の許可を得るには51CTOを通じて原作者に連絡してください]

この著者の他の記事を読むにはここをクリックしてください

<<: WeChat OCR（2）：ディープシーケンス学習がテキスト認識を助ける

>>: JVMシリーズ（3）：GCアルゴリズムガベージコレクター