シングルポイントのエンドツーエンドのテキスト検出および認識フレームワークは 19 倍高速です。華中科技大学、華南理工大学などが共同でSPTS v2をリリース

近年、シーンテキスト読み取り（テキストスポッティング）は大きな進歩を遂げており、テキストの検索と認識を同時に実行できるため、スマートオフィス、金融、交通などの分野で広く使用されています。

しかし、ターゲット検出と比較すると、テキスト検出では位置決めだけでなく正確なコンテンツ認識も必要です。同時に、フォントやレイアウトの違いにより、テキストインスタンスは任意の形状で表示される可能性があり、注釈にはより多くの座標を含む境界ボックスを使用する必要があります。たとえば、SCUT-CTW1500 では注釈に最大 28 個の座標が使用され、注釈コストが非常に高くなります。

写真

近年、多角形やベジェ曲線表現に基づく任意形状のテキスト表現が主流の研究方向となってきました。ただし、ポリゴンのラベリングは非常にコストがかかります。この文脈において、SPTS シリーズの論文は、注釈ボックスなしの単一ポイント注釈で最高の認識結果を達成できることを初めて証明しました。これにより、注釈コストが大幅に削減されます。同時に、単一ポイントにより、テキストを表すシーケンスの長さが大幅に短縮されます。ただし、テキストコンテンツ (トランスクリプト) は通常非常に長いため (たとえば、デフォルトでは少なくとも 25 文字)、自己回帰シーケンス内のすべてのテキストをシリアルにデコードすると、推論時間が非常に長くなります。

写真

論文リンク: https://arxiv.org/abs/2301.01635

コードアドレス: https://github.com/Yuliang-Liu/SPTSv2

今年9月、華中科技大学の白翔チームの研究者である劉玉良氏は、華南理工大学、浙江大学、香港中文大学、バイトダンスなどの研究者らと共同で、TPAMIにSPTS v2に関する関連研究をオンラインで発表し、エンドツーエンドのシーンテキスト検出および認識タスク向けにシングルポイントアノテーションに基づくSPTS v2方式を提案した。

この方法では、テキストの位置を示す単一のポイントと、画像、座標、テキストなどのさまざまなモダリティを統一的に表現する言語シーケンスを使用することで、検出タスクと認識タスクの統合が強化され、事前の知識や複雑な後処理操作の介入が排除されます。自己回帰推論速度が遅いという問題に対処するために、検出と認識を自己回帰単一ポイントシーケンス予測と各単一ポイントに基づく並列テキスト認識に分離することで推論を高速化します。

さらに、この方法では、単一のポイントを使用してテキストの位置を示すため、注釈コストが大幅に削減され、シーケンス予測を使用してエンドツーエンドのシーンテキスト検出および認識タスクを完了することで、2つのタスクの統合が緊密になり、事前の知識や複雑な後処理操作の介入が排除されます。

実験では、この方法が複数のシーンのテキストのエンドツーエンドの検出および認識データセットで既存の方法よりも優れており、SPTS v1 と比較して 19 倍の推論加速を達成することが示されています。

SPTSv2 をわかりやすく説明する

1. ドットを使用してテキストスポッティングを実装するにはどうすればよいですか?

これまでのテキストスポッティング手法は、通常、最初に検出し、次にサンプリングし、最後に認識するというエンドツーエンドのモデルに依存しており、Mask TextSpotter[2]のHard ROIMasking、TextDragon[3]のROISlide、ABCNet[4]のBezierAlignなどのコアアライメントモジュールに大きく依存しています。

写真

SPTSv2 は、シーケンスを使用してテキストインスタンスの位置と内容を均一に表現し、テキストスポッティングを離散空間の連続的な記述に簡素化します。この同時検出と認識予測方法は、認識が検出結果に強く依存するのを分離します。これを考慮して、この方法は境界ボックスをポイント注釈にさらに簡素化します。

2. SPTSv2 が推論時間を大幅に短縮できるのはなぜですか?

自己回帰法の推論時間は、主にシリアルループの数によって決まります。画像には最大 N 個のテキストインスタンスが含まれ、各インスタンスには最大 K 個の文字が含まれ、各インスタンスの位置表現の数は T (水平座標と垂直座標を含む単一のポイントの場合は 2、14 個のポイントを持つポリゴンの場合は 28) であると仮定します。

元の自己回帰では、すべての座標とテキストがシーケンスに配置されているため、この画像を予測するには (T + K) * N + 1 のシリアルサイクルが必要です。最後の +1 は終了シンボルを表します。

写真

たとえば、テキストインスタンスの最大数が 100 で、最大長が最小のデフォルト値である 25 であるとします。

すると、1 つのポイントに対して、シリアルサイクルの回数は 2701 回になります。ポリゴンの場合は 5301 回になります。

SPTS v2 では、インスタンス割り当てデコーダー (IAD) と並列認識デコーダー (PRD) が提案されています。シリアル自己回帰では、単一ポイント座標の参加のみが必要であり、認識デコードは各単一ポイントの並列自己回帰によって得られます。必要な文字列サイクルは合計で T * N + K + 1 個のみで、K * (N - 1) が削減されます。

上記の例では、SPTSv2 では 226 回しか必要ないため、ループ回数は 91.6% (226/2701) 削減されます。テキスト行の場合、K は通常 100 であり、ループ回数はさらに 97.0% 削減されます。

同時に、実際には、SPTSv2 の認識予測では、すべてのインスタンスがシーケンス終了シンボルに遭遇すると、SPTS v2 も早期に終了できるため、シリアルループの数はさらに削減される可能性があります。

写真

したがって、この並列予測により、推論速度を大幅に向上させることができます。

3. ポイント表現の特性と利点は何ですか?

① ポイントのマークは任意です。

実験では、ポイントがランダムなポイントであっても、効果は中心のポイントをすべて選択した場合とそれほど変わらず、左上隅のポイントをすべて選択した場合よりも高いことが示されています。つまり、注釈者はテキスト上の点をランダムにクリックするだけで注釈を付けることができます。

写真

②ポイントの性能が非常に高いです。

テキストポイントのパフォーマンスにより、最高のテキストスポッティング結果が達成されました。同時に、ポイントとボックスの評価基準の違いによる影響を排除するために、ポイント評価とボックス評価のパフォーマンス差がそれほど大きくないことを実験で検証しました。

写真

③ ランダムテキストソートが最適です。

自己回帰の順序性により、最初の段階でテキストポイントが予測される順序が結果に影響を及ぼす可能性があります。実験では、ランダムなポイント順序付けにより、後で欠落しているオブジェクトを捕捉できる可能性が高くなるため、最高のパフォーマンスが得られることが示されています。これにより、同じ画像に対して異なる反復で異なるシーケンスが構築されるため、モデルがより堅牢になります。この結論はPix2seq[5]とも一致している。

④ノイズに対してより強い。

SCUT-CTW1500 上のボックスまたはポイントの座標にランダムな摂動を加えることにより、実験結果では、SPTSV2 はボックスベースの方法よりも注釈ノイズにうまく対処できることを示しています。

⑤非常に長い行のテキストでも、1 つのドットだけでマークできます。

たとえば、SCUT-CTW1500 はテキスト行データであり、SPTSv2 は最適であるだけでなく、ボックスベースの方法よりも大幅に優れています。

4. 検出と認識は分離されているため、この方法ではポイントのない結果を認識できますか?

答えはイエスです。さらに、この論文では、テキスト転写トレーニングのみを使用して優れたパフォーマンスを達成した No-Point Text Spotting (NPTS) を試しました。しかし、単一のポイント注釈を使用した結果と比較すると、パフォーマンスのギャップは非常に明白で、平均ギャップは 10% を超えており、ポイント注釈が最終的なパフォーマンスにとって依然として重要であることが証明されています。

写真

さらに、この記事には興味深い発見があることも言及する価値があります。これは SPTS のフレームワーク内でのみ検証されます。ポイントの代わりに水平の長方形や多角形が予測される場合、効果はポイントほど良くありません。この現象に対して、この記事では次のような分析を行っています。

写真

① SPTS-RectとSPTS-Bezierの結果は、SPTS-Pointと同じトレーニング時間に基づいて得られます。3つはポイントの数を除いて厳密に一致しています。実験では、2 倍の周期でトレーニングされた SPTS-Bezier は、1 倍の周期でトレーニングされた SPTS-Bezier よりも大幅に優れているわけではないことが示されています。さらに、より長い時間を採用すると、SCUT-CTW1500 の None メトリックのパフォーマンスが低下するため、トレーニング時間が主な問題ではない可能性があることがわかります。 ② 従来、テキストスポッティング方式では、検出結果が不正確であっても、認識結果が正確である場合がよく見られました。これは、テキスト認識の配置が特徴空間に基づいているためです。特徴空間では、切り取られた特徴にテキストコンテンツに対する十分な受容野があり、この方法はボックスの位置注釈要件にあまり敏感ではないことを示しています。 SPTSv2 メソッドでは、Transformer を使用して画像がグローバルにエンコードされるため、モデルが近くの目的の特徴をキャプチャするには、おおよその位置で十分な場合があります。もちろん、この結論は SPTSv2 のフレームワーク内でのみ検証されています。

写真

要約する

私たちの方法が任意の形状のテキストでより高い精度を達成できる理由は、提案された方法が事前の知識に基づいて設計されたタスク固有のモジュール（RoI モジュールなど）を破棄するためであると考えられます。したがって、認識精度は検出結果から切り離されており、検出注釈ポイントがテキスト領域内でランダムであっても、当社の方法では堅牢な認識結果を得ることができます。実験により、SPTS v2 は複数のシーンのテキストのエンドツーエンドの検出および認識データセットで優れたパフォーマンスを発揮し、推論速度は SPTS の 19 倍に達することが示されました。 SPTS v2 のマルチモーダルデータを均一に表現するトレーニング方法は、マルチモーダルおよびマルチタスクのシナリオに特に適しています。この方法全体で必要なのはクロスエントロピー損失関数 1 つだけで、フレームワークは非常にシンプルです。一方、必要な自己回帰シーケンスの長さを大幅に削減できます (たとえば、91%)。実際、これにより、大規模モデル ChatGPT も本質的には自己回帰トランスフォーマーであると考えられるようになります。第一段階でキーポイントを順次出力し、異なるポイント間の関係をモデル化できる場合、第二段階では、異なるキーポイントに基づいてすべてのテキストコンテンツを並列に出力することもできますか？この「ポイントごとの回答」アプローチにより、大規模なモデルの出力速度も大幅に向上する可能性があります。

参考文献:

[1] Yuliang Liu、他「SPTS v2：シングルポイントシーンテキストスポッティング」IEEE Transactions on Pattern Analysis and Machine Intelligence。2023年。

[2] Minghui Liao、他「Mask textspotter v3: 堅牢なシーンテキストスポッティングのためのセグメンテーション提案ネットワーク」Computer Vision–ECCV 2020: 第16回ヨーロッパ会議、英国グラスゴー、2020年8月23～28日、議事録、パートXI 16。Springer International Publishing、2020年。

[3] Feng Wei他「Textdragon: 任意の形状のテキストスポッティングのためのエンドツーエンドのフレームワーク」IEEE/CVF国際コンピュータビジョン会議議事録。2019年。

[4] Yuliang Liu、他「Abcnet v2：リアルタイムのエンドツーエンドのテキストスポッティングのための適応型ベジェ曲線ネットワーク」IEEE Transactions on Pattern Analysis and Machine Intelligence 44.11（2021）：8048-8064。

[5] Chen Ting、他「Pix2seq：物体検出のための言語モデリングフレームワーク」arXivプレプリントarXiv：2109.10852（2021）。

<<: OpenAI がハッカーのグループチャットに潜入！盗まれたChatGPTは「Meow Meow GPT」に置き換えられました、ネットユーザー：まさに伝説的

>>: AIアラインメントを説明する4万語：北京大学と複数の大学チームがアラインメントの包括的なレビューを発表