画像とテキストの認識 - 人工知能の知恵

画像とテキストの認識 - 人工知能の知恵

序文

人間が世界を認識する際の約 80% は視覚によって行われます。そのため、コンピューターが人間の視覚能力を持つ、あるいはそれを超えるようにする方法は、常に科学研究の重要な方向性となっています。画像およびテキスト認識技術は、コンピューター ビジョン技術の重要な部分であり、日常生活において重要な価値と意義を持っています。

現状

画像テキスト認識とは、画像内のテキストを認識することを指します。従来のテキスト認識の一般的なフレームワークを図1に示します。これには、前処理、特徴抽出、分類器設計という3つの主要なモジュールが含まれています[1]。まず、前処理後に、文字の位置が画像の中央になるように指定されたサイズに画像を形成します。次に、前処理された画像から文字の特徴を抽出し、***分類器が抽出された特徴に従って文字を分類します。画像テキスト認識の前処理部分には、主にサンプルの正規化、平滑化ノイズ除去、疑似サンプル生成技術が含まれます。特徴抽出部分は、構造的特徴と統計的特徴に分けられます。構造的特徴は、主にテキスト構造、ストローク、またはコンポーネントを抽出するために使用されます。最も一般的に使用される統計的特徴は、ガーバー特徴と勾配特徴です。一般的に使用される分類器には、SVM、HMM、二次決定関数などがあります。

図1 従来のテキスト認識フレームワーク

近年、上記の方法に基づく認識性能に関する研究はほとんど進んでいません。主な理由は、文字分類の結果が主に抽出された特徴に依存するため、比較的堅牢な特徴を設計することが難しいためです。ディープラーニング技術の登場以来、テキスト認識は新たな活力を獲得しました。CNN、DNN、RNNなどのディープラーニング技術を使用して、テキスト認識の問題を非常にうまく解決できます。認識プロセスは従来の方法ほど複雑ではありません。前処理や手動の特徴設計および特徴抽出操作は必要ありません。テキスト画像をネットワークの入力として直接使用できます。さらに、テキスト認識は常にディープラーニングの主要な応用方向でした。1990 年代には、Y. Lecun や Bengio などのディープラーニングの先駆者が協力して、手書き数字認識の問題を解決するために LeNet5 を設計しました。図 2 は、彼らがベル研究所で作成したデモです。

図2 手書き数字認識デモ

しかし、単にディープラーニングを使って漢字認識の問題を解決するだけでは、あまり効果的ではありません。近年、研究者も漢字認識の問題に多くの研究を行っており、いくつかの分野の知識を追加し、それをCNN手法と組み合わせることで、漢字認識の問題をよりよく解決できることを発見しました。例えば、データ生成技術を使用して大量のサンプルデータを生成し、過剰適合の問題を防ぐことができます[2]。また、従来の特徴抽出方法とCNN方法を組み合わせて認識効果を向上させることもできます。 Zhongら[3]は、特徴抽出+CNN法を用いて手書きの中国語文字を認識することを提案した。抽出された特徴は、8方向のGarbor特徴、勾配特徴、HOG特徴である。製品文字の特徴マップを図3に示す。改良されたAlexNetとGoogleNetのネットワーク構造を図4と図5に示します。元の構造と比較して、入力層に改良が加えられ、特徴画像を入力層として使用しました。統合ネットワーク構造の認識結果は、CASIA-HWDBデータセットで96.74%に達し、人間の認識レベル(96.13%)を大幅に上回りました。

図3. 「积」という語の特性マップ

図4: オフライン手書き漢字認識AlexNet構造図

図5 オフライン手書き漢字認識のためのGoogleNet構造図

現在、深層学習技術を用いた単一文字認識はある程度良好な成果を上げており、多くの学者がシーケンス情報を含むテキスト行の認識を研究し始めている[4]。この問題に対する大きな可能性を秘めた解決策は、ニューラル・リカレント・ネットワーク (RNN)、LSTM、BLSTM (双方向長短期記憶) などのモデルを適用することです。これらのモデルはシーケンス・データに対する優れたモデリング機能を備えているため、時系列情報を含むテキスト行認識の問題を解決するのに適しています。 LSTM-RNN法は、英語やラテン語などの西洋言語のテキスト行認識において良好な結果を達成している[5-7]。文献[8]***は、LSTM-RNNモデルを中国語のテキスト行認識に適用し、この分野でも先進的なレベルに到達した。つまり、RNN + CNN はエンドツーエンドのディープラーニング モデルをトレーニングでき、テキスト認識を研究するための主な方法でもあります。

応用

テキスト認識は生活の中で幅広い用途に使われています。たとえば、モバイル デバイスでの手書き認識は私たちにとって馴染み深いものになっています。手書き入力機能は、モバイル デバイス (携帯電話、タブレット) の標準機能となっています。

[[225785]]

図6 モバイルデバイスでの手書き認識

テキスト認識によりオフィスの自動化を実現し、紙文書を電子文書に変換します。また、IDカードや郵便番号の識別にも古くから利用されてきました。

図7 文書画像認識

さらに、テキスト認識には多くの興味深い用途があります。たとえば、画像の検索や分類に役立ったり、AR グラスで街頭シーンなどのシーン内のテキストのリアルタイム翻訳を実現したりできます。

[[225786]]

図8 シーンテキスト認識

将来的には、テキスト認識は、画像検索エンジン、自動運転、金融・保険、AR、知能ロボット、教育・医療などの分野でも大きな応用市場を持つようになるだろう[9]。また、視覚障害者が世界を理解したり大ヒット映画を観たりできるようにするなど、多くの革新的なアプリケーションを生み出すこともできます。

結論

現在の人工知能にはさまざまな認識エンジンがあり、これは視覚の問題を解決するためにさまざまな目を使用するのと同じです。また、人工知能における典型的なパターン認識問題として、テキスト認識は数十年の開発を経て大きな成果を上げていますが、まだ十分にスマートで汎用的ではありません。手書き、フォーム、名刺、シーンテキストなどの問題を、普遍的で統一されたソリューションで解決するなど、研究する価値のある側面はまだ多くあります。これにより、テキスト認識の目は、まさに人工知能におけるインテリジェントな目と呼べるようになります。

参考文献:

[1] Jin Lianwen、Zhong Zhuoyao、Yang Zhao、他「手書き中国語文字認識におけるディープラーニングアプリケーションのレビュー[J]」Acta Automatica Sinica、2016、42(8):1125-1141。

[2] Yang W、Jin L、Liu M. パスシグネチャ機能、DropStroke、ディープCNNを使用した中国語文字レベルの筆者識別[J]。2015:546-550。

[3] Zhong Z、Jin L、Xie Z。GoogLeNetと方向性特徴マップを使用した高性能オフライン手書き中国語文字認識[C]//国際文書分析認識会議。IEEEコンピュータ協会、2015:846-850。

[4] Liao M、Shi B、Bai X、et al. TextBoxes: 単一のディープニューラルネットワークによる高速テキスト検出器[J]。2016年。

[5] Frinken V、Uchida S. 制約のない連続手書きテキスト認識のためのディープBLSTMニューラルネットワーク[C]// 国際文書分析認識会議。IEEEコンピュータ協会、2015:911-915。

[6] Rawls S、Cao H、Kumar S、他「セグメンテーションフリーOCRのための畳み込みニューラルネットワークとLSTMの組み合わせ[C]// Iapr国際文書分析認識会議」IEEEコンピュータ協会、2017年:155-160。

[7] Simistira F、Ulhassan A、Papavassiliou V、他「LSTMネットワークを用いた歴史的ギリシャ語多音文字の認識[C]//国際文書分析認識会議」2015:766-770。

[8] Messina R、Louradour J. LSTM-RNNによるセグメンテーションフリー手書き中国語テキスト認識[C]//国際文書分析認識会議。IEEE、2015:171-175。

[9] https://v.qq.com/x/page/u0516hq8ql5.html.

[この記事は51CTOコラムニスト「中国機密協会科学技術支部」によるオリジナル記事です。転載については原著者にお問い合わせください。]

この著者の他の記事を読むにはここをクリックしてください

<<:  劉強東:人工知能の時代が来ています。このチャンスをつかめば、あなたは豊かになれます。

>>:  機械にプライバシーを学習させることはできるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...

...

...

...

生物学的視覚とコンピュータビジョンの違いを理解する方法

[51CTO.com クイック翻訳]人工知能技術の開発初期から、科学者たちは外の世界を「見る」ことが...

人工知能とデータセンター: AI がリソースを大量に必要とする理由

2023 年末までに AI 生成にどれだけのエネルギーが必要になるかについての予測は不正確です。たと...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...

追加データなしで、ImageNetで初めて87.1%の精度を達成した。Yan ShuichengのチームはVOLOをオープンソース化した。

[[407987]]過去 10 年間、コンピューター ビジョン認識タスクは畳み込みニューラル ネッ...

...

データが限られている場合にディープラーニングモデルを最適化する方法

[[198229]]転移学習転移学習とは、ある問題で訓練したモデルを、簡単な調整で新しい問題に適した...

...

人工知能「トレーナー」がAIをより賢くする

「人工知能は子供のようなものです。継続的なトレーニング、調整、育成を通じて、その「IQ」はますます高...

...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...