Python を使用して画像からテーブルを抽出する

約 1 年前、私はファイルからデータ、主にテーブルに含まれるデータを抽出して構造化するタスクを割り当てられました。私はコンピュータービジョンに関する事前の知識がなかったため、適切な「プラグアンドプレイ」ソリューションを見つけるのに苦労していました。当時利用できるオプションは、大規模で扱いにくい最先端のニューラルネットワーク (NN) ベースのソリューションか、一貫性が十分でない OpenCV ベースのよりシンプルなソリューションのいずれかでした。

既存の OpenCV スクリプトに触発されて、テーブルを抽出するためのシンプルで一貫性のある方法を開発し、それをオープンソースの Python ライブラリ img2table にしました。

リンク: https://github.com/xavctn/img2table

私のライブラリは何をしますか?

ディープラーニングソリューションと比較すると、この軽量パッケージではトレーニングは不要で、パラメータ化も最小限で済みます。以下の機能を提供します:

表セルレベルの境界ボックスを含む、画像および PDF ファイル内の表を識別します。
サポートされている OCR サービス/ツールを使用してテーブルコンテンツを抽出します (現在、Tesseract、PaddleOCR、AWS Textract、Google Vision、Azure OCR がサポートされています)。
結合されたセルなどの複雑なテーブル構造を処理します。
画像の傾きと回転を修正するメソッドを実装します。
抽出されたテーブルは、Pandas DataFrame 表現を含む単純なオブジェクトとして返されます。
抽出されたテーブルを元の構造を保持したまま Excel ファイルとしてエクスポートするオプション。

どうやって使うの？

pip 経由でライブラリをインストールして使用することができます。

 pip install img2table

ドキュメント内のテーブルを識別するのは、1 つの関数を呼び出すだけです。

 from img2table.document import Image # Instantiation of the image img = Image(src="myimage.jpg") # Table identification img_tables = img.extract_tables() # Result of table identification img_tables [ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上記の例で使用されている画像

テーブルの内容を抽出するには、OCR ツールを使用する必要があります。これは次のように実行できます。

 from img2table.document import PDF from img2table.ocr import TesseractOCR # Instantiation of the pdf pdf = PDF(src="mypdf.pdf") # Instantiation of the OCR, Tesseract, which requires prior installation ocr = TesseractOCR(lang="eng") # Table identification and extraction pdf_tables = pdf.extract_tables(ocr=ocr) # We can also create an excel file with the tables pdf.to_xlsx('tables.xlsx', ocr=ocr)

PDFから抽出した表の例

最後に、単純なケースでは、borderless_tables パラメータを設定することで、「境界のない」テーブル抽出を実行できます。これにより、セルを境界線で完全に囲まれる必要のないテーブルを検出できます。

「ボーダーレス」テーブル抽出例

それだけです！実際のところ、ライブラリには複雑なものはあまりありません。他の利用可能なソリューションによってもたらされる複雑さを回避するために、ライブラリをできるだけシンプルに保つことが目標だからです。

より詳細なドキュメントと例については、プロジェクトの GitHub ページをご覧ください: https://github.com/xavctn/img2table

低レベルの実装

すべての画像処理は OpenCV および opencv-python ライブラリを使用して行われます。しかし、これはまだかなり基本的なものです。

アルゴリズムのバックボーンとなるのはハフ変換で、画像内の線を識別し、画像内の水平線と垂直線を検出できます。

 cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

その後、行に対していくつかの処理を実行して行からセルを識別し、次にセルからテーブルを識別します。

アルゴリズムの簡略化された表現を実装する

ほとんどの計算は、優れたパフォーマンスと速度を実現するために Polars を使用して実行されます。

<<:

>>:

ブログ

ブログ

Python を使用して画像からテーブルを抽出する

私のライブラリは何をしますか?

どうやって使うの？

低レベルの実装

企業はどのように人工知能を導入し、そこから価値を得ることができるのでしょうか?

AIの未来: 汎用人工知能

巨大企業間の今後の AI 戦争: マイクロソフトは左に進んで 2B、グーグルは右に進んで 2C

315 顔認識は安全性が疑問視されており、新たな潜在的な脅威となる可能性があるのでしょうか?

推薦する

アリババDAMOアカデミーがAI分野の権威あるランキングトップ6を獲得：人間の学習方法で人間を超える

ビッグデータと機械学習を駆使して12星座の素顔を明らかにする！

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

機械学習のエントリーレベルのプラットフォームの上限であり、古典的なチュートリアルを無料で練習することもできます。これは本当に比類のないものです。

中国が独自開発したプライバシーコンピューティングTEE技術が金融技術製品認証に合格し、アントグループが研究開発をリード

AIが品質保証を向上させる6つのヒント

AI戦略に関するCIOの4つの優先事項

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します！

[NCTSサミットレビュー] Ali Yuyao: 画像インテリジェンスアルゴリズムに基づいてクライアント上のH5ページテストの効率を向上させる軽量ソリューション

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

グーグル元会長「人工知能だけでは市場を創出できない」

人工知能は人間と同じくらい創造的になれるのでしょうか?

2021 年と自動化: 完璧な組み合わせ?