Python を使用して画像からテーブルを抽出する

Python を使用して画像からテーブルを抽出する

約 1 年前、私はファイルからデータ、主にテーブルに含まれるデータを抽出して構造化するタスクを割り当てられました。私はコンピューター ビジョンに関する事前の知識がなかったため、適切な「プラグ アンド プレイ」ソリューションを見つけるのに苦労していました。当時利用できるオプションは、大規模で扱いにくい最先端のニューラル ネットワーク (NN) ベースのソリューションか、一貫性が十分でない OpenCV ベースのよりシンプルなソリューションのいずれかでした。

既存の OpenCV スクリプトに触発されて、テーブルを抽出するためのシンプルで一貫性のある方法を開発し、それをオープンソースの Python ライブラリ img2table にしました。

リンク: https://github.com/xavctn/img2table

私のライブラリは何をしますか?

ディープラーニング ソリューションと比較すると、この軽量パッケージではトレーニングは不要で、パラメータ化も最小限で済みます。以下の機能を提供します:

  • 表セル レベルの境界ボックスを含む、画像および PDF ファイル内の表を識別します。
  • サポートされている OCR サービス/ツールを使用してテーブル コンテンツを抽出します (現在、Tesseract、PaddleOCR、AWS Textract、Google Vision、Azure OCR がサポートされています)。
  • 結合されたセルなどの複雑なテーブル構造を処理します。
  • 画像の傾きと回転を修正するメソッドを実装します。
  • 抽出されたテーブルは、Pandas DataFrame 表現を含む単純なオブジェクトとして返されます。
  • 抽出されたテーブルを元の構造を保持したまま Excel ファイルとしてエクスポートするオプション。

どうやって使うの?

pip 経由でライブラリをインストールして使用することができます。

 pip install img2table

ドキュメント内のテーブルを識別するのは、1 つの関数を呼び出すだけです。

 from img2table.document import Image # Instantiation of the image img = Image(src="myimage.jpg") # Table identification img_tables = img.extract_tables() # Result of table identification img_tables [ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上記の例で使用されている画像

テーブルの内容を抽出するには、OCR ツールを使用する必要があります。これは次のように実行できます。

 from img2table.document import PDF from img2table.ocr import TesseractOCR # Instantiation of the pdf pdf = PDF(src="mypdf.pdf") # Instantiation of the OCR, Tesseract, which requires prior installation ocr = TesseractOCR(lang="eng") # Table identification and extraction pdf_tables = pdf.extract_tables(ocr=ocr) # We can also create an excel file with the tables pdf.to_xlsx('tables.xlsx', ocr=ocr)

PDFから抽出した表の例

最後に、単純なケースでは、borderless_tables パラメータを設定することで、「境界のない」テーブル抽出を実行できます。これにより、セルを境界線で完全に囲まれる必要のないテーブルを検出できます。

「ボーダーレス」テーブル抽出例

それだけです!実際のところ、ライブラリには複雑なものはあまりありません。他の利用可能なソリューションによってもたらされる複雑さを回避するために、ライブラリをできるだけシンプルに保つことが目標だからです。

より詳細なドキュメントと例については、プロジェクトの GitHub ページをご覧ください: https://github.com/xavctn/img2table

低レベルの実装

すべての画像処理は OpenCV および opencv-python ライブラリを使用して行われます。しかし、これはまだかなり基本的なものです。

アルゴリズムのバックボーンとなるのはハフ変換で、画像内の線を識別し、画像内の水平線と垂直線を検出できます。

 cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

その後、行に対していくつかの処理を実行して行からセルを識別し、次にセルからテーブルを識別します。

アルゴリズムの簡略化された表現を実装する

ほとんどの計算は、優れたパフォーマンスと速度を実現するために Polars を使用して実行されます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

2019年12月10日、北京で百度地図生態系会議が開催され、「新世代人工知能地図」の生態パノラマが...

...

ADMap: 干渉防止オンライン高精度マップへの新しいアプローチ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

シングルポイントのエンドツーエンドのテキスト検出および認識フレームワークは 19 倍高速です。華中科技大学、華南理工大学などが共同でSPTS v2をリリース

近年、シーンテキスト読み取り(テキストスポッティング)は大きな進歩を遂げており、テキストの検索と認識...

...

1 つの GPU + 数行のコードで、大規模モデルのトレーニング速度が 40% 向上します。 HuggingFaceのシームレスなサポート

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

インタビュアー: 負荷分散アルゴリズムを理解していますか?

前回の記事では、ポーリング、ランダム、最小接続の 3 つの負荷分散アルゴリズムについて説明しました。...

...

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...