Python を使用して画像からテーブルを抽出する

Python を使用して画像からテーブルを抽出する

約 1 年前、私はファイルからデータ、主にテーブルに含まれるデータを抽出して構造化するタスクを割り当てられました。私はコンピューター ビジョンに関する事前の知識がなかったため、適切な「プラグ アンド プレイ」ソリューションを見つけるのに苦労していました。当時利用できるオプションは、大規模で扱いにくい最先端のニューラル ネットワーク (NN) ベースのソリューションか、一貫性が十分でない OpenCV ベースのよりシンプルなソリューションのいずれかでした。

既存の OpenCV スクリプトに触発されて、テーブルを抽出するためのシンプルで一貫性のある方法を開発し、それをオープンソースの Python ライブラリ img2table にしました。

リンク: https://github.com/xavctn/img2table

私のライブラリは何をしますか?

ディープラーニング ソリューションと比較すると、この軽量パッケージではトレーニングは不要で、パラメータ化も最小限で済みます。以下の機能を提供します:

  • 表セル レベルの境界ボックスを含む、画像および PDF ファイル内の表を識別します。
  • サポートされている OCR サービス/ツールを使用してテーブル コンテンツを抽出します (現在、Tesseract、PaddleOCR、AWS Textract、Google Vision、Azure OCR がサポートされています)。
  • 結合されたセルなどの複雑なテーブル構造を処理します。
  • 画像の傾きと回転を修正するメソッドを実装します。
  • 抽出されたテーブルは、Pandas DataFrame 表現を含む単純なオブジェクトとして返されます。
  • 抽出されたテーブルを元の構造を保持したまま Excel ファイルとしてエクスポートするオプション。

どうやって使うの?

pip 経由でライブラリをインストールして使用することができます。

 pip install img2table

ドキュメント内のテーブルを識別するのは、1 つの関数を呼び出すだけです。

 from img2table.document import Image # Instantiation of the image img = Image(src="myimage.jpg") # Table identification img_tables = img.extract_tables() # Result of table identification img_tables [ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上記の例で使用されている画像

テーブルの内容を抽出するには、OCR ツールを使用する必要があります。これは次のように実行できます。

 from img2table.document import PDF from img2table.ocr import TesseractOCR # Instantiation of the pdf pdf = PDF(src="mypdf.pdf") # Instantiation of the OCR, Tesseract, which requires prior installation ocr = TesseractOCR(lang="eng") # Table identification and extraction pdf_tables = pdf.extract_tables(ocr=ocr) # We can also create an excel file with the tables pdf.to_xlsx('tables.xlsx', ocr=ocr)

PDFから抽出した表の例

最後に、単純なケースでは、borderless_tables パラメータを設定することで、「境界のない」テーブル抽出を実行できます。これにより、セルを境界線で完全に囲まれる必要のないテーブルを検出できます。

「ボーダーレス」テーブル抽出例

それだけです!実際のところ、ライブラリには複雑なものはあまりありません。他の利用可能なソリューションによってもたらされる複雑さを回避するために、ライブラリをできるだけシンプルに保つことが目標だからです。

より詳細なドキュメントと例については、プロジェクトの GitHub ページをご覧ください: https://github.com/xavctn/img2table

低レベルの実装

すべての画像処理は OpenCV および opencv-python ライブラリを使用して行われます。しかし、これはまだかなり基本的なものです。

アルゴリズムのバックボーンとなるのはハフ変換で、画像内の線を識別し、画像内の水平線と垂直線を検出できます。

 cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

その後、行に対していくつかの処理を実行して行からセルを識別し、次にセルからテーブルを識別します。

アルゴリズムの簡略化された表現を実装する

ほとんどの計算は、優れたパフォーマンスと速度を実現するために Polars を使用して実行されます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

...

Facebook のインタラクティブ ニューラル ネットワーク可視化システム ActiVis がニューラル ネットワークの「ブラック ボックス」を公開

これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...

AI支援ツールを使用してソフトウェア要件を定義する

Userdoc は、ソフトウェア要件ド​​キュメントの作成を支援する AI 支援サービスです。最近の...

黄仁訓:AIは5年以内に人間を超える、OpenAIの最初のAIスーパーコンピュータはマスクによって購入された

11月30日、エヌビディアのCEOジェンスン・フアン氏は水曜日に開催されたニューヨーク・タイムズの年...

オックスフォード大学の科学人気記事、数分でわかる「機械学習とは何か」

[[389147]]人間は経験を通して学び、成長する能力を持っている学習能力と経験を通じてタスクを...

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

[51CTO.comよりオリジナル記事] 10月13日、中関村スタートアップストリートで、中関村ス...

...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

著者 | 宋涛、尚賢、小斌 他アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たち...

会話型AIとその技術コンポーネントの機能を探る

今日では、自動化、人工知能 (AI)、自然言語処理 (NLP) の進歩により、コスト効率の高いデジタ...

...