PDF テーブルを抽出するニューラルネットワークツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

[[335375]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

いとこたちは、PDF ファイル内の表の数が多いことにまだ悩んでいますか?

Baidu で検索すると、インターネット上に PDF テーブルを抽出するツールが多数あることがわかりますが、それらはテキスト形式の PDF のみをサポートしています。

しかし、スキャンによって生成された画像テーブルはどうでしょうか?

心配しないでください。ディープニューラルネットワークを使用してテーブルを認識して抽出するオープンソースツールが役立ちます。

画像と互換性があり、精度が高く、ローカルのコンピューティングリソースを占有しないため、このような実用的なツールは持つ価値があります。

テスト例

入力 PDF ファイルで表が検出されると、モデルは境界ボックス内に表の境界をマークします。

表形式のデータは、簡単に処理できるように Panda データフレームに変換されます。

どうですか、実用的じゃないですか？それで、このツールはどのように使用するのでしょうか?

姿勢の詳しい説明

ニューラルネットワークアルゴリズムはローカルコンピューティングリソースを占有しませんか?

はい、お聞きの通り、このツールのすべてのコードは Google Colab で実行できます。つまり、ローカルにインストールしなくても、Colab クラウドリソースを使用してトレーニングと推論を完了できます。

このツールで使用されるディープニューラルネットワークは Keras-RetinaNet です。まず、Colab に Keras-RetinaNet をインストールする必要があります。これは次のコード行で実行できます。

 git クローンhttps://github.com/fizyr/keras-retinanet

同時に、必要なライブラリをインストールする必要があります。

 pip install .python setup.py build_ext — インプレース

Keras-RetinaNet をトレーニングしてテーブルを認識する

まず、トレーニングデータベースを構築する必要があります。

ここでは、アルゴリズム学習のために、Colab ツールPDF2Imgを使用して PDF ファイルを JPG 形式に変換する必要があります。

次に、変換した画像を Images フォルダに保存します。次に、これらのトレーニングデータに手動でラベルを付ける必要があります。ここでは、オンラインラベリングツール makesense.ai を使用することをお勧めします。

XML 注釈ファイルを注釈フォルダーに保存し、トレーニング用とテスト用の PDF ファイルのリストを作成し、そのリストを train.txt と test.txt にインポートします。

次に、Github プロジェクト https://github.com/ferrygun/PDFTableExtract をクローンし、beautifulsoup をインストールします。

次のコマンドを実行して、PASCAL VOC 形式を Keras-RetinaNet に必要な形式に変換します。

 Python ビルド_logos.py

上記のコマンドを実行すると、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv が取得されます。

retinanet_classes.csv では、PDF ドキュメント内のテーブルのみが認識されるため、クラスは 1 つ (クラス 0) のみです。

タグ付けプロセス中にヘッダー、フッター、その他のタグを追加すると、それに応じて複数のクラスが取得されます。

ファイルとフォルダ構造の完全なリスト:

次に、retinanet_classes.csv、retinanet_test.csv、retinanet_train.csv、train.txt、test.txt を keras-retinanet のルートフォルダーにインポートします。

次に、Colab TrainOCR を実行します。トレーニングする JPG ファイルの数に応じて、トレーニングエポックの数を調整できます。

トレーニングが完了すると、重みファイル output.h5 が取得されます。このファイルをダウンロードしてローカルホストに保存します。このファイルは後でテストを実行するために使用されます。

ここで注目すべき点は、Colab ではファイルが Git にアップロードされ、Git によってクローンされていることです。

テストの実行

テストを実行する前に、PDF ファイルの処理に必要なライブラリもインストールする必要があります。

PyPDF2 は、ドキュメント情報を抽出したり、ページを切り取ったりできる Python ツールライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 PyPDF2 を pip でインストールします

Camelot は、PDF ページテーブルを解析するための Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 pip インストール camelot-py[cv]

PDF2IMG は、PDF を PIL Image オブジェクトに変換する Python ライブラリです。

次のコマンドを使用してこのライブラリをインストールします。

 pip で pdf2imag をインストールします

予測を実行する前に、トレーニングから取得した重みファイル output.h5 を使用してモデルをロードし、retinanet_classes.csv からラベルクラス 0 を定義する必要があります。

 model_path = 'output.h5'model = models.load_model(model_path, backbone_name='resnet50')labels = 'retinanet_classes.csv'LABELS = open(labels).read().strip().split('\n')LABELS = { int (L.split(',')[ 1 ]): L.split(',')[ 0 ] for L in LABELS}print(LABELS){ 0 : 'tabel'}

次にテストを実行します

import numpy as npimport cv2import matplotlib.pyplot as pltimage_path = imgfname#image = cv2.imread(image_path)image = read_image_bgr(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)print(output.shape) # 行 (高さ) x 列 (幅) x 色 ( 3 )image = preprocess_image(image)(image, scale) = resize_image(image)image = np.expand_dims(image, axis= 0 )# 入力画像内のオブジェクトを検出し、画像を修正する scale(boxes, scores, labels) = model.predict_on_batch(image)boxes /= scaleconfidence = 0 .2from google.colab.patches import cv2_imshowimport label_out = []result = "" # 検出結果をループfor (box, score, label) in zip(boxes[ 0 ], scores[ 0 ], labels[ 0 ]): # 弱い検出結果を除外if score < 信頼度: continue # 境界ボックスの座標を浮動小数点数から整数に変換box = box.astype( "int" ) # ラベルを作成し、出力画像にラベル + 境界ボックスを描画labeli = label label = "{}: {:.2f}" .format(LABELS[label], score) print(label) if LABELS[labeli] not in label_out: label_out.append(LABELS[labeli]) cv2.rectangle(output, (box[ 0 ], box[ 1 ]), (box[ 2 ], box[ 3 ]), ( 255 , 0 , 0 ), 12 ) print(box[ 0 ] ]) print(box[ 1 ]) print(box[ 2 ]) print(box[ 3 ]) #結果cv2.putText(出力、ラベル、(box[ 0 ]、box[ 1 ] - 10 )、cv2.FONT_HERSHEY_SIMPLEX、 4.5 、( 255 、 1、1 )、 12 )plt.figure(figsize=( 20 、 20 ))plt.imshow(出力)plt.show()

テーブルが検出されると、モデルは境界ボックス内にテーブルの境界をマークします。

境界ボックスの座標 (x1、y1、x2、y2)、table_area は Camelot read_pdf 関数に入力され、table_area は正規化された境界ボックスです。

 interesting_areas=[]output = [[x1, y1, x2, y2]] for x in output: [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x) bbox_camelot = [ "," .join([str(x1), str(y1), str(x2), str(y2)]) ][ 0 ] # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space #print(bbox_camelot) interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf( filepath=pdf_file, pages=str(pg), flavor= "stream" , table_areas=interesting_areas)output_camelot[ 0 ].df
このようにして、表形式のデータを Panda データ フレームに変換し、後続の処理に使用できます。

写真をどうするか

スキャンされた画像形式の PDF フォームの場合、 Ocrmypdf パッケージを使用して、画像形式の PDF をテキスト形式に変換できます。

Ocrmypdf は、画像ベースの PDF をテキストベースの PDF に変換する Python パッケージです。

次のコマンドラインを使用して、macOS および Linux で利用可能な ocrmypdf をインストールします。

 ocrmypdf をインストール

次のコマンドによって呼び出されます:

 ocrmypdf 入力ファイル.pdf 出力ファイル.pdf

その後は上記の方法でテーブルを抽出できます。

画像に対応し、Google GPU を無料で使用できるこの PDF スプレッドシートツールはいかがでしょうか? 役に立ちますか?

ポータル

プロジェクトアドレス:
https://github.com/ferrygun/PDFTableExtract

オンラインラベリングツール:
https://www.makesense.ai/

<<: 「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

>>: エンジニアの職が危機に：ボストン・ダイナミクスのロボット犬がフォードにエンジニアとして入社！

ブログ

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

PDF テーブルを抽出するニューラルネットワークツールが登場。画像をサポートし、Google GPU リソースを無料で使用できます。

テスト例

姿勢の詳しい説明

Keras-RetinaNet をトレーニングしてテーブルを認識する

テストの実行

写真をどうするか

ポータル

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

人間や魚を認識するAIは人魚も認識できるのか？ Alibaba CVPR 論文における因果推論法の回答

天津大学の学部生の論文がCVPR 2022に選出され、ディープラーニングのロングテール分類で新たなSOTAを達成

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

2018年に人工知能はどのように発展するでしょうか?世界中のトップ20人の専門家がこう言う

Python データ分析の基礎: 外れ値の検出と処理

人工知能はすでに人間の減量を手助けするのに忙しい

推薦する

無料の Python 機械学習コースパート 4: ロジスティック回帰アルゴリズム

企業に利益をもたらす 5 つの AI トレンド

システムの観点から見た中国の人工知能開発の現状

伝染病警報！人工知能は何をするのでしょうか?

4Dミリ波レーダーSLAMソリューション研究

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

AI人材獲得をめぐる世界的な戦いにおいて、子どものプログラミングはどれほどの影響力を持つことができるのでしょうか？

機械学習エンジニアとデータサイエンティストの違い

クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケーススタディ

恒生電子と恒生巨源が共同で新たなデジタル金融商品を発売、金融ビジネスにおける大規模モデル技術の応用に重点