学者は大喜び!MetaがPDFと数式を変換できるOCRツールをリリース

学者は大喜び!MetaがPDFと数式を変換できるOCRツールをリリース

私たちが通常、論文や科学文献を読むときに目にするファイル形式は、基本的に PDF (Portable Document Format) です。 PDF はインターネット上で 2 番目に重要なデータ形式となり、総訪問数の 2.4% を占めていることがわかっています。

ただし、PDF などのファイルに保存された情報は、変換プロセス中に大量の情報が失われるため、特に数式など、他の形式に変換するのは困難です。下の図に示すように、数式を含む PDF は変換がより困難になります。

現在、Meta AI はこの問題をうまく解決できる OCR ツールをリリースしました。このツールの名前は Nougat です。 Nougat は Transformer モデルに基づいて構築されており、PDF ドキュメントを MultiMarkdown に簡単に変換できます。スキャンした PDF も変換でき、頭を悩ませる数式も問題ありません。

  • 論文アドレス: https://arxiv.org/pdf/2308.13418v1.pdf
  • プロジェクトのホームページ: https://facebookresearch.github.io/nougat/

Nougat は、テキスト内に表示される単純な数式を認識できるだけでなく、複雑な数式を比較的高い精度で変換することもできます。

数式に現れる上付き文字や下付き文字などのさまざまな数学形式も明確に区別されています。

Nougat はテーブルも認識します:

歪んだテキストのスキャンも処理できます:

ただし、Nougat によって生成されたドキュメントには、次の棒グラフのような画像は含まれません。

これを見たネットユーザーたちは「(変換)効果はすごい」とコメントした。

方法の概要

提案されたアーキテクチャは、エンドツーエンドのトレーニングを可能にし、ドーナツ アーキテクチャに基づいたエンコーダー/デコーダー トランスフォーマー アーキテクチャです。このモデルは OCR 関連の入力やモジュールを必要とせず、テキストはネットワークによって暗黙的に認識されます。このアプローチの概要を以下の図 1 に示します。

この研究では、350M パラメータと処理可能なシーケンス長 4096 を持つ Swin Transformer と、250M パラメータとシーケンス長 3584 を持つ Swin Transformer の 2 つを使用しました。推論中は、貪欲デコードを使用してテキストが生成されます。

画像認識タスクでは、一般化機能を向上させるためにデータ拡張技術を使用すると有益な場合がよくあります。この記事ではデジタル化された学術研究論文のみを研究しているため、スキャンされた文書の不完全性と変動性をシミュレートするには、いくつかの変換が必要です。これらの変換には、侵食、膨張、ガウス ノイズ、ガウス ブラー、ビットマップ変換、画像圧縮、メッシュ変形、弾性変換が含まれます。各変換には、特定の画像に適用される一定の確率があります。これらの変換は Albumentations ライブラリに実装されています。研究チームはトレーニングの過程で、トークンをランダムに置き換えることで実際のテキストに摂動を加えました。

各変換の効果の概要

データセットの構築と処理

研究チームが知る限り、PDF ページと対応するソースコードのペアのデータセットは存在しないため、arXiv のオープンアクセス記事から独自のデータセットを作成しました。データの多様性のため、PubMed Central (PMC) オープン アクセス非営利データセットのサブセットもデータセットに含まれています。事前トレーニング中に、いくつかの業界ドキュメント ライブラリ (IDL) も追加されます。

表1 データセットの構成

データセットを処理する過程で、研究チームはさまざまなソースからのデータも適切に処理しました。下の図は、arXiv の記事からソース コードを収集し、PDF をコンパイルするプロセスを示しています。詳細は全文をお読みください。

ソース ファイルは HTML に変換され、その後 Markdown に変換されます。

研究チームは、PDF ファイルのページ区切りに従ってマークダウン ファイルを分割し、各ページを画像にラスタライズして、最終的なペア データセットを作成しました。コンパイル プロセス中に、LaTeX コンパイラは PDF ファイルのページ区切りを自動的に決定します。各論文ごとに LaTeX ソース ファイルを再コンパイルしないため、ソース ファイルは異なるページに対応する複数の部分に分割する必要があります。これを行うには、PDF ページに埋め込まれたテキストを使用し、それをソース テキストと照合します。

ただし、PDF 内の図や表は、ソース コード内の位置と一致しない場合があります。この問題に対処するために、研究チームは pdffigures2 を使用して前処理手順でこれらの要素を削除しました。認識された字幕は XML ファイル内の字幕と比較され、レーベンシュタイン距離に基づいてマッチングされます。ソース ドキュメントが個別のページに分割されると、削除された図と表が各ページの最後に再挿入されます。より良い一致を得るために、 pylatexence ライブラリを使用して、PDF テキスト内の Unicode 文字を対応する LaTeX コマンドに置き換えます。

バッグオブワードマッチング: まず、研究チームは MuPDF を使用して PDF からテキスト行を抽出し、ページ番号とヘッダー/フッターを削除する前処理を行いました。次に、TF-IDF ベクトライザーと線形サポート ベクター マシン分類器とともに、バッグ オブ ワード モデルが使用されます。ページ番号のラベルが付いた PDF 行にモデルを適合させます。次に、LaTeX ソースコードを段落に分割し、各段落のページ番号を予測しました。理想的には、予測はステップ関数を形成しますが、実際には信号にノイズが混じります。最適なフロンティアポイントを見つけるために、彼らは決定木のようなロジックを採用し、ジニ不純度ベースのメトリックを最小化します。

ここで、区間[a,b]内で予測ページ番号iの要素を選択する確率であり、どの段落(要素)がセグメンテーションの対象となるかを示します。

区間[a, b]の最適な分割位置tは次のようになります。

検索プロセスはすべての段落から開始され、後続の各ページ区切りでは、検索間隔の下限が前のページ区切りの位置に設定されます。

あいまい一致: 最初の大まかな文書のセグメント化の後、研究チームは段落内の正確な位置を見つけようとしました。これは、fuzzysearch ライブラリを使用して、予測されたセグメンテーション位置の近くのソース テキストを、埋め込まれた PDF テキストの前のページの最後の文と次のページの最初の文と比較することによって実現されます。両方の改ページポイントがソース テキスト内の同じ位置にある場合、ページ改ページは正確であるとみなされ、スコアは 1 になります。一方、分割位置が異なる場合は、正規化されたレーベンシュタイン距離が最小の分割位置が選択され、その距離から 1 を引いたスコアが与えられます。データセットに含めるには、PDF ページの 2 つのページ区切りの平均スコアが少なくとも 0.9 である必要があります。これにより、すべてのページでの承認率は約 47% になります。

実験

実験で使用されるテキストには、プレーンテキスト、数式、表の 3 つのカテゴリが含まれます。

結果を表1に示す。 Nougat は他の方法よりも優れており、すべてのメトリックで最高のスコアを達成し、250M パラメータ モデルのパフォーマンスは 350M パラメータ モデルのパフォーマンスに匹敵します。

次の図は、Nougat での紙の変換結果を示しています。

Meta によれば、Nougat は NVIDIA A10G グラフィック カードと 24GB の VRAM を搭載したマシンで 6 ページを並行して処理できるが、生成速度は主に特定のページのテキスト量に依存するという。推論の最適化を行わない場合、バッチあたりの基本モデルの平均生成時間は 19.5 秒 (トークン数 ≈ 1400) であり、これは従来の方法 (GROBID 10.6 PDF/秒) と比較するとまだ非常に遅いですが、Nougat は数式を正しく解析できます。

<<:  GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

>>: 

ブログ    
ブログ    

推薦する

製造業における機械学習と人工知能

より高品質の製品をより多く、より低コストで生産することは、製造業の永遠の目標です。スマート製造革命に...

IoTセキュリティ戦略における機械学習の重要性

機械学習は、自動化と異常な動作の検出を通じて、よりスケーラブルかつ効率的に IoT デバイスを保護す...

ヤン・ルカンの最新インタビュー: エネルギーモデルは自律型人工知能システムの出発点

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2019年の人工知能の5つの主要な発展傾向

人工知能が開発を加速「中国人工知能産業市場展望及び投資戦略計画分析報告書」の統計によると、2017年...

...

4Paradigm が分子特性予測のための生成型 3D 事前トレーニング済みモデルを開発

論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...

...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

日本は変形可能なロボットボールを月に送り込む予定。ボール全体の重さは250グラム

海外メディアの報道によると、日本は5月31日に、特殊な外観の球形ロボットを月に送る予定だ。この球体ロ...

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...

Hugging FaceはLLM向けの新しいGitHubです

翻訳者 |李睿レビュー | Chonglou大規模言語モデル(LLM)は近年テクノロジー業界に旋風を...

テストフレームワーク - 安全性と自動運転

OWASP (Open Web Application Security Project): OWA...

...

PubDef: パブリックモデルを使用した転送攻撃の防御

翻訳者 |ブガッティレビュー | Chonglou敵対的攻撃は、機械学習システムの信頼性とセキュリテ...

...