学者は大喜び!MetaがPDFと数式を変換できるOCRツールをリリース

学者は大喜び!MetaがPDFと数式を変換できるOCRツールをリリース

私たちが通常、論文や科学文献を読むときに目にするファイル形式は、基本的に PDF (Portable Document Format) です。 PDF はインターネット上で 2 番目に重要なデータ形式となり、総訪問数の 2.4% を占めていることがわかっています。

ただし、PDF などのファイルに保存された情報は、変換プロセス中に大量の情報が失われるため、特に数式など、他の形式に変換するのは困難です。下の図に示すように、数式を含む PDF は変換がより困難になります。

現在、Meta AI はこの問題をうまく解決できる OCR ツールをリリースしました。このツールの名前は Nougat です。 Nougat は Transformer モデルに基づいて構築されており、PDF ドキュメントを MultiMarkdown に簡単に変換できます。スキャンした PDF も変換でき、頭を悩ませる数式も問題ありません。

  • 論文アドレス: https://arxiv.org/pdf/2308.13418v1.pdf
  • プロジェクトのホームページ: https://facebookresearch.github.io/nougat/

Nougat は、テキスト内に表示される単純な数式を認識できるだけでなく、複雑な数式を比較的高い精度で変換することもできます。

数式に現れる上付き文字や下付き文字などのさまざまな数学形式も明確に区別されています。

Nougat はテーブルも認識します:

歪んだテキストのスキャンも処理できます:

ただし、Nougat によって生成されたドキュメントには、次の棒グラフのような画像は含まれません。

これを見たネットユーザーたちは「(変換)効果はすごい」とコメントした。

方法の概要

提案されたアーキテクチャは、エンドツーエンドのトレーニングを可能にし、ドーナツ アーキテクチャに基づいたエンコーダー/デコーダー トランスフォーマー アーキテクチャです。このモデルは OCR 関連の入力やモジュールを必要とせず、テキストはネットワークによって暗黙的に認識されます。このアプローチの概要を以下の図 1 に示します。

この研究では、350M パラメータと処理可能なシーケンス長 4096 を持つ Swin Transformer と、250M パラメータとシーケンス長 3584 を持つ Swin Transformer の 2 つを使用しました。推論中は、貪欲デコードを使用してテキストが生成されます。

画像認識タスクでは、一般化機能を向上させるためにデータ拡張技術を使用すると有益な場合がよくあります。この記事ではデジタル化された学術研究論文のみを研究しているため、スキャンされた文書の不完全性と変動性をシミュレートするには、いくつかの変換が必要です。これらの変換には、侵食、膨張、ガウス ノイズ、ガウス ブラー、ビットマップ変換、画像圧縮、メッシュ変形、弾性変換が含まれます。各変換には、特定の画像に適用される一定の確率があります。これらの変換は Albumentations ライブラリに実装されています。研究チームはトレーニングの過程で、トークンをランダムに置き換えることで実際のテキストに摂動を加えました。

各変換の効果の概要

データセットの構築と処理

研究チームが知る限り、PDF ページと対応するソースコードのペアのデータセットは存在しないため、arXiv のオープンアクセス記事から独自のデータセットを作成しました。データの多様性のため、PubMed Central (PMC) オープン アクセス非営利データセットのサブセットもデータセットに含まれています。事前トレーニング中に、いくつかの業界ドキュメント ライブラリ (IDL) も追加されます。

表1 データセットの構成

データセットを処理する過程で、研究チームはさまざまなソースからのデータも適切に処理しました。下の図は、arXiv の記事からソース コードを収集し、PDF をコンパイルするプロセスを示しています。詳細は全文をお読みください。

ソース ファイルは HTML に変換され、その後 Markdown に変換されます。

研究チームは、PDF ファイルのページ区切りに従ってマークダウン ファイルを分割し、各ページを画像にラスタライズして、最終的なペア データセットを作成しました。コンパイル プロセス中に、LaTeX コンパイラは PDF ファイルのページ区切りを自動的に決定します。各論文ごとに LaTeX ソース ファイルを再コンパイルしないため、ソース ファイルは異なるページに対応する複数の部分に分割する必要があります。これを行うには、PDF ページに埋め込まれたテキストを使用し、それをソース テキストと照合します。

ただし、PDF 内の図や表は、ソース コード内の位置と一致しない場合があります。この問題に対処するために、研究チームは pdffigures2 を使用して前処理手順でこれらの要素を削除しました。認識された字幕は XML ファイル内の字幕と比較され、レーベンシュタイン距離に基づいてマッチングされます。ソース ドキュメントが個別のページに分割されると、削除された図と表が各ページの最後に再挿入されます。より良い一致を得るために、 pylatexence ライブラリを使用して、PDF テキスト内の Unicode 文字を対応する LaTeX コマンドに置き換えます。

バッグオブワードマッチング: まず、研究チームは MuPDF を使用して PDF からテキスト行を抽出し、ページ番号とヘッダー/フッターを削除する前処理を行いました。次に、TF-IDF ベクトライザーと線形サポート ベクター マシン分類器とともに、バッグ オブ ワード モデルが使用されます。ページ番号のラベルが付いた PDF 行にモデルを適合させます。次に、LaTeX ソースコードを段落に分割し、各段落のページ番号を予測しました。理想的には、予測はステップ関数を形成しますが、実際には信号にノイズが混じります。最適なフロンティアポイントを見つけるために、彼らは決定木のようなロジックを採用し、ジニ不純度ベースのメトリックを最小化します。

ここで、区間[a,b]内で予測ページ番号iの要素を選択する確率であり、どの段落(要素)がセグメンテーションの対象となるかを示します。

区間[a, b]の最適な分割位置tは次のようになります。

検索プロセスはすべての段落から開始され、後続の各ページ区切りでは、検索間隔の下限が前のページ区切りの位置に設定されます。

あいまい一致: 最初の大まかな文書のセグメント化の後、研究チームは段落内の正確な位置を見つけようとしました。これは、fuzzysearch ライブラリを使用して、予測されたセグメンテーション位置の近くのソース テキストを、埋め込まれた PDF テキストの前のページの最後の文と次のページの最初の文と比較することによって実現されます。両方の改ページポイントがソース テキスト内の同じ位置にある場合、ページ改ページは正確であるとみなされ、スコアは 1 になります。一方、分割位置が異なる場合は、正規化されたレーベンシュタイン距離が最小の分割位置が選択され、その距離から 1 を引いたスコアが与えられます。データセットに含めるには、PDF ページの 2 つのページ区切りの平均スコアが少なくとも 0.9 である必要があります。これにより、すべてのページでの承認率は約 47% になります。

実験

実験で使用されるテキストには、プレーンテキスト、数式、表の 3 つのカテゴリが含まれます。

結果を表1に示す。 Nougat は他の方法よりも優れており、すべてのメトリックで最高のスコアを達成し、250M パラメータ モデルのパフォーマンスは 350M パラメータ モデルのパフォーマンスに匹敵します。

次の図は、Nougat での紙の変換結果を示しています。

Meta によれば、Nougat は NVIDIA A10G グラフィック カードと 24GB の VRAM を搭載したマシンで 6 ページを並行して処理できるが、生成速度は主に特定のページのテキスト量に依存するという。推論の最適化を行わない場合、バッチあたりの基本モデルの平均生成時間は 19.5 秒 (トークン数 ≈ 1400) であり、これは従来の方法 (GROBID 10.6 PDF/秒) と比較するとまだ非常に遅いですが、Nougat は数式を正しく解析できます。

<<:  GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

>>: 

ブログ    

推薦する

2021年に注目すべき5つのロボットトレンド

[[388526]]画像ソース: https://pixabay.com/images/id-520...

人工知能が再び警告を発する!研究者は懸念している:将来、研究者が全てを支配することになる

人間と超人工知能の関係の発展は、長年にわたり話題となっている。少し前に、「人工知能研究ジャーナル」で...

IBMは信頼性の低い量子コンピューティングの問題を克服し、エラー軽減を使用して有用な計算を実現し、Natureの表紙を飾った。

量子コンピューティングは長い間、特定の問題に関して従来のコンピューティングよりも高速であると期待され...

...

AI医薬品製造の全体像を理解するための1つの記事:年間売上高300億元、明確な3つの階層

次々と資金調達を行っているAI医薬品製造は、どれほど人気が​​あるのでしょうか?海外からの最高受注額...

敵対的機械学習の初心者向けガイド

敵対的機械学習とは、主に、攻撃者の能力と攻撃の結果の調査と理解に基づいて、セキュリティ上の課題 (攻...

人間と機械のインターフェースは一貫性があり、音声と触覚によるフィードバックを提供する必要がある。

[[187855]]仮想環境を体験し、対話する機能は、仮想現実 (VR) メディアの独自の機能です...

キングソフトAIラボが最初の実装計画を発表、AIの最も難しい部分を選択した

[[255298]] 「2014年に私は、30年前に設立されたKingsoft WPSは雷軍によって...

TCPとUDPの違いと、フロー制御、輻輳制御、高速再送、高速回復アルゴリズムの詳細な説明

[[413351]] UDPとTCPの違い前回の記事では、TCP の接続を確立するための 3 ウェイ...

...

...

MITが世界の画期的な技術トップ10をランク付け、アリババはそのうち4つを研究中

2月22日のニュース:昨日、権威あるアメリカの科学雑誌「MITテクノロジーレビュー」は、2018年の...

蘇寧における知識抽出分野におけるディープラーニングの試みと実践

[[257470]] 【51CTO.comオリジナル記事】背景近年、膨大なデータの蓄積、計算能力の向...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...