無料のリサーチツール! MetaはPDF形式を変換し、数式や表を正確に認識し、スキャンした文書も認識できるNougatをリリースした。

無料のリサーチツール! MetaはPDF形式を変換し、数式や表を正確に認識し、スキャンした文書も認識できるNougatをリリースした。

研究する人は大喜びするでしょう!

最近、Meta AI の研究者は、数分で PDF を MultiMarkdown に変換できる OCR ツール Nougat をリリースしました。

さまざまな複雑な数式、表、テキスト、さらにはスキャンされた PDF もすべて抽出できます。

それは本当に魔法なのでしょうか?上の写真を見ればそれが分かります。

非常に古い本を取り出すと、すべての通知が明確に識別できます。

写真

写真

文書に凹凸があっても、パブリックフォーマットを再現できるので問題ありません。

写真

PDF には、そのまま移動できる表もあります。

写真

ただし、棒グラフを含むドキュメントは、Nougat ではまだ表示できません。

写真

この魔法のような科学研究ツールはどこから来たのでしょうか?

科学研究用 OCR ツールを入手するにはどうすればいいですか?

PDF は HTML に次いでインターネット上で 2 番目に重要なデータ形式であり、訪問数の 2.4% を占めていることを知っておく必要があります。

しかし、研究者にとって最も不便なのは、これらのファイルに保存されている情報を他の形式で抽出することが難しいことです。

これは、数式に関する意味情報が失われている科学研究論文などの高度に専門化された文書の場合に特に当てはまります。

これに対応して、Meta の研究者は、Vision Transformer アーキテクチャに基づいて、特に科学文書の処理に特化した光学式文字認識 (OCR) ツール Nougat を開発しました。

従来の OCR とは異なり、Nougat はページ全体を処理でき、出力形式は学術文書の作成に適した MultiMarkdown です。

最も重要なのは、数式の上付き文字と下付き文字の処理が非常に簡単になることです。

写真

論文アドレス: https://arxiv.org/pdf/2308.13418.pdf

具体的には、Nougat は、エンドツーエンドのトレーニングを可能にし、主に Donut アーキテクチャ上に構築されたエンコーダー/デコーダー Transformer アーキテクチャです。

このモデルでは、OCR 関連の入力やモジュールは必要なく、テキストはネットワークによって暗黙的に認識されます。

写真

エンコーダ

ビジュアル エンコーダーはドキュメント イメージを取り込み、余白を切り取り、サイズ (H、W) の固定された長方形に収まるようにイメージのサイズを変更します。

画像が長方形より小さい場合は、各画像が同じ寸法になるように追加のパディングが追加されます。

ここで、研究者らは Swin Transformer Swin を使用しました。これは、画像を固定サイズの重複しないウィンドウに分割し、一連の自己注意レイヤーを適用してこれらのウィンドウの情報を集約します。

モデルは埋め込まれたパッチのシーケンスを出力します。ここで、d は潜在的な次元、N はパッチの数です。

デコーダ

エンコードされた画像 z は、交差アテンションを備えた Transformer デコーダー アーキテクチャを使用してトークン シーケンスにデコードされます。

トークンは自己回帰方式で生成され、自己注意と相互注意を使用して、それぞれ入力シーケンス R とエンコーダー出力の異なる部分に焦点を当てます。最後に、出力は語彙vのサイズに投影され、ロジットが生成されます

データ拡張

画像認識タスクでは、一般化機能を向上させるためにデータ拡張を使用すると有益な場合がよくあります。

この研究ではデジタルで生成された学術研究論文のみを使用したため、スキャンされた文書の不完全さと変動性をシミュレートするために、いくつかの変換が必要でした。

これらの変換には、侵食、膨張、ガウス ノイズ、ビットマップ変換、画像圧縮、メッシュの歪み、弾性変換が含まれます。それぞれが特定の画像に適用される確率は固定されています。これらの変換は Albumentations ライブラリに実装されています。

写真

モデルをトレーニングするために、研究チームはarxivやPubMed Centralなどのプラットフォームからの科学論文PDFのデータセットと、著者からの対応するLaTeXソースコードを使用しました。

このデータセットは合計 800 万ページ以上で構成されています。

研究者たちはデータを収集した後、まず元の文書を HTML に変換し、次に Markdown 形式に変換してデータを処理しました。

写真

具体的には、研究者らは PDF ファイルのページ区切りに従って Markdown ファイルを分割し、各ページを画像にラスタライズして最終的なペア データセットを作成しました。

コンパイル プロセス中に、LaTeX コンパイラは PDF ファイルのページ区切りを自動的に決定します。

実験結果

テストでは、Nougat は科学論文からテキスト、数式、表を抽出する際に高い精度を示しました。

写真

連続テキストの場合、91% を超える BLEU スコアと 96% を超える精度を達成します。

数式と表のパフォーマンスは 75% 強と低かったものの、数式の精度が 11% 弱だった GROBID などの代替手段よりもはるかに信頼性が高かった。

写真

ただし、ドキュメント間の一貫性を管理し、生成プロセスでテキストサイクルの繰り返しを回避するには、まだいくつかの課題が残っています。

写真

実験結果によると、ロジット繰り返し検出の例は次のようになります。

写真

Meta チームは、Nougat は PDF の研究論文を構造化された機械可読テキストに変換することで、科学的知識へのアクセスを向上させる有望なソリューションであると述べています。

これにより、PDF とテキスト間のギャップが埋められ、何百万もの科学論文へのアクセスが容易になります。

参考文献:

https://the-decoder.com/nougat-metas-latest-ai-model-makes-scientific-pdfs-machine-readable/

<<:  テレンス・タオ氏の新論文の秘密兵器が明らかに:AIを使ってLaTeXをスムーズに書く

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

2019年12月10日、北京で百度地図生態系会議が開催され、「新世代人工知能地図」の生態パノラマが...

ジョン・マカフィーの意見: 人工知能は人類を滅ぼすのか?

2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...

...

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

知らせ! GPT を作成するときにアップロードしたデータは、誰でも簡単にダウンロードできます...た...

...

米政府、AIの競争力と倫理について助言する委員会を設立

[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...

顔認識技術: スマートシティのためのスマートなソリューション

スマート シティは、接続性とデジタル イノベーションの未来として注目されています。 英国だけでも、全...

...

KPMG: 大企業における AI 活用の 8 つのトレンド

概要: KPMG の新しいレポートでは、大企業がどのように人工知能と機械学習の技術に投資し、導入して...

ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用

論文のデータセットとコードはオープンソース化されています: https://zenodo.org/r...

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。しかし、...

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニ...

ドイツの中小企業の35%以上がすでに人工知能技術を活用

序文ドイツ連邦政府は2018年に「ドイツ人工知能開発戦略」を発表し、人工知能分野におけるドイツの研究...

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...

...