Nougat: 科学文書の OCR 用トランスフォーマー モデル

Nougat: 科学文書の OCR 用トランスフォーマー モデル

人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフィールドは、その幅広い使用例により急速に人気を集めています。光学文字認識 (OCR) は、コンピューター ビジョンにおいて成熟し、広く研究されている分野です。文書のデジタル化、手書き文字認識、シーンテキスト認識など、さまざまな用途があります。数式認識は、学術研究で広く注目されている OCR の分野です。

PDF は最も広く使用されている形式の 1 つであり、書籍に保存されたり、学術雑誌に掲載されたりすることがよくあります。 PDF はインターネット上で 2 番目に多く使用されているデータ形式で、情報の 2.4% を占めており、文書の配信によく使用されます。 PDF ファイルは広く使用されていますが、特に科学研究論文のような高度に専門化された資料を扱う場合には、PDF ファイルから情報を抽出することが困難な場合があります。数式が多数含まれているため、現在の OCR では数式の意味情報が失われる可能性があります。

Meta AI の研究者チームは、「Neural Optical Understanding for Academic Documents (学術文書のニューラル光学理解)」の略称である Nougat と呼ばれるソリューションを考案しました。科学テキストの光学文字認識 (OCR) の場合、Nougat は VIT モデルです。その目的は、これらのファイルをマークアップ言語に変換して、より簡単にアクセスし、機械で読み取り可能にすることです。

このアプローチの有効性を示すために、研究チームは新しい学術論文のデータセットも作成しました。このアプローチは、デジタル時代における科学的知識のアクセシビリティを向上させるための実行可能な答えを提供します。これは、人間が簡単に読める文書と、コンピューターが処理および分析できるテキストとの間のギャップを埋めます。 Nougat は基本的に、ドキュメント ページ (特に PDF) の画像をフォーマットされたマークアップされたテキストに変換するための Transformer ベースのモデルです。

チームは主な貢献を次のようにまとめています。

事前トレーニング済みモデルのリリース: PDF をシンプルなマークアップ言語に変換できる事前トレーニング済みモデルを作成します。この事前トレーニング済みモデルは GitHub で公開されており、誰でもこのモデルと関連コードにアクセスできます。

データセット作成パイプライン: PDF ドキュメントとそれに関連するソース コードを組み合わせたデータセットを構築する方法について説明します。このデータセット開発のアプローチは、Nougat モデルのテストと改善に非常に重要であり、将来のドキュメント分析の研究とアプリケーションにも役立つ可能性があります。

ページの画像のみに依存します。つまり、このモデルでは PDF のスクリーンショットのみが必要なため、元のドキュメントがデジタル テキスト形式で利用できない場合でも、さまざまなソースからコンテンツを抽出するための柔軟なツールとなり、スキャンした紙や書籍で処理できます。

Nougat は、VIT モデルの力を活用して OCR の新しい時代を先導したと言えます。複雑な科学文書を理解し、それを構造化マークアップ言語に変換する能力は、シームレスな情報アクセスへの道を開き、人間の理解と機械分析の間のギャップを埋めます。このイノベーションは学術研究だけでなく、それ以外の分野にも大きな可能性を秘めており、デジタル時代における AI 主導のソリューションの変革力を実証しています。

上記のスクリーンショットは公式サイトからのものです。左の写真は画像ファイル、右の写真はLaTeX構文で生成​​された数式です。

論文と公式ウェブページはこちらです:

https://facebookresearch.github.io/nougat/

ちょっとした不満:FBのプロジェクト管理は相変わらず混乱している

  • NougatにはGitHubページのみが付属しています
  • Segment-anythingには別のドメイン名があり、更新されたブログはai.metaの下にあります。
  • llamaには ai.meta というセカンダリ ディレクトリが 1 つしかありませんが、ai.meta ホームページの一番上に配置されているため、これも重要だと考えられています。
  • dinov2はmetademolabの別のドメイン名に移動しました

ここ数日の内紛とコンピューティングパワー競争のニュースが裏付けられていることがわかります。


<<:  Li YunlongとSheldonはプロのチャット仲間です!ロールプレイングシステム「ChatHaruhi」は人気があり、32の中国語と外国語のキャラクターをサポートし、54,000の対話データをオープンソース化しています。

>>:  推理力が2倍にアップ!プリンストン大学と北京大学の卒業生がロング「メデューサ」を提供、33Bモデルは13Bと同等の速さ

ブログ    

推薦する

人工直感は人工知能の次の発展方向となるだろう

AI はこれまでに開発された最も強力なテクノロジーの 1 つですが、すでに 4 回の進化を経ています...

AIが顧客関係管理を改善する3つの方法

AI には、CRM に関連する手動プロセスから組織を解放し、顧客エンゲージメント、販売分析情報、ソー...

AIアーキテクトとはどのような人達でしょうか?

アシュトーシュ・グプタ翻訳者: ブガッティ企画丨孫淑娥亮策要するに:人工知能 (AI) プロジェクト...

脳コンピューター知能はますます熱を帯びており、AIは将来重要な役割を果たす可能性がある

アメリカのSF大作では、脳の記憶を読んだり、脳を通じて他人をコントロールしたりすることがよく行われて...

...

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

コードコーパス、大規模モデル、インテリジェントエージェントの魔法の杖を振ると、より強力なエネルギーが呼び出されます

熱帯雨林の杖が、ダンブルドアのようなあらゆる時代の並外れた魔法使いの伝説を生み出したのと同じように、...

ブロックチェーン投資の10大リスクポイント。これらを理解していないなら投資しないでください!

「ブロックチェーン」という言葉は、間違いなく過去1年間で最もホットな投資概念です。ビットコインなど...

2023年の人工知能に関する6つの予測

現在の AI ブームと展望に基づいて、2023 年の AI に関して専門家が予測する 6 つの点を紹...

Zookeeper の選出アルゴリズムとスプリットブレイン問題の詳細な説明

ZKの紹介ZK = 動物園の飼育係ZK は、マイクロサービス ソリューションにおけるサービス登録と検...

機械学習ガバナンスとは何ですか?

なぜ組織は機械学習のガバナンスに苦労するのでしょうか? 組織の機械学習ガバナンスに取り組もうとすると...

AIが研究者に歴史の匂いを再現する手助けをする方法

欧州連合は、AIを使って歴史的な香りや嗅覚要素を再現することを計画している研究チームに280万ユーロ...

あなたの写真を「秘密裏に」使用した顔認識システムはいくつありますか?ツールを使って確認する時が来た

テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...

国防総省は「数日前」に出来事を予測できる人工知能をテストしている

クラウド コンピューティングもこの設定で重要な役割を果たし、世界中から収集された膨大な量のデータを効...

ソフトウェア開発者の生産性を測定する価値はあるでしょうか?

ほとんどの企業はデジタル戦略に取り組んでおり、従業員の生産性を向上させる方法を模索していますが、同時...