人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフィールドは、その幅広い使用例により急速に人気を集めています。光学文字認識 (OCR) は、コンピューター ビジョンにおいて成熟し、広く研究されている分野です。文書のデジタル化、手書き文字認識、シーンテキスト認識など、さまざまな用途があります。数式認識は、学術研究で広く注目されている OCR の分野です。 PDF は最も広く使用されている形式の 1 つであり、書籍に保存されたり、学術雑誌に掲載されたりすることがよくあります。 PDF はインターネット上で 2 番目に多く使用されているデータ形式で、情報の 2.4% を占めており、文書の配信によく使用されます。 PDF ファイルは広く使用されていますが、特に科学研究論文のような高度に専門化された資料を扱う場合には、PDF ファイルから情報を抽出することが困難な場合があります。数式が多数含まれているため、現在の OCR では数式の意味情報が失われる可能性があります。 Meta AI の研究者チームは、「Neural Optical Understanding for Academic Documents (学術文書のニューラル光学理解)」の略称である Nougat と呼ばれるソリューションを考案しました。科学テキストの光学文字認識 (OCR) の場合、Nougat は VIT モデルです。その目的は、これらのファイルをマークアップ言語に変換して、より簡単にアクセスし、機械で読み取り可能にすることです。 このアプローチの有効性を示すために、研究チームは新しい学術論文のデータセットも作成しました。このアプローチは、デジタル時代における科学的知識のアクセシビリティを向上させるための実行可能な答えを提供します。これは、人間が簡単に読める文書と、コンピューターが処理および分析できるテキストとの間のギャップを埋めます。 Nougat は基本的に、ドキュメント ページ (特に PDF) の画像をフォーマットされたマークアップされたテキストに変換するための Transformer ベースのモデルです。 チームは主な貢献を次のようにまとめています。 事前トレーニング済みモデルのリリース: PDF をシンプルなマークアップ言語に変換できる事前トレーニング済みモデルを作成します。この事前トレーニング済みモデルは GitHub で公開されており、誰でもこのモデルと関連コードにアクセスできます。 データセット作成パイプライン: PDF ドキュメントとそれに関連するソース コードを組み合わせたデータセットを構築する方法について説明します。このデータセット開発のアプローチは、Nougat モデルのテストと改善に非常に重要であり、将来のドキュメント分析の研究とアプリケーションにも役立つ可能性があります。 ページの画像のみに依存します。つまり、このモデルでは PDF のスクリーンショットのみが必要なため、元のドキュメントがデジタル テキスト形式で利用できない場合でも、さまざまなソースからコンテンツを抽出するための柔軟なツールとなり、スキャンした紙や書籍で処理できます。 Nougat は、VIT モデルの力を活用して OCR の新しい時代を先導したと言えます。複雑な科学文書を理解し、それを構造化マークアップ言語に変換する能力は、シームレスな情報アクセスへの道を開き、人間の理解と機械分析の間のギャップを埋めます。このイノベーションは学術研究だけでなく、それ以外の分野にも大きな可能性を秘めており、デジタル時代における AI 主導のソリューションの変革力を実証しています。 上記のスクリーンショットは公式サイトからのものです。左の写真は画像ファイル、右の写真はLaTeX構文で生成された数式です。 論文と公式ウェブページはこちらです: https://facebookresearch.github.io/nougat/ ちょっとした不満:FBのプロジェクト管理は相変わらず混乱している
ここ数日の内紛とコンピューティングパワー競争のニュースが裏付けられていることがわかります。 |
>>: 推理力が2倍にアップ!プリンストン大学と北京大学の卒業生がロング「メデューサ」を提供、33Bモデルは13Bと同等の速さ
「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...
ディープラーニングを学ぶ過程では、私たちが当たり前だと思っているさまざまな噂やさまざまな「こだわり」...
[51CTO.com クイック翻訳]テクノロジーの進歩と発展により、バーチャル試着室が人々の生活に入...
専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...
【51CTO.comオリジナル記事】 「物理システムのデジタルコピーを使用してリアルタイムで最適化す...
[[191744]]バッチ正規化は、ディープラーニングにおいて最近登場した効果的な手法です。その有効...
最近、著名な国際データ調査機関であるガートナーが「市場ガイド:中国AIスタートアップ」調査レポートを...
コンセンサス メカニズムは、ブロックチェーン システムで新しいブロックを生成する責任者を決定する役割...
GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...
FraudGPT の「成功」は、生成 AI の武器化とハッキング技術の民主化という危険な時代の到来...
ファイザーの最高デジタル・技術責任者リディア・フォンセカ氏は、機械学習技術は医薬品の発見、臨床試験、...
索引多層パーセプトロン (MLP) 入門ディープニューラルネットワークの活性化関数ディープニューラル...
ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注...