OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

ドキュメント画像を Markdown 形式に変換したいですか?

以前は、このタスクには、テキスト認識、レイアウトの検出と並べ替え、数式表の処理、テキストのクリーンアップなど、複数のステップが必要でした。

今回は、たった 1 つのコマンドで、マルチモーダル大規模モデルVary がエンドツーエンドで結果を直接出力します。

写真

中国語または英語の長い段落の場合:

写真

数式を含む文書の画像を以下に示します。

写真

または、モバイル ページのスクリーンショット:

写真

写真の表をLaTeX形式に変換することもできます。

写真

もちろん、マルチモードの大型モデルとして、一般的な機能も維持する必要があります。

写真

Vary は大きな可能性と非常に高い可能性を示しています。OCR はもはや長いパイプラインを必要とせず、エンドツーエンドで直接出力できます。また、ユーザーのプロンプトに応じて、LaTeX、Word、Markdown などのさまざまな形式で出力することもできます。

このアーキテクチャは、大規模モデルの極めて強力な言語事前確率を通じて、「杠」や「杜杠」など、OCR で簡単にスペルミスされる文字を回避することもできます。曖昧な文書の場合、言語事前確率の助けを借りて、より強力な OCR 効果を達成することも期待されます。

このプロジェクトは公開されるとすぐに多くのネットユーザーの注目を集め、一部のネットユーザーはそれを見た後に「ゲームを殺せ!」と叫んだ。

写真

では、この効果はどのようにして達成されるのでしょうか?

大きなモデルにインスピレーションを受けて

現在の大規模なマルチモーダル モデルのほとんどは、ビジョン エンコーダーまたは視覚語彙として CLIP を使用しています。実際、4 億の画像とテキストのペアでトレーニングされた CLIP は、強力なビジュアルとテキストのアライメント機能を備えており、ほとんどの日常的なタスクの画像エンコーディングをカバーできます。

しかし、ドキュメントレベルの OCR やチャート理解などの高密度で細粒度の認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかなエンコードの非効率性と語彙外の問題を示します。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模なモデルにとっては「外国語」) に移行する場合、元の語彙は中国語のエンコードに非効率的であるため、より良い結果を得るにはテキスト語彙を拡張する必要があります。

研究チームにインスピレーションを与えたのは、この機能でした。

現在、CLIP ビジュアル語彙に基づくマルチモーダル大規模モデルは同じ問題に直面しています。つまり、論文内の密集したテキストのページなどの「外国語画像」に遭遇すると、画像を効率的にトークン化することが困難です。

Vary はこの問題の解決策です。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます。

写真

既成の CLIP 語彙を直接使用する既存の方法とは異なり、Vary は次の 2 つの段階に分かれています。

最初の段階では、非常に小さなデコーダーのみのネットワークを使用して、自己回帰方式で強力な新しい視覚語彙を生成します。

次に、第 2 段階では、新しい語彙と CLIP 語彙が融合され、新しい機能を使用して LVLM を効率的にトレーニングします。

Vary のトレーニング方法とモデル構造は次のとおりです。

写真

公開データセットとレンダリングされたドキュメント チャートでトレーニングすることにより、Vary はきめ細かい視覚認識機能を大幅に強化します。

バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式のスクリーンショット、チャートの理解機能を刺激します。

さらに、研究チームは、本来は数千のトークンを必要とするページコンテンツが、ドキュメント画像入力を通じて Vary によって 256 個の画像トークンに圧縮され、これにより、さらにページ分析や要約を行うための想像の余地が広がることにも気付きました。

現在、Vary のコードとモデルはオープンソース化されており、誰でも試すことができる Web デモが提供されています。

興味のある友達は行ってみてください〜

<<:  マッキンゼー:2024年にGenAIが人工知能のビジネス界を支配する

>>:  Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識技術を乱用しないでください

[[415783]]最高人民法院は最近、「顔認識技術を用いた個人情報処理に関する民事訴訟における法律...

【コレクション】貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ディープラーニングは、データの経験的学習に基づく機械学習手法であり、近年発展し、人気が高まっています...

北京で百度脳産業イノベーションフォーラムが閉幕、AIの文脈でインテリジェント政府業務を解読

近年、人工知能(AI)の急速な台頭と各産業への応用は、社会経済の生産構造と生産関係に破壊的な影響を及...

...

...

...

...

テクノロジーの本質: コンピューターは私たちの社会をどのように形作るのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIがプログラマーの仕事を奪う:2040年にはAIがプログラマーに取って代わる可能性

米国のオークリッジ国立研究所の一部専門家は、2040年までにAI技術がプログラマーに取って代わるほど...

...

ImageNetは人間の顔をぼかすことにしたが、ハスキー犬の顔の写真の認識率は急上昇した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

ビデオ通話の低品質なビデオとはおさらば: NVIDIA の新しいアルゴリズムはトラフィックを最大 90% 圧縮できます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...