OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

ドキュメント画像を Markdown 形式に変換したいですか?

以前は、このタスクには、テキスト認識、レイアウトの検出と並べ替え、数式表の処理、テキストのクリーンアップなど、複数のステップが必要でした。

今回は、たった 1 つのコマンドで、マルチモーダル大規模モデルVary がエンドツーエンドで結果を直接出力します。

写真

中国語または英語の長い段落の場合:

写真

数式を含む文書の画像を以下に示します。

写真

または、モバイル ページのスクリーンショット:

写真

写真の表をLaTeX形式に変換することもできます。

写真

もちろん、マルチモードの大型モデルとして、一般的な機能も維持する必要があります。

写真

Vary は大きな可能性と非常に高い可能性を示しています。OCR はもはや長いパイプラインを必要とせず、エンドツーエンドで直接出力できます。また、ユーザーのプロンプトに応じて、LaTeX、Word、Markdown などのさまざまな形式で出力することもできます。

このアーキテクチャは、大規模モデルの極めて強力な言語事前確率を通じて、「杠」や「杜杠」など、OCR で簡単にスペルミスされる文字を回避することもできます。曖昧な文書の場合、言語事前確率の助けを借りて、より強力な OCR 効果を達成することも期待されます。

このプロジェクトは公開されるとすぐに多くのネットユーザーの注目を集め、一部のネットユーザーはそれを見た後に「ゲームを殺せ!」と叫んだ。

写真

では、この効果はどのようにして達成されるのでしょうか?

大きなモデルにインスピレーションを受けて

現在の大規模なマルチモーダル モデルのほとんどは、ビジョン エンコーダーまたは視覚語彙として CLIP を使用しています。実際、4 億の画像とテキストのペアでトレーニングされた CLIP は、強力なビジュアルとテキストのアライメント機能を備えており、ほとんどの日常的なタスクの画像エンコーディングをカバーできます。

しかし、ドキュメントレベルの OCR やチャート理解などの高密度で細粒度の認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかなエンコードの非効率性と語彙外の問題を示します。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模なモデルにとっては「外国語」) に移行する場合、元の語彙は中国語のエンコードに非効率的であるため、より良い結果を得るにはテキスト語彙を拡張する必要があります。

研究チームにインスピレーションを与えたのは、この機能でした。

現在、CLIP ビジュアル語彙に基づくマルチモーダル大規模モデルは同じ問題に直面しています。つまり、論文内の密集したテキストのページなどの「外国語画像」に遭遇すると、画像を効率的にトークン化することが困難です。

Vary はこの問題の解決策です。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます。

写真

既成の CLIP 語彙を直接使用する既存の方法とは異なり、Vary は次の 2 つの段階に分かれています。

最初の段階では、非常に小さなデコーダーのみのネットワークを使用して、自己回帰方式で強力な新しい視覚語彙を生成します。

次に、第 2 段階では、新しい語彙と CLIP 語彙が融合され、新しい機能を使用して LVLM を効率的にトレーニングします。

Vary のトレーニング方法とモデル構造は次のとおりです。

写真

公開データセットとレンダリングされたドキュメント チャートでトレーニングすることにより、Vary はきめ細かい視覚認識機能を大幅に強化します。

バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式のスクリーンショット、チャートの理解機能を刺激します。

さらに、研究チームは、本来は数千のトークンを必要とするページコンテンツが、ドキュメント画像入力を通じて Vary によって 256 個の画像トークンに圧縮され、これにより、さらにページ分析や要約を行うための想像の余地が広がることにも気付きました。

現在、Vary のコードとモデルはオープンソース化されており、誰でも試すことができる Web デモが提供されています。

興味のある友達は行ってみてください〜

<<:  マッキンゼー:2024年にGenAIが人工知能のビジネス界を支配する

>>:  Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

ブログ    
ブログ    

推薦する

...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

...

データ保護にはAIベースのセキュリティ戦略が必要

回答者の半数だけが、自社のデータセキュリティ戦略が AI の発展に追いついていると答えました。さらに...

アメリカ心理学会:AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる

アメリカ心理学会は6月14日、「AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる」...

Hinton チームの新しい CV 研究: ターゲット検出に言語モデルを使用、DETR に匹敵するパフォーマンス

[[426028]]視覚オブジェクト検出システムは、画像内のすべての定義済みカテゴリのオブジェクト...

AI への移行: 6 月の AI 資金調達活動の概要

情報化時代において、人工知能は急速に社会の変化と発展を推進しています。世界中の研究機関、企業、大学が...

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。これらの機械学習アルゴリズムが理解できません。アルゴリ...

...

AIトレーニングの福音: 合成データについて

今日、AI テクノロジーは克服するのが難しいいくつかの主要な課題に直面しています。正確な結果を提供す...

...

生活における人工知能の主な応用

人工知能は2度のブームを経験し、現在は3度目のブームを迎えています。主な理由は、第一にディープラーニ...

人工知能の継続的な発展により、ロボットが人間に取って代わり、あらゆる労働を行うようになるのでしょうか?

[[385749]]写真はロボット最近、メディアの報道によると、人類の生存を脅かすと言われる米国の...

2020年のIT開発トレンドは刺激的

[[274294]] [51CTO.com クイック翻訳] Future Today Researc...

エッジAIとは何ですか?

エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...