OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

ドキュメント画像を Markdown 形式に変換したいですか?

以前は、このタスクには、テキスト認識、レイアウトの検出と並べ替え、数式表の処理、テキストのクリーンアップなど、複数のステップが必要でした。

今回は、たった 1 つのコマンドで、マルチモーダル大規模モデルVary がエンドツーエンドで結果を直接出力します。

写真

中国語または英語の長い段落の場合:

写真

数式を含む文書の画像を以下に示します。

写真

または、モバイル ページのスクリーンショット:

写真

写真の表をLaTeX形式に変換することもできます。

写真

もちろん、マルチモードの大型モデルとして、一般的な機能も維持する必要があります。

写真

Vary は大きな可能性と非常に高い可能性を示しています。OCR はもはや長いパイプラインを必要とせず、エンドツーエンドで直接出力できます。また、ユーザーのプロンプトに応じて、LaTeX、Word、Markdown などのさまざまな形式で出力することもできます。

このアーキテクチャは、大規模モデルの極めて強力な言語事前確率を通じて、「杠」や「杜杠」など、OCR で簡単にスペルミスされる文字を回避することもできます。曖昧な文書の場合、言語事前確率の助けを借りて、より強力な OCR 効果を達成することも期待されます。

このプロジェクトは公開されるとすぐに多くのネットユーザーの注目を集め、一部のネットユーザーはそれを見た後に「ゲームを殺せ!」と叫んだ。

写真

では、この効果はどのようにして達成されるのでしょうか?

大きなモデルにインスピレーションを受けて

現在の大規模なマルチモーダル モデルのほとんどは、ビジョン エンコーダーまたは視覚語彙として CLIP を使用しています。実際、4 億の画像とテキストのペアでトレーニングされた CLIP は、強力なビジュアルとテキストのアライメント機能を備えており、ほとんどの日常的なタスクの画像エンコーディングをカバーできます。

しかし、ドキュメントレベルの OCR やチャート理解などの高密度で細粒度の認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかなエンコードの非効率性と語彙外の問題を示します。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模なモデルにとっては「外国語」) に移行する場合、元の語彙は中国語のエンコードに非効率的であるため、より良い結果を得るにはテキスト語彙を拡張する必要があります。

研究チームにインスピレーションを与えたのは、この機能でした。

現在、CLIP ビジュアル語彙に基づくマルチモーダル大規模モデルは同じ問題に直面しています。つまり、論文内の密集したテキストのページなどの「外国語画像」に遭遇すると、画像を効率的にトークン化することが困難です。

Vary はこの問題の解決策です。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます。

写真

既成の CLIP 語彙を直接使用する既存の方法とは異なり、Vary は次の 2 つの段階に分かれています。

最初の段階では、非常に小さなデコーダーのみのネットワークを使用して、自己回帰方式で強力な新しい視覚語彙を生成します。

次に、第 2 段階では、新しい語彙と CLIP 語彙が融合され、新しい機能を使用して LVLM を効率的にトレーニングします。

Vary のトレーニング方法とモデル構造は次のとおりです。

写真

公開データセットとレンダリングされたドキュメント チャートでトレーニングすることにより、Vary はきめ細かい視覚認識機能を大幅に強化します。

バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式のスクリーンショット、チャートの理解機能を刺激します。

さらに、研究チームは、本来は数千のトークンを必要とするページコンテンツが、ドキュメント画像入力を通じて Vary によって 256 個の画像トークンに圧縮され、これにより、さらにページ分析や要約を行うための想像の余地が広がることにも気付きました。

現在、Vary のコードとモデルはオープンソース化されており、誰でも試すことができる Web デモが提供されています。

興味のある友達は行ってみてください〜

<<:  マッキンゼー:2024年にGenAIが人工知能のビジネス界を支配する

>>:  Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

ブログ    

推薦する

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデー...

人間の脳神経の「100万分の1」の3D接続マップを描きます!膨大な量のデータは14億個の1Tハードドライブを埋め尽くす

少し前に、Google とハーバード大学が共同で、人間の脳の神経の 3D 接続マップを公開しました。...

ICLR2021 対照学習 NLP 論文進捗レビュー

みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...

...

顔認識の「レッドライン」と「ボトムライン」を理解していますか?

顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...

AIプロジェクトでKubernetesを使用する方法

AI プロジェクトで Kubernetes を使用する利点は何でしょうか? Kubernetes が...

複数の機械学習モデルインスタンスを素早く比較する

導入機械学習プロジェクトに取り組むとき、すべてのデータ サイエンティストが直面しなければならない質問...

ディープラーニング時代の物体検出アルゴリズムのレビュー

物体検出とその他のコンピュータビジョンの問題分類問題これはおそらくコンピュータービジョンにおける最大...

CatBoost: XGBoost よりも優れた GBDT アルゴリズム

[[242113]] [51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨シ...

このAIは、監視対象を素早く検索するのに役立ちます:テキスト配置キーフレーム、24時間のビデオ録画10分処理

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

旅の途中+第2世代、「バルペンハイマー」完成までの7つのステップにカルパシーが驚愕 | 実際のテスト体験を添付

数日前、バービー・ハイモアがインターネットで話題になって以来、ネットユーザーたちは、MidJourn...

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...

ディープラーニングのこれらの落とし穴に遭遇したことがありますか?ニューラルネットワークのよくある落とし穴11選とその対処法

ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...

人工知能業界が「再始動」:2021年の5つの主要トレンドに関する洞察

2020年12月30日、テンセントYoutuの2020年度年次コミュニケーション会議が海南省で正式に...

AI向けに構築されたコンピューターに最適なアクセサリと外部コンポーネント

[[435844]]人工知能用に構築されたコンピュータ システムに最適なアクセサリとコンポーネントは...