ドキュメント画像を Markdown 形式に変換したいですか? 以前は、このタスクには、テキスト認識、レイアウトの検出と並べ替え、数式表の処理、テキストのクリーンアップなど、複数のステップが必要でした。 今回は、たった 1 つのコマンドで、マルチモーダル大規模モデルVary がエンドツーエンドで結果を直接出力します。 写真 中国語または英語の長い段落の場合: 写真 数式を含む文書の画像を以下に示します。 写真 または、モバイル ページのスクリーンショット: 写真 写真の表をLaTeX形式に変換することもできます。 写真 もちろん、マルチモードの大型モデルとして、一般的な機能も維持する必要があります。 写真 Vary は大きな可能性と非常に高い可能性を示しています。OCR はもはや長いパイプラインを必要とせず、エンドツーエンドで直接出力できます。また、ユーザーのプロンプトに応じて、LaTeX、Word、Markdown などのさまざまな形式で出力することもできます。 このアーキテクチャは、大規模モデルの極めて強力な言語事前確率を通じて、「杠」や「杜杠」など、OCR で簡単にスペルミスされる文字を回避することもできます。曖昧な文書の場合、言語事前確率の助けを借りて、より強力な OCR 効果を達成することも期待されます。 このプロジェクトは公開されるとすぐに多くのネットユーザーの注目を集め、一部のネットユーザーはそれを見た後に「ゲームを殺せ!」と叫んだ。 写真 では、この効果はどのようにして達成されるのでしょうか? 大きなモデルにインスピレーションを受けて現在の大規模なマルチモーダル モデルのほとんどは、ビジョン エンコーダーまたは視覚語彙として CLIP を使用しています。実際、4 億の画像とテキストのペアでトレーニングされた CLIP は、強力なビジュアルとテキストのアライメント機能を備えており、ほとんどの日常的なタスクの画像エンコーディングをカバーできます。 しかし、ドキュメントレベルの OCR やチャート理解などの高密度で細粒度の認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかなエンコードの非効率性と語彙外の問題を示します。 大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模なモデルにとっては「外国語」) に移行する場合、元の語彙は中国語のエンコードに非効率的であるため、より良い結果を得るにはテキスト語彙を拡張する必要があります。 研究チームにインスピレーションを与えたのは、この機能でした。 現在、CLIP ビジュアル語彙に基づくマルチモーダル大規模モデルは同じ問題に直面しています。つまり、論文内の密集したテキストのページなどの「外国語画像」に遭遇すると、画像を効率的にトークン化することが困難です。 Vary はこの問題の解決策です。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます。 写真 既成の CLIP 語彙を直接使用する既存の方法とは異なり、Vary は次の 2 つの段階に分かれています。 最初の段階では、非常に小さなデコーダーのみのネットワークを使用して、自己回帰方式で強力な新しい視覚語彙を生成します。 次に、第 2 段階では、新しい語彙と CLIP 語彙が融合され、新しい機能を使用して LVLM を効率的にトレーニングします。 Vary のトレーニング方法とモデル構造は次のとおりです。 写真 公開データセットとレンダリングされたドキュメント チャートでトレーニングすることにより、Vary はきめ細かい視覚認識機能を大幅に強化します。 バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式のスクリーンショット、チャートの理解機能を刺激します。 さらに、研究チームは、本来は数千のトークンを必要とするページコンテンツが、ドキュメント画像入力を通じて Vary によって 256 個の画像トークンに圧縮され、これにより、さらにページ分析や要約を行うための想像の余地が広がることにも気付きました。 現在、Vary のコードとモデルはオープンソース化されており、誰でも試すことができる Web デモが提供されています。 興味のある友達は行ってみてください〜 |
<<: マッキンゼー:2024年にGenAIが人工知能のビジネス界を支配する
>>: Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし
従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデー...
少し前に、Google とハーバード大学が共同で、人間の脳の神経の 3D 接続マップを公開しました。...
みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...
顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...
AI プロジェクトで Kubernetes を使用する利点は何でしょうか? Kubernetes が...
導入機械学習プロジェクトに取り組むとき、すべてのデータ サイエンティストが直面しなければならない質問...
物体検出とその他のコンピュータビジョンの問題分類問題これはおそらくコンピュータービジョンにおける最大...
[[242113]] [51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨シ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
数日前、バービー・ハイモアがインターネットで話題になって以来、ネットユーザーたちは、MidJourn...
[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...
ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...
2020年12月30日、テンセントYoutuの2020年度年次コミュニケーション会議が海南省で正式に...
[[435844]]人工知能用に構築されたコンピュータ システムに最適なアクセサリとコンポーネントは...