ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑なモデルを構築することです。

しかし、既存の大規模言語モデルは主にテキスト情報に焦点を当てており、視覚情報を理解することはできません。

したがって、マルチモーダル大規模言語モデル (MLLM) の分野における進歩は、視覚情報とテキスト情報を単一のトランスフォーマーベースのモデルに融合し、両方のモダリティに基づいてコンテンツを学習および生成できるようにすることで、この制限に対処することを目指しています。

MLLM は、自然画像理解やテキスト画像理解など、さまざまな実際のアプリケーションで可能性を示しています。これらのモデルは、マルチモーダル問題に対処するための一般的なインターフェースとして言語モデリングを活用し、テキストと視覚の入力に基づいて応答を処理および生成できるようにします。

しかし、既存のMLLMは主に低解像度の自然画像に焦点を当てており、テキストが密集した画像に関するMLLM研究はほとんどありません。そのため、大規模なマルチモーダル事前トレーニングを最大限に活用してテキスト画像を処理することは、MLLM研究の重要な研究方向です。

テキスト画像をトレーニングプロセスに組み込み、テキスト情報と視覚情報の両方に基づいてモデルを開発することで、高解像度のテキスト密度の高い画像を含むマルチモーダルアプリケーションの新しい可能性を切り開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419

KOSMOS-2.5 は、テキスト密度の高い画像に基づく大規模なマルチモーダル言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダル読み取りおよび理解機能 (マルチモーダルリテラシーモデル) に重点を置いています。

このモデルの提案は、テキストを多用した画像を理解し、視覚とテキストのギャップを埋める優れたパフォーマンスを強調しています。

同時に、このタスクのパラダイムは、以前のエンコーダー/デコーダーアーキテクチャからデコーダーのみのアーキテクチャへと進化しました。

KOSMOS-2.5 の目標は、テキストが豊富な画像でシームレスな視覚的およびテキストデータ処理を可能にし、画像の内容を理解して構造化されたテキスト記述を生成することです。

図1: KOSMOS-2.5の概要

図 1 に示すように、KOSMOS-2.5 は、統一されたフレームワークを使用して 2 つの密接に関連するタスクを処理するように設計されたマルチモーダルモデルです。

最初のタスクは、空間認識を備えたテキストブロックの生成、つまり、テキストブロックのコンテンツと座標ボックスの両方を同時に生成することです。

2 番目のタスクでは、さまざまなスタイルと構造をキャプチャしながら、Markdown 形式で構造化テキスト出力を生成します。

図2: KOSMOS-2.5アーキテクチャ図

図 2 に示すように、両方のタスクは、タスク固有のキューを備えた共有 Transformer アーキテクチャを活用します。

KOSMOS-2.5 は、ViT (Vision Transformer) ベースのビジュアルエンコーダーと Transformer ベースのデコーダーをリサンプリングモジュールで接続して組み合わせたものです。

図3: 事前トレーニングデータセット

図3に示すように、このモデルをトレーニングするために、著者は事前トレーニング用に324.4Mの巨大なデータセットを準備しました。

図4: 境界ボックス付きのテキスト行のトレーニングサンプルの例

図5: Markdown形式のトレーニングサンプルの例

このデータセットには、境界ボックス付きのテキスト行や Markdown 形式のプレーンテキストなど、さまざまな種類のテキストが密集した画像が含まれています。図 4 と 5 は、トレーニングサンプルの例を視覚化したものです。

このマルチタスクトレーニング方法により、KOSMOS-2.5 の全体的なマルチモーダル機能が強化されます。

[図6] エンドツーエンドの文書レベルのテキスト認識実験

図7: 画像からMarkdown形式のテキストを生成する実験

図 6 および 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメントレベルのテキスト認識と、画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。

実験結果は、テキストが密集した画像を理解するタスクにおいて KOSMOS-2.5 が優れたパフォーマンスを発揮することを示しています。

図8: KOSMOS-2.5の入力と出力のサンプル表示

さらに、KOSMOS-2.5 は、少数ショット学習およびゼロショット学習のシナリオで有望な機能を発揮し、テキストが豊富な画像の処理における実用的なアプリケーションに使用できる多目的ツールとなっています。

著者らは、命令の微調整は、より幅広いモデル機能を可能にする有望なアプローチであると指摘している。

より広範な研究分野では、モデルパラメータのスケーラビリティをさらに開発することが重要な方向性となります。

タスクの範囲と複雑さが拡大し続けるにつれて、より大量のデータを処理できるようにモデルをスケーリングすることが、テキスト集約型のマルチモーダルモデルの開発にとって重要になります。

最終的な目標は、視覚データとテキストデータの両方を効果的に解釈し、よりテキスト集約型のマルチモーダルタスクにうまく一般化できるモデルを開発することです。

参考文献:

https://arxiv.org/abs/2309.11419

<<: ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

>>: ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

ブログ

若者は人工知能とうまく付き合うことを学ぶべきだ

ブログ

2 要素認証 (2FA) とは何ですか? また、なぜ使用する必要があるのですか?

ブログ

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

人工知能はメタバースのビジョンの実現に役立つでしょうか?

面接官はガベージコレクションアルゴリズムについて質問するのが大好きです

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

機械学習がデータセンター管理をどう変えるか

若者は人工知能とうまく付き合うことを学ぶべきだ

2 要素認証 (2FA) とは何ですか? また、なぜ使用する必要があるのですか?

推薦する

C# アルゴリズムが張さんの誕生日問題を解決する

Minecraft でニューラルネットワークを構築し、操作プロセスを明確に表示する | オープンソース

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける！ 600以上の法執行機関と銀行の情報が盗まれた

カンファレンスで GitHub のトップ 10 AI アップデートが発表されました。

医療における人工知能: COVID-Net プラットフォームを使用してコロナウイルスを診断する方法

生体認証市場における 4 つの「ホットアイテム」: 音声認識、顔認識など。

ヨシュア・ベンジオ：私は国家間のAI競争を見たくないし、現在のAIの考え方を心配している。

人工知能が建設業界の様相を変えている

機械学習がサイバー脅威に対する最善の武器である理由

疫病と闘う最前線の医療従事者を守るためにAIをどう活用するか？

アダプティブコンピューティングがAI製品化の課題にどのように対処するか

人工知能に関する究極の議論: 私たちは AI なのか?

Alipay のディープラーニングエンジン xNN を公開

OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

エンタープライズネットワークセキュリティにおける AI アプリケーションについてご存知ですか?