ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑なモデルを構築することです。

しかし、既存の大規模言語モデルは主にテキスト情報に焦点を当てており、視覚情報を理解することはできません。

したがって、マルチモーダル大規模言語モデル (MLLM) の分野における進歩は、視覚情報とテキスト情報を単一のトランスフォーマーベースのモデルに融合し、両方のモダリティに基づいてコンテンツを学習および生成できるようにすることで、この制限に対処することを目指しています。

MLLM は、自然画像理解やテキスト画像理解など、さまざまな実際のアプリケーションで可能性を示しています。これらのモデルは、マルチモーダル問題に対処するための一般的なインターフェースとして言語モデリングを活用し、テキストと視覚の入力に基づいて応答を処理および生成できるようにします。

しかし、既存のMLLMは主に低解像度の自然画像に焦点を当てており、テキストが密集した画像に関するMLLM研究はほとんどありません。そのため、大規模なマルチモーダル事前トレーニングを最大限に活用してテキスト画像を処理することは、MLLM研究の重要な研究方向です。

テキスト画像をトレーニング プロセスに組み込み、テキスト情報と視覚情報の両方に基づいてモデルを開発することで、高解像度のテキスト密度の高い画像を含むマルチモーダル アプリケーションの新しい可能性を切り開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419

KOSMOS-2.5 は、テキスト密度の高い画像に基づく大規模なマルチモーダル言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダル読み取りおよび理解機能 (マルチモーダル リテラシー モデル) に重点を置いています。

このモデルの提案は、テキストを多用した画像を理解し、視覚とテキストのギャップを埋める優れたパフォーマンスを強調しています。

同時に、このタスクのパラダイムは、以前のエンコーダー/デコーダー アーキテクチャからデコーダーのみのアーキテクチャへと進化しました。

KOSMOS-2.5 の目標は、テキストが豊富な画像でシームレスな視覚的およびテキスト データ処理を可能にし、画像の内容を理解して構造化されたテキスト記述を生成することです。

図1: KOSMOS-2.5の概要

図 1 に示すように、KOSMOS-2.5 は、統一されたフレームワークを使用して 2 つの密接に関連するタスクを処理するように設計されたマルチモーダル モデルです。

最初のタスクは、空間認識を備えたテキスト ブロックの生成、つまり、テキスト ブロックのコンテンツと座標ボックスの両方を同時に生成することです。

2 番目のタスクでは、さまざまなスタイルと構造をキャプチャしながら、Markdown 形式で構造化テキスト出力を生成します。

図2: KOSMOS-2.5アーキテクチャ図

図 2 に示すように、両方のタスクは、タスク固有のキューを備えた共有 Transformer アーキテクチャを活用します。

KOSMOS-2.5 は、ViT (Vision Transformer) ベースのビジュアル エンコーダーと Transformer ベースのデコーダーをリサンプリング モジュールで接続して組み合わせたものです。

図3: 事前トレーニングデータセット

図3に示すように、このモデルをトレーニングするために、著者は事前トレーニング用に324.4Mの巨大なデータセットを準備しました。

図4: 境界ボックス付きのテキスト行のトレーニングサンプルの例

図5: Markdown形式のトレーニングサンプルの例

このデータセットには、境界ボックス付きのテキスト行や Markdown 形式のプレーンテキストなど、さまざまな種類のテキストが密集した画像が含まれています。図 4 と 5 は、トレーニング サンプルの例を視覚化したものです。

このマルチタスク トレーニング方法により、KOSMOS-2.5 の全体的なマルチモーダル機能が強化されます。

[図6] エンドツーエンドの文書レベルのテキスト認識実験

図7: 画像からMarkdown形式のテキストを生成する実験

図 6 および 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメント レベルのテキスト認識と、画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。

実験結果は、テキストが密集した画像を理解するタスクにおいて KOSMOS-2.5 が優れたパフォーマンスを発揮することを示しています。

図8: KOSMOS-2.5の入力と出力のサンプル表示

さらに、KOSMOS-2.5 は、少数ショット学習およびゼロショット学習のシナリオで有望な機能を発揮し、テキストが豊富な画像の処理における実用的なアプリケーションに使用できる多目的ツールとなっています。

著者らは、命令の微調整は、より幅広いモデル機能を可能にする有望なアプローチであると指摘している。

より広範な研究分野では、モデルパラメータのスケーラビリティをさらに開発することが重要な方向性となります。

タスクの範囲と複雑さが拡大し続けるにつれて、より大量のデータを処理できるようにモデルをスケーリングすることが、テキスト集約型のマルチモーダル モデルの開発にとって重要になります。

最終的な目標は、視覚データとテキストデータの両方を効果的に解釈し、よりテキスト集約型のマルチモーダルタスクにうまく一般化できるモデルを開発することです。

参考文献:

https://arxiv.org/abs/2309.11419

<<:  ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

>>:  ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

推薦する

マイア:人間を模倣するが、人間を超えることはないチェスAI

[[378769]]海外メディアの報道によると、AIは長年にわたり、あらゆる古典的なボードゲームで...

AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています

生成 AI は、インターネット上の重要なコンテンツ ソースとなっています。AI によって生成されたテ...

人工知能とビッグデータの違い

人工知能とビッグデータは人々がよく知っている流行語ですが、混乱が生じることもあります。 AI とビッ...

機械学習に効果的なデータを取得する方法 小さなデータを扱うための 7 つのヒント (一読の価値あり)

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

IBM: ワトソン人工知能システムをすべてのクラウドプラットフォームに公開

米国のテクノロジーメディアの報道によると、IBMは本日、ワトソンブランドの人工知能サービスを自社のク...

マイクロソフトが第1四半期の業績報告を発表: AIサービスの需要が事業成長を牽引

マイクロソフトは10月25日、2024年第1四半期の財務報告を発表した。AI製品とクラウド事業の成長...

動画注釈が機械学習モデルのパフォーマンスを向上させる方法

機械学習は近年、特にコンピュータービジョンとビデオ分析の分野で目覚ましい進歩を遂げています。この進歩...

休日のAI本リスト:人工知能をしっかり学びたいなら、まずはこの6冊から始めましょう〜

諺にあるように、何千冊もの本を読むことは何千マイルも旅をすることと同じです。休暇中に本を読まないわけ...

ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー:業界の清流!

18日夕方、バイトダンスは全従業員宛ての電子メールで重大イベントを発表した。手紙の全内容が明らかに...

住宅建設はよりスマートになる

スマートホーム革命はここしばらく本格的に始まっています。住宅所有者はデータと IoT テクノロジーを...

C#アルゴリズムに関する面接の質問の簡単な分析

C# アルゴリズムの面接の質問: プログラミング: 猫が叫び、ネズミが全員逃げ出し、飼い主は目を覚ま...

人工知能の登場で、自動化は恐怖に震えるべきでしょうか?

歴史は、人々に気づかれずに何度も同じ冗談を繰り返す、昔のいたずらっ子のようなものです。歴史は単なるジ...

Nature の最新表紙: 2 つの主要な数学の問題が AI によって解決されました!ディープマインドYYDS

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Javaは4つのWeChat赤い封筒をつかむアルゴリズムを実装し、感謝せずにそれを受け取ります

概要2014年にWeChatが紅包機能を開始した後、多くの企業が独自の紅包機能の開発を開始しました。...

2020年版ネイチャーインデックス年次リストが発表:中国の研究機関がリストを独占、中国科学院は8年連続で1位

科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...