ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑なモデルを構築することです。

しかし、既存の大規模言語モデルは主にテキスト情報に焦点を当てており、視覚情報を理解することはできません。

したがって、マルチモーダル大規模言語モデル (MLLM) の分野における進歩は、視覚情報とテキスト情報を単一のトランスフォーマーベースのモデルに融合し、両方のモダリティに基づいてコンテンツを学習および生成できるようにすることで、この制限に対処することを目指しています。

MLLM は、自然画像理解やテキスト画像理解など、さまざまな実際のアプリケーションで可能性を示しています。これらのモデルは、マルチモーダル問題に対処するための一般的なインターフェースとして言語モデリングを活用し、テキストと視覚の入力に基づいて応答を処理および生成できるようにします。

しかし、既存のMLLMは主に低解像度の自然画像に焦点を当てており、テキストが密集した画像に関するMLLM研究はほとんどありません。そのため、大規模なマルチモーダル事前トレーニングを最大限に活用してテキスト画像を処理することは、MLLM研究の重要な研究方向です。

テキスト画像をトレーニング プロセスに組み込み、テキスト情報と視覚情報の両方に基づいてモデルを開発することで、高解像度のテキスト密度の高い画像を含むマルチモーダル アプリケーションの新しい可能性を切り開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419

KOSMOS-2.5 は、テキスト密度の高い画像に基づく大規模なマルチモーダル言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダル読み取りおよび理解機能 (マルチモーダル リテラシー モデル) に重点を置いています。

このモデルの提案は、テキストを多用した画像を理解し、視覚とテキストのギャップを埋める優れたパフォーマンスを強調しています。

同時に、このタスクのパラダイムは、以前のエンコーダー/デコーダー アーキテクチャからデコーダーのみのアーキテクチャへと進化しました。

KOSMOS-2.5 の目標は、テキストが豊富な画像でシームレスな視覚的およびテキスト データ処理を可能にし、画像の内容を理解して構造化されたテキスト記述を生成することです。

図1: KOSMOS-2.5の概要

図 1 に示すように、KOSMOS-2.5 は、統一されたフレームワークを使用して 2 つの密接に関連するタスクを処理するように設計されたマルチモーダル モデルです。

最初のタスクは、空間認識を備えたテキスト ブロックの生成、つまり、テキスト ブロックのコンテンツと座標ボックスの両方を同時に生成することです。

2 番目のタスクでは、さまざまなスタイルと構造をキャプチャしながら、Markdown 形式で構造化テキスト出力を生成します。

図2: KOSMOS-2.5アーキテクチャ図

図 2 に示すように、両方のタスクは、タスク固有のキューを備えた共有 Transformer アーキテクチャを活用します。

KOSMOS-2.5 は、ViT (Vision Transformer) ベースのビジュアル エンコーダーと Transformer ベースのデコーダーをリサンプリング モジュールで接続して組み合わせたものです。

図3: 事前トレーニングデータセット

図3に示すように、このモデルをトレーニングするために、著者は事前トレーニング用に324.4Mの巨大なデータセットを準備しました。

図4: 境界ボックス付きのテキスト行のトレーニングサンプルの例

図5: Markdown形式のトレーニングサンプルの例

このデータセットには、境界ボックス付きのテキスト行や Markdown 形式のプレーンテキストなど、さまざまな種類のテキストが密集した画像が含まれています。図 4 と 5 は、トレーニング サンプルの例を視覚化したものです。

このマルチタスク トレーニング方法により、KOSMOS-2.5 の全体的なマルチモーダル機能が強化されます。

[図6] エンドツーエンドの文書レベルのテキスト認識実験

図7: 画像からMarkdown形式のテキストを生成する実験

図 6 および 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメント レベルのテキスト認識と、画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。

実験結果は、テキストが密集した画像を理解するタスクにおいて KOSMOS-2.5 が優れたパフォーマンスを発揮することを示しています。

図8: KOSMOS-2.5の入力と出力のサンプル表示

さらに、KOSMOS-2.5 は、少数ショット学習およびゼロショット学習のシナリオで有望な機能を発揮し、テキストが豊富な画像の処理における実用的なアプリケーションに使用できる多目的ツールとなっています。

著者らは、命令の微調整は、より幅広いモデル機能を可能にする有望なアプローチであると指摘している。

より広範な研究分野では、モデルパラメータのスケーラビリティをさらに開発することが重要な方向性となります。

タスクの範囲と複雑さが拡大し続けるにつれて、より大量のデータを処理できるようにモデルをスケーリングすることが、テキスト集約型のマルチモーダル モデルの開発にとって重要になります。

最終的な目標は、視覚データとテキストデータの両方を効果的に解釈し、よりテキスト集約型のマルチモーダルタスクにうまく一般化できるモデルを開発することです。

参考文献:

https://arxiv.org/abs/2309.11419

<<:  ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

>>:  ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

ブログ    

推薦する

5つの産業用類似アルゴリズム

1. はじめに広告主は通常、ユーザー タグに基づいて広告のターゲット ユーザーを定義します。たとえば...

人工知能が医薬品開発を加速させる

業界における人工知能(AI)の応用シナリオは増え続けており(日常的なスマート製品から大規模なイノベー...

将来のシステム設計のための機械学習

エリアス・ファロン氏は、電子設計自動化技術の大手プロバイダーである Cadence Design S...

人工知能が雪の結晶をリアルタイムで捉え、約700人の足跡を追跡可能に

2月4日の北京冬季オリンピックの開会式で、若い俳優たちが「平和の鳩」を手に持ち、彼らが動くと、足元に...

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Protobufを勉強していたら、良いアルゴリズムを見つけました - ZigZag

[[434311]]もともと Protobuf の原理を勉強したかったのですが、研究の過程で Pr...

日本の芥川賞受賞者が認める:小説の5%はChatGPTによって書かれた

1月22日、日本で最も権威のある文学賞である芥川賞を受賞した作家が、受賞作である小説「東京同情塔」の...

高性能かつ低消費時間!新しい 3D Occupancy Network SGN を試してみませんか?オープンソース

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AlphaCode がリリースされました! 「AlphaGo」のプログラミング版が静かに競争し、プログラマーの半数を破る

本日、DeepMind の「Alpha」ファミリーに新しいメンバーが加わりました。プログラミング競技...

人工知能がホテル業界にもたらす変化

人工知能はかつてはSFの世界のものと考えられていましたが、今ではどこにでもあります。私たちが行う、ま...

2022年の人工知能産業の10大発展トレンド

電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...

本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

機械学習コミュニティでは研究の再現性に関する議論が活発化していますが、こうした議論は主に学術的な環境...