GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。

ただし、パフォーマンスを犠牲にすることなくコスト効率の高い代替手段を探している場合、オープンソース ソリューションは無限の可能性を提供します。

外国人開発者の Youssef Hosni 氏は、GPT-4V に代わるオープンソースの代替手段を 3 つ提供しており、アクセシビリティは完全に保証されています。

3 つのオープンソース視覚言語モデル、LLaVa、CogAgent、BakLLaVA は、視覚処理の分野で大きな可能性を秘めています。

写真

ラヴァ

LLaVA は、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が開発した、エンドツーエンドでトレーニングされた大規模なマルチモーダル モデルであり、最初のバージョンは 4 月にリリースされました。

一般的な視覚と言語理解のためのビジュアル エンコーダーと Vicuna を組み合わせて、優れたチャット機能を実現します。

写真

10月には、アップグレードされたLLaVA-1.5のパフォーマンスがマルチモーダルGPT-4に近づき、Science QAデータセットでSOTAを達成しました。

写真

13B モデルのトレーニングは、8 台の A100 のみを使用して 1 日で完了できます。

写真

ご覧のとおり、LLaVA はさまざまな種類の質問を処理でき、生成される回答は包括的かつ論理的です。

LLaVA は、ビジュアルチャットで相対スコア 85% を誇る GPT-4 のレベルに近いマルチモーダル機能を備えています。

推論質問応答の点では、LLaVA は新しい SoTA である 92.53% に到達し、マルチモーダル思考チェーンを上回りました。

写真

視覚的に見ても、そのパフォーマンスは非常に目を引くものです。

写真

写真

質問: 「事実上の誤りがあれば、それを指摘してください。そうでなければ、砂漠で何が起こっているのか教えてください。」

LLaVA はまだこの質問に完全に正確に答えることはできません。

アップグレードされた LLaVA-1.5 は完璧な答えを出しました。「写真には砂漠はありませんが、ヤシの木のあるビーチ、街のスカイライン、そして大きな水域が写っています。」

写真

さらに、LLaVA-1.5ではグラフから情報を抽出し、JSON形式で出力するなど、必要な形式で回答することも可能です。

写真

LLaVA-1.5 に果物や野菜がたくさん写っている写真を与えると、GPT-4V と同じようにその写真を JSON に変換できます。

写真

次の図はどういう意味でしょうか?

写真

これはノーラン監督の「インセプション」を基にした簡略化されたスケッチです。難易度を上げるために、登場人物の名前は仮名に変更されています。

LLaVA-1.5 は驚くべき答えを返しました。「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルを示しており、各レベルは線で表されています。絵は紙に書かれており、その紙はテーブルの上に置かれています。」

写真

食べ物の写真を LLaVA-1.5 に直接送信すると、すぐにレシピが生成されます。

写真

さらに、LLaVA-1.5 は、ジェイルブレイクせずに検証コードを認識できます。

写真

写真に写っているコインの種類も検出できます。

写真

特に印象的なのは、LLaVA-1.5 が写真に写っている犬の品種も教えてくれることです。

写真

あるユーザーは、Bing を使用して、晴れた夏のビーチで冬のコートを着た男性の画像を生成し、LLaVA 1.5 に画像内の問題点を指摘するよう依頼しました。その目はとても鋭い――

これは、ジャケットを着てビーチに立っている男性の写真を加工またはフォトショップで加工したものです。男はコートを開けると、太陽の光が彼を照らした。この画像の問題は、実際のビーチの風景ではないということです。その男性は実際には浜辺に立っていなかったし、太陽も彼を照らしていなかった。この画像はビーチの風景を演出するためにフォトショップで加工されていますが、実際の風景を再現しているわけではありません。

写真

OCR認識とLLaVAも優れたパフォーマンスを発揮します。

写真

写真

写真

コグエージェント

CogAgent は、清華大学の研究者が開発した、CogVLM を改良したオープンソースの視覚言語モデルです。

CogAgent-18B には 110 億の視覚パラメータと 70 億の言語パラメータがあります。

写真

論文アドレス: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B は、VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む 9 つの標準的なクロスモーダル ベンチマークで最先端の総合パフォーマンスを達成しています。

AITW や Mind2Web などの GUI 操作データセットでは、既存のモデルを大幅に上回るパフォーマンスを発揮します。

CogVLM の既存のすべての機能 (視覚化されたマルチターン ダイアログ、ビジュアル グラウンディング) に加えて、CogAgent.NET はさらに多くの機能を提供します。

1. 高解像度のビジュアル入力と対話応答をサポートします。 1120x1120の超高解像度画像入力をサポートします。

2. 任意の GUI スクリーンショット上の任意のタスクの計画、次のアクション、および座標を含む特定の操作を返すことができるビジュアル エージェントを持つ機能。

3. GUI関連の問題解決機能を強化し、Webページ、PCアプリケーション、モバイルアプリケーションなど、あらゆるGUIスクリーンショットに関連する問題に対応できるようにしました。

4. 事前トレーニングと微調整の改善により、OCR 関連タスクの機能が強化されました。

GUIエージェント

CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。

写真

携帯電話のディスプレイを明るいモードに調整するのに役立ちます。

写真

CogAgent は、このツイートのリツイート数、コメント数、いいね数、そしてなぜこのツイートが人気なのかを分析できます。さらに、「素晴らしい」と返信することもできます。

写真

フロリダ大学からハリウッドまで行く最も早い方法は何ですか?午前 8 時に開始する場合、どのくらいの時間がかかると見積もっていますか? CogAgent はこれらすべてに答えることができます。

写真

特定の件名を設定し、CogAgent が指定したメールボックスにメールを送信するようにすることができます。

写真

「You raise me up」という曲を聴きたい場合、CogAgent ではステップごとに手順をリストできます。

写真

CogAgentは『原神』のシーンを正確に描写し、テレポートポイントへの行き方を案内します。

写真

バクLL

BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B ベース モデルです。

最初のバージョンでは、Mistral 7B ベース モデルが複数のベンチマークで Llama 2 13B を上回りました。

彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために引き続き更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 は完全にオープンソースですが、LLaVA コーパスを含む特定のデータでトレーニングされているため、商用利用することはできません。

BakLLaVA 2 は、現在の LLaVa アプローチを上回る、より大きなデータセットと新しいアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限がなく、商業的に使用できます。

参考文献:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

<<:  ハーバード史上最短の在職期間! 53歳の女性校長、博士論文の盗作疑惑で辞職

>>:  AAAI 2024 フェロー発表、清華大学の朱軍教授が選出

ブログ    
ブログ    

推薦する

GANは音声を使って画像を生成できるようになった

[[432735]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

モノのインターネットの可能性を最大限に引き出す方法

モノのインターネットは大量のセンサーデータを生成すると予測されており、それが人工知能と組み合わさるこ...

...

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...

欧州の複数の企業が、産業の発展を制限するEUのAI法案を批判する公開書簡に署名した。

欧州議会は7月4日、6月14日に人工知能法案草案を可決した。これは、欧州企業が立ち上げたAIモデルを...

ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

アジア太平洋地域では、スマートホーム技術の登場により、ヘルスケア業界の大きな変革が起こっています。こ...

2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

廃棄フィルム2枚がパチンと貼り合わされました!見逃した素晴らしい瞬間をすぐに蘇らせることができ、効果...

AI採用を本当に公平にすることは難しいかもしれない

アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...

...

...

ヘルスケアにおける人工知能:現在と未来

IDCが発表した最新データによると、ソフトウェア、ハードウェア、サービスを含む世界の人工知能の収益は...

...

サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...

ワークフローをよりスマートにする 5 つの AI ツール

生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...

多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...