GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。

ただし、パフォーマンスを犠牲にすることなくコスト効率の高い代替手段を探している場合、オープンソースソリューションは無限の可能性を提供します。

外国人開発者の Youssef Hosni 氏は、GPT-4V に代わるオープンソースの代替手段を 3 つ提供しており、アクセシビリティは完全に保証されています。

3 つのオープンソース視覚言語モデル、LLaVa、CogAgent、BakLLaVA は、視覚処理の分野で大きな可能性を秘めています。

写真

ラヴァ

LLaVA は、ウィスコンシン大学マディソン校、マイクロソフトリサーチ、コロンビア大学の研究者が開発した、エンドツーエンドでトレーニングされた大規模なマルチモーダルモデルであり、最初のバージョンは 4 月にリリースされました。

一般的な視覚と言語理解のためのビジュアルエンコーダーと Vicuna を組み合わせて、優れたチャット機能を実現します。

写真

10月には、アップグレードされたLLaVA-1.5のパフォーマンスがマルチモーダルGPT-4に近づき、Science QAデータセットでSOTAを達成しました。

写真

13B モデルのトレーニングは、8 台の A100 のみを使用して 1 日で完了できます。

写真

ご覧のとおり、LLaVA はさまざまな種類の質問を処理でき、生成される回答は包括的かつ論理的です。

LLaVA は、ビジュアルチャットで相対スコア 85% を誇る GPT-4 のレベルに近いマルチモーダル機能を備えています。

推論質問応答の点では、LLaVA は新しい SoTA である 92.53% に到達し、マルチモーダル思考チェーンを上回りました。

写真

視覚的に見ても、そのパフォーマンスは非常に目を引くものです。

写真

質問: 「事実上の誤りがあれば、それを指摘してください。そうでなければ、砂漠で何が起こっているのか教えてください。」

LLaVA はまだこの質問に完全に正確に答えることはできません。

アップグレードされた LLaVA-1.5 は完璧な答えを出しました。「写真には砂漠はありませんが、ヤシの木のあるビーチ、街のスカイライン、そして大きな水域が写っています。」

写真

さらに、LLaVA-1.5ではグラフから情報を抽出し、JSON形式で出力するなど、必要な形式で回答することも可能です。

写真

LLaVA-1.5 に果物や野菜がたくさん写っている写真を与えると、GPT-4V と同じようにその写真を JSON に変換できます。

写真

次の図はどういう意味でしょうか?

写真

これはノーラン監督の「インセプション」を基にした簡略化されたスケッチです。難易度を上げるために、登場人物の名前は仮名に変更されています。

LLaVA-1.5 は驚くべき答えを返しました。「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルを示しており、各レベルは線で表されています。絵は紙に書かれており、その紙はテーブルの上に置かれています。」

写真

食べ物の写真を LLaVA-1.5 に直接送信すると、すぐにレシピが生成されます。

写真

さらに、LLaVA-1.5 は、ジェイルブレイクせずに検証コードを認識できます。

写真

写真に写っているコインの種類も検出できます。

写真

特に印象的なのは、LLaVA-1.5 が写真に写っている犬の品種も教えてくれることです。

写真

あるユーザーは、Bing を使用して、晴れた夏のビーチで冬のコートを着た男性の画像を生成し、LLaVA 1.5 に画像内の問題点を指摘するよう依頼しました。その目はとても鋭い――

これは、ジャケットを着てビーチに立っている男性の写真を加工またはフォトショップで加工したものです。男はコートを開けると、太陽の光が彼を照らした。この画像の問題は、実際のビーチの風景ではないということです。その男性は実際には浜辺に立っていなかったし、太陽も彼を照らしていなかった。この画像はビーチの風景を演出するためにフォトショップで加工されていますが、実際の風景を再現しているわけではありません。

写真

OCR認識とLLaVAも優れたパフォーマンスを発揮します。

写真

コグエージェント

CogAgent は、清華大学の研究者が開発した、CogVLM を改良したオープンソースの視覚言語モデルです。

CogAgent-18B には 110 億の視覚パラメータと 70 億の言語パラメータがあります。

写真

論文アドレス: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B は、VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む 9 つの標準的なクロスモーダルベンチマークで最先端の総合パフォーマンスを達成しています。

AITW や Mind2Web などの GUI 操作データセットでは、既存のモデルを大幅に上回るパフォーマンスを発揮します。

CogVLM の既存のすべての機能 (視覚化されたマルチターンダイアログ、ビジュアルグラウンディング) に加えて、CogAgent.NET はさらに多くの機能を提供します。

1. 高解像度のビジュアル入力と対話応答をサポートします。 1120x1120の超高解像度画像入力をサポートします。

2. 任意の GUI スクリーンショット上の任意のタスクの計画、次のアクション、および座標を含む特定の操作を返すことができるビジュアルエージェントを持つ機能。

3. GUI関連の問題解決機能を強化し、Webページ、PCアプリケーション、モバイルアプリケーションなど、あらゆるGUIスクリーンショットに関連する問題に対応できるようにしました。

4. 事前トレーニングと微調整の改善により、OCR 関連タスクの機能が強化されました。

GUIエージェント

CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。

写真

携帯電話のディスプレイを明るいモードに調整するのに役立ちます。

写真

CogAgent は、このツイートのリツイート数、コメント数、いいね数、そしてなぜこのツイートが人気なのかを分析できます。さらに、「素晴らしい」と返信することもできます。

写真

フロリダ大学からハリウッドまで行く最も早い方法は何ですか?午前 8 時に開始する場合、どのくらいの時間がかかると見積もっていますか? CogAgent はこれらすべてに答えることができます。

写真

特定の件名を設定し、CogAgent が指定したメールボックスにメールを送信するようにすることができます。

写真

「You raise me up」という曲を聴きたい場合、CogAgent ではステップごとに手順をリストできます。

写真

CogAgentは『原神』のシーンを正確に描写し、テレポートポイントへの行き方を案内します。

写真

バクLL

BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B ベースモデルです。

最初のバージョンでは、Mistral 7B ベースモデルが複数のベンチマークで Llama 2 13B を上回りました。

彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために引き続き更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 は完全にオープンソースですが、LLaVA コーパスを含む特定のデータでトレーニングされているため、商用利用することはできません。

BakLLaVA 2 は、現在の LLaVa アプローチを上回る、より大きなデータセットと新しいアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限がなく、商業的に使用できます。

参考文献:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

<<: ハーバード史上最短の在職期間！ 53歳の女性校長、博士論文の盗作疑惑で辞職

>>: AAAI 2024 フェロー発表、清華大学の朱軍教授が選出

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

ラヴァ

コグエージェント

GUIエージェント

バクLL

オラクルCEOハード氏「AIについて心配する必要はない」

グラフネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

Caffeでのディープラーニングトレーニングの全プロセス

3つの大きなトレンドが浮上、我が国のドローン産業の発展の概要

データサイエンスに必須の Python パッケージ 10 個

新しいアルゴリズムによりクラウドデータベースのパフォーマンスが向上

初め！プログラム可能なメモリスタコンピュータが誕生しました！

AI および機械学習プロジェクトはどの程度安全ですか?

推薦する

金融AIが外灘サミットでデビュー: 完全な金融知識を備え、同時に数百万人と会話し、金融アドバイスを提供可能

企業の78%が2022年までにAIを主要な収益源と見なしている

Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

2019年のAIチップの6つのキーワードと2020年の4つの大きなトレンド

機械学習がデータセンター管理をどう変えるか

人工知能と機械学習の時代に新たなサイバー脅威にどう対抗するか

AI+クラウドランディングBeifei Technology、Amazon Pollyの助けを借りて教育モードの変化を促進

推論コストが48分の1に削減されました！ 1つのGPUで静止画像を動かすことができる

ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか？

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

スタートアップがAIを活用してデータ駆動型マーケティング戦略を開発する方法

Google 中国人がタイムクリスタルを使って何十年も昔の謎を解く！永久機関が再び自然界に出現