GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。

ただし、パフォーマンスを犠牲にすることなくコスト効率の高い代替手段を探している場合、オープンソース ソリューションは無限の可能性を提供します。

外国人開発者の Youssef Hosni 氏は、GPT-4V に代わるオープンソースの代替手段を 3 つ提供しており、アクセシビリティは完全に保証されています。

3 つのオープンソース視覚言語モデル、LLaVa、CogAgent、BakLLaVA は、視覚処理の分野で大きな可能性を秘めています。

写真

ラヴァ

LLaVA は、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が開発した、エンドツーエンドでトレーニングされた大規模なマルチモーダル モデルであり、最初のバージョンは 4 月にリリースされました。

一般的な視覚と言語理解のためのビジュアル エンコーダーと Vicuna を組み合わせて、優れたチャット機能を実現します。

写真

10月には、アップグレードされたLLaVA-1.5のパフォーマンスがマルチモーダルGPT-4に近づき、Science QAデータセットでSOTAを達成しました。

写真

13B モデルのトレーニングは、8 台の A100 のみを使用して 1 日で完了できます。

写真

ご覧のとおり、LLaVA はさまざまな種類の質問を処理でき、生成される回答は包括的かつ論理的です。

LLaVA は、ビジュアルチャットで相対スコア 85% を誇る GPT-4 のレベルに近いマルチモーダル機能を備えています。

推論質問応答の点では、LLaVA は新しい SoTA である 92.53% に到達し、マルチモーダル思考チェーンを上回りました。

写真

視覚的に見ても、そのパフォーマンスは非常に目を引くものです。

写真

写真

質問: 「事実上の誤りがあれば、それを指摘してください。そうでなければ、砂漠で何が起こっているのか教えてください。」

LLaVA はまだこの質問に完全に正確に答えることはできません。

アップグレードされた LLaVA-1.5 は完璧な答えを出しました。「写真には砂漠はありませんが、ヤシの木のあるビーチ、街のスカイライン、そして大きな水域が写っています。」

写真

さらに、LLaVA-1.5ではグラフから情報を抽出し、JSON形式で出力するなど、必要な形式で回答することも可能です。

写真

LLaVA-1.5 に果物や野菜がたくさん写っている写真を与えると、GPT-4V と同じようにその写真を JSON に変換できます。

写真

次の図はどういう意味でしょうか?

写真

これはノーラン監督の「インセプション」を基にした簡略化されたスケッチです。難易度を上げるために、登場人物の名前は仮名に変更されています。

LLaVA-1.5 は驚くべき答えを返しました。「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルを示しており、各レベルは線で表されています。絵は紙に書かれており、その紙はテーブルの上に置かれています。」

写真

食べ物の写真を LLaVA-1.5 に直接送信すると、すぐにレシピが生成されます。

写真

さらに、LLaVA-1.5 は、ジェイルブレイクせずに検証コードを認識できます。

写真

写真に写っているコインの種類も検出できます。

写真

特に印象的なのは、LLaVA-1.5 が写真に写っている犬の品種も教えてくれることです。

写真

あるユーザーは、Bing を使用して、晴れた夏のビーチで冬のコートを着た男性の画像を生成し、LLaVA 1.5 に画像内の問題点を指摘するよう依頼しました。その目はとても鋭い――

これは、ジャケットを着てビーチに立っている男性の写真を加工またはフォトショップで加工したものです。男はコートを開けると、太陽の光が彼を照らした。この画像の問題は、実際のビーチの風景ではないということです。その男性は実際には浜辺に立っていなかったし、太陽も彼を照らしていなかった。この画像はビーチの風景を演出するためにフォトショップで加工されていますが、実際の風景を再現しているわけではありません。

写真

OCR認識とLLaVAも優れたパフォーマンスを発揮します。

写真

写真

写真

コグエージェント

CogAgent は、清華大学の研究者が開発した、CogVLM を改良したオープンソースの視覚言語モデルです。

CogAgent-18B には 110 億の視覚パラメータと 70 億の言語パラメータがあります。

写真

論文アドレス: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B は、VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む 9 つの標準的なクロスモーダル ベンチマークで最先端の総合パフォーマンスを達成しています。

AITW や Mind2Web などの GUI 操作データセットでは、既存のモデルを大幅に上回るパフォーマンスを発揮します。

CogVLM の既存のすべての機能 (視覚化されたマルチターン ダイアログ、ビジュアル グラウンディング) に加えて、CogAgent.NET はさらに多くの機能を提供します。

1. 高解像度のビジュアル入力と対話応答をサポートします。 1120x1120の超高解像度画像入力をサポートします。

2. 任意の GUI スクリーンショット上の任意のタスクの計画、次のアクション、および座標を含む特定の操作を返すことができるビジュアル エージェントを持つ機能。

3. GUI関連の問題解決機能を強化し、Webページ、PCアプリケーション、モバイルアプリケーションなど、あらゆるGUIスクリーンショットに関連する問題に対応できるようにしました。

4. 事前トレーニングと微調整の改善により、OCR 関連タスクの機能が強化されました。

GUIエージェント

CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。

写真

携帯電話のディスプレイを明るいモードに調整するのに役立ちます。

写真

CogAgent は、このツイートのリツイート数、コメント数、いいね数、そしてなぜこのツイートが人気なのかを分析できます。さらに、「素晴らしい」と返信することもできます。

写真

フロリダ大学からハリウッドまで行く最も早い方法は何ですか?午前 8 時に開始する場合、どのくらいの時間がかかると見積もっていますか? CogAgent はこれらすべてに答えることができます。

写真

特定の件名を設定し、CogAgent が指定したメールボックスにメールを送信するようにすることができます。

写真

「You raise me up」という曲を聴きたい場合、CogAgent ではステップごとに手順をリストできます。

写真

CogAgentは『原神』のシーンを正確に描写し、テレポートポイントへの行き方を案内します。

写真

バクLL

BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B ベース モデルです。

最初のバージョンでは、Mistral 7B ベース モデルが複数のベンチマークで Llama 2 13B を上回りました。

彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために引き続き更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 は完全にオープンソースですが、LLaVA コーパスを含む特定のデータでトレーニングされているため、商用利用することはできません。

BakLLaVA 2 は、現在の LLaVa アプローチを上回る、より大きなデータセットと新しいアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限がなく、商業的に使用できます。

参考文献:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

<<:  ハーバード史上最短の在職期間! 53歳の女性校長、博士論文の盗作疑惑で辞職

>>:  AAAI 2024 フェロー発表、清華大学の朱軍教授が選出

ブログ    
ブログ    
ブログ    

推薦する

創造性がデジタル変革を推進する

人工知能はビジネス環境を一新し、競争環境を変え、仕事の本質を変革しています。しかし、人間の創造性も ...

...

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

機械学習におけるデザインパターン定義上、デザイン パターンは一般的な問題に対する再利用可能なソリュー...

人工知能は未来の都市にどのような力を与えるのでしょうか?

スマート シティが将来のアイデアだけでなく現実のものとなるにつれ、人工知能 (AI) が台頭してきて...

...

...

...

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準...

...

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

朗報です、朗報です、本物のソラの新しいビデオがあります!通りかかったらぜひお見逃しなく! (本物のS...

...

ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...

データサイエンス技術の未来

[[361283]]画像ソース: https://pixabay.com/images/id-477...