現在、GPT-4 Vision は言語理解と視覚処理において並外れた能力を発揮しています。 ただし、パフォーマンスを犠牲にすることなくコスト効率の高い代替手段を探している場合、オープンソース ソリューションは無限の可能性を提供します。 外国人開発者の Youssef Hosni 氏は、GPT-4V に代わるオープンソースの代替手段を 3 つ提供しており、アクセシビリティは完全に保証されています。 3 つのオープンソース視覚言語モデル、LLaVa、CogAgent、BakLLaVA は、視覚処理の分野で大きな可能性を秘めています。 写真 ラヴァLLaVA は、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が開発した、エンドツーエンドでトレーニングされた大規模なマルチモーダル モデルであり、最初のバージョンは 4 月にリリースされました。 一般的な視覚と言語理解のためのビジュアル エンコーダーと Vicuna を組み合わせて、優れたチャット機能を実現します。 写真 10月には、アップグレードされたLLaVA-1.5のパフォーマンスがマルチモーダルGPT-4に近づき、Science QAデータセットでSOTAを達成しました。 写真 13B モデルのトレーニングは、8 台の A100 のみを使用して 1 日で完了できます。 写真 ご覧のとおり、LLaVA はさまざまな種類の質問を処理でき、生成される回答は包括的かつ論理的です。 LLaVA は、ビジュアルチャットで相対スコア 85% を誇る GPT-4 のレベルに近いマルチモーダル機能を備えています。 推論質問応答の点では、LLaVA は新しい SoTA である 92.53% に到達し、マルチモーダル思考チェーンを上回りました。 写真 視覚的に見ても、そのパフォーマンスは非常に目を引くものです。 写真 写真 質問: 「事実上の誤りがあれば、それを指摘してください。そうでなければ、砂漠で何が起こっているのか教えてください。」 LLaVA はまだこの質問に完全に正確に答えることはできません。 アップグレードされた LLaVA-1.5 は完璧な答えを出しました。「写真には砂漠はありませんが、ヤシの木のあるビーチ、街のスカイライン、そして大きな水域が写っています。」 写真 さらに、LLaVA-1.5ではグラフから情報を抽出し、JSON形式で出力するなど、必要な形式で回答することも可能です。 写真 LLaVA-1.5 に果物や野菜がたくさん写っている写真を与えると、GPT-4V と同じようにその写真を JSON に変換できます。 写真 次の図はどういう意味でしょうか? 写真 これはノーラン監督の「インセプション」を基にした簡略化されたスケッチです。難易度を上げるために、登場人物の名前は仮名に変更されています。 LLaVA-1.5 は驚くべき答えを返しました。「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルを示しており、各レベルは線で表されています。絵は紙に書かれており、その紙はテーブルの上に置かれています。」 写真 食べ物の写真を LLaVA-1.5 に直接送信すると、すぐにレシピが生成されます。 写真 さらに、LLaVA-1.5 は、ジェイルブレイクせずに検証コードを認識できます。 写真 写真に写っているコインの種類も検出できます。 写真 特に印象的なのは、LLaVA-1.5 が写真に写っている犬の品種も教えてくれることです。 写真 あるユーザーは、Bing を使用して、晴れた夏のビーチで冬のコートを着た男性の画像を生成し、LLaVA 1.5 に画像内の問題点を指摘するよう依頼しました。その目はとても鋭い――
写真 OCR認識とLLaVAも優れたパフォーマンスを発揮します。 写真 写真 写真 コグエージェントCogAgent は、清華大学の研究者が開発した、CogVLM を改良したオープンソースの視覚言語モデルです。 CogAgent-18B には 110 億の視覚パラメータと 70 億の言語パラメータがあります。 写真 論文アドレス: https://arxiv.org/pdf/2312.08914.pdf CogAgent-18B は、VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む 9 つの標準的なクロスモーダル ベンチマークで最先端の総合パフォーマンスを達成しています。 AITW や Mind2Web などの GUI 操作データセットでは、既存のモデルを大幅に上回るパフォーマンスを発揮します。 CogVLM の既存のすべての機能 (視覚化されたマルチターン ダイアログ、ビジュアル グラウンディング) に加えて、CogAgent.NET はさらに多くの機能を提供します。 1. 高解像度のビジュアル入力と対話応答をサポートします。 1120x1120の超高解像度画像入力をサポートします。 2. 任意の GUI スクリーンショット上の任意のタスクの計画、次のアクション、および座標を含む特定の操作を返すことができるビジュアル エージェントを持つ機能。 3. GUI関連の問題解決機能を強化し、Webページ、PCアプリケーション、モバイルアプリケーションなど、あらゆるGUIスクリーンショットに関連する問題に対応できるようにしました。 4. 事前トレーニングと微調整の改善により、OCR 関連タスクの機能が強化されました。 GUIエージェントCogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。 写真 携帯電話のディスプレイを明るいモードに調整するのに役立ちます。 写真 CogAgent は、このツイートのリツイート数、コメント数、いいね数、そしてなぜこのツイートが人気なのかを分析できます。さらに、「素晴らしい」と返信することもできます。 写真 フロリダ大学からハリウッドまで行く最も早い方法は何ですか?午前 8 時に開始する場合、どのくらいの時間がかかると見積もっていますか? CogAgent はこれらすべてに答えることができます。 写真 特定の件名を設定し、CogAgent が指定したメールボックスにメールを送信するようにすることができます。 写真 「You raise me up」という曲を聴きたい場合、CogAgent ではステップごとに手順をリストできます。 写真 CogAgentは『原神』のシーンを正確に描写し、テレポートポイントへの行き方を案内します。 写真 バクLLBakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B ベース モデルです。 最初のバージョンでは、Mistral 7B ベース モデルが複数のベンチマークで Llama 2 13B を上回りました。 彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために引き続き更新されています。 (https://github.com/SkunkworksAI/BakLLaVA) BakLLaVA-1 は完全にオープンソースですが、LLaVA コーパスを含む特定のデータでトレーニングされているため、商用利用することはできません。 BakLLaVA 2 は、現在の LLaVa アプローチを上回る、より大きなデータセットと新しいアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限がなく、商業的に使用できます。 参考文献: https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5 |
<<: ハーバード史上最短の在職期間! 53歳の女性校長、博士論文の盗作疑惑で辞職
>>: AAAI 2024 フェロー発表、清華大学の朱軍教授が選出
[[432735]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
モノのインターネットは大量のセンサーデータを生成すると予測されており、それが人工知能と組み合わさるこ...
OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...
欧州議会は7月4日、6月14日に人工知能法案草案を可決した。これは、欧州企業が立ち上げたAIモデルを...
アジア太平洋地域では、スマートホーム技術の登場により、ヘルスケア業界の大きな変革が起こっています。こ...
廃棄フィルム2枚がパチンと貼り合わされました!見逃した素晴らしい瞬間をすぐに蘇らせることができ、効果...
アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...
IDCが発表した最新データによると、ソフトウェア、ハードウェア、サービスを含む世界の人工知能の収益は...
10月12日、世界をリードするインテリジェントオペレーティングシステム製品およびテクノロジープロバイ...
生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...
自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...