超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

ターゲット検出用のGPT-4V?ネットユーザーの実地テスト:まだ準備ができていません。

検出されたカテゴリは問題ありませんが、境界ボックスのほとんどは間違った場所に配置されています。

問題ありません、誰かが助けてくれます!

数か月間、画像表示機能において GPT-4 を上回っていた mini GPT-4 が、 MiniGPT-v2にアップグレードされました。

△(左側はGPT-4Vで生成、右側はMiniGPT-v2で生成)

そして、結果は、たった 1 つの簡単な指示で達成されます: [grounding] このイメージを詳細に説明します

それだけでなく、さまざまな視覚的なタスクも簡単に処理できます。

モデルがオブジェクトの名前を直接認識できるように、オブジェクトを丸で囲み、プロンプトワードの前に [identify] を追加します。

もちろん何もつけずに直接聞いても大丈夫ですよ〜

MiniGPT-v2 は、MiniGPT-4 (KAUST、サウジアラビアのキング・アブドラ科学技術大学) のオリジナル チームと Meta の 5 人の研究者によって開発されました。

前回 MiniGPT-4 がリリースされたとき、大きな注目を集め、しばらくの間サーバーが混雑しました。現在、GItHub プロジェクトは 22,000 以上のスターを獲得しています。

このアップグレード後、一部のネットユーザーが使い始めました〜

複数の視覚タスクのための共通インターフェース

さまざまなテキスト アプリケーションの共通インターフェイスとして、ビッグ モデルが一般的になっています。これに触発されて、研究チームは、画像の説明、視覚的な質問への回答など、複数の視覚タスクに使用できる統合インターフェースを構築したいと考えました。

「単一のモデルの条件下で、シンプルなマルチモーダル指示を使用してさまざまなタスクを効率的に完了するにはどうすればよいか」は、チームが解決する必要のある困難な問題になりました。

簡単に言えば、MiniGPT-v2 は、ビジュアル バックボーン、線形レイヤー、大規模言語モデルの 3 つの部分で構成されています。

このモデルは、すべてのトレーニング ステージで変更されない ViT ビジュアル バックボーンに基づいています。 4つの隣接する視覚出力トークンがViTから誘導され、線形レイヤーを介してLLaMA-2言語モデル空間に投影されます。

チームは、モデルをトレーニングする際に、異なるタスクに固有の識別子を使用することを推奨しています。これにより、大規模なモデルが各タスクの指示を簡単に区別し、各タスクの学習効率を向上させることができます。

トレーニングは主に、事前トレーニング - マルチタスクトレーニング - マルチモード指示調整の 3 つの段階に分かれています。

最終的に、MiniGPT-v2 は、多くの視覚的な質問応答と視覚に基づくベンチマークにおいて、他の視覚言語一般モデルよりも優れたパフォーマンスを発揮します。

最後に、このモデルは、ターゲット オブジェクトの説明、視覚的なローカリゼーション、画像のキャプション作成、視覚的な質問への回答、指定された入力テキストからの画像オブジェクトの直接解析など、さまざまな視覚タスクを実行できます。

興味のある方は、以下のデモ リンクをクリックして体験してください。

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

論文リンク: https://arxiv.org/abs/2310.09478

GitHub リンク: https://github.com/Vision-CAIR/MiniGPT-4

<<:  大型モデルが最高95.8%の精度で「人肉検索」を実施!研究著者:OpenAIはGoogle Metaに注意喚起された

>>:  Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

ブログ    
ブログ    
ブログ    

推薦する

ブロックチェーン上の人間: 暗号が AI 支配者に対するより良い防御である理由

[[253050]]コンセンサス プロトコルに関する議論でガバナンスがより一般的になるにつれ、サトシ...

...

...

単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

[[441692]]トランスフォーマーは本当に多用途です。トランスフォーマーは、もともと自然言語処...

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

[[280714]]人工知能は世界に大きな影響を与えます。 2025年までに、AIソフトウェアの総...

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...

感情AIが企業のITリーダーに希望をもたらす

感情 AI、つまり感情コンピューティングは、AI の次の大きなトレンドになる可能性があります。企業は...

栄創同志、競争は発展を促進する。第1回「AIIAカップ」人工知能ツアー説明会が北京で開催

2月28日、中国人工知能産業発展連盟「AIIAカップ」人工知能ツアー報告会において、中国航天科技集団...

「知的障害ロボット」が解雇に直面

最近、ストレンジという日本のロボットホテルが「ロボット従業員」の半数を解雇した。ロボットに仕事を奪わ...

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

スポーツにおける AI はどの程度信頼できないのでしょうか?先月、スコットランドサッカー選手権の試合...

精度が極めて低いです! OpenAIがAI検出器を削除、ICMLの傑出した論文が非難される

OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier を...

全国人民代表大会代表劉清鋒氏:2019年は人工知能の大規模応用の年となる

[[258931]]今日の科学技術分野における最も最先端のトピックとして、人工知能は3年連続で政府活...

AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

機械学習が「人間レベル」の能力に到達するには、多くのトレーニング反復とラベル付きデータが必要です。こ...

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

12月2日、マイクロソフトと周迅のAI音声紅丹丹慈善プロジェクトの発起人である魯音源文化伝承社は、...