この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 アリババのオープンソースビッグモデルがまた更新されました〜 同義千文7号B (Qwen-7B)に続いて、アリババクラウドは大規模視覚言語モデルQwen-VLをリリースしました。これはオンラインになるとすぐにオープンソース化されました。 具体的には、Qwen-VLはTongyi Qianwen-7Bをベースに構築された大規模なマルチモーダルモデルです。画像、テキスト、検出ボックスなどの複数の入力をサポートし、テキストに加えて検出ボックスの出力もサポートしています。 たとえば、アーニャの写真を入力します。質問と回答の形式を通じて、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内のアーニャを見つけることもできます。 テストタスクでは、Qwen-VL は「六角形の戦士」の強さを発揮し、4 つの主要なタイプのマルチモーダルタスク (ゼロショット キャプション/VQA/DocVQA/グラウンディング) の標準英語評価で SOTA を達成しました。 オープンソースのニュースが出るとすぐに、大きな注目を集めました。 具体的なパフォーマンスを見てみましょう〜 中国のオープンドメインポジショニングをサポートする最初の汎用モデルまず、Qwen-VLシリーズモデルの特徴を見てみましょう。
シナリオの面では、Qwen-VL は、知識質疑応答、画像質疑応答、ドキュメント質疑応答、きめ細かい視覚的ポジショニングなどのシナリオで使用できます。 例えば、中国語が読めない外国人の友人が病院で治療を受ける際、ナビゲーションマップを見て混乱し、対応する科にどうやって行けばよいか分からなくなった場合、地図と質問を直接Qwen-VLに投げて、画像情報に基づいて翻訳させることができます。 複数の画像の入力と比較をテストしてみましょう。 アーニャだとは分かりませんでしたが、私の感情的な判断はかなり正確でした(犬の頭)。 視覚的な位置決め機能に関しては、画像が非常に複雑で多くのキャラクターが含まれている場合でも、Qwen-VL は要求に応じてハルクとスパイダーマンを正確に見つけることができます。 技術的な詳細について言えば、Qwen-VL は Qwen-7B に基づく言語モデルです。モデル アーキテクチャにビジュアル エンコーダ ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続することで、モデルがビジュアル信号入力をサポートするようになります。 具体的なトレーニングプロセスは、次の 3 つのステップに分かれています。
研究者らは、マルチモーダルタスクの 4 つの主要カテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) の標準的な英語評価で Qwen-VL をテストしました。 結果は、Qwen-VL が同じサイズのオープンソース LVLM の中で最良の結果を達成することを示しています。 さらに、研究者らは、GPT-4 スコアリング メカニズムに基づいたテスト セットTouchStone を構築しました。 この比較テストでは、Qwen-VL-Chat が SOTA を達成しました。 Qwen-VL に興味がある方は、Moda コミュニティと huggingface でデモを入手できます。リンクは記事の最後にあります。 Qwen-VLは研究者や開発者による二次開発をサポートしており、商用利用も可能となっています。ただし、商用利用の場合は事前にアンケート申請書に記入する必要があるので注意が必要です。 プロジェクトリンク: https://modelscope.cn/models/qwen/Qwen-VL/summary 論文アドレス: https://arxiv.org/abs/2308.12966 |
>>: 致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題
[[432791]]中国消費者協会(以下、「中国消費者協会」)は10月28日、事業者に対し、個人情報...
急速に進化する今日の教育環境では、テクノロジーの統合がかつてないほど普及しています。さまざまな技術の...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能とモノのインターネットは、ビジネスの運営方法に革命をもたらしています。一方、AI は、リアル...
最近、言語モデル (LM) は、プログラミング言語のソースコードのモデリングにおいて優れたパフォーマ...
機械学習の初心者であっても、中級プログラマーであっても、この質問に戸惑うかもしれません。チートシート...
AIに「感情」を与える時が来たのかもしれない[[236486]]今後のビジネスモデルはますます「感情...
ディープフェイクの出現以来、多くの論争を引き起こし、多くの倫理的、社会的問題を引き起こしてきました。...
1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...
ニューヨーク・タイムズ紙によると、世界の AI サイバーセキュリティの求人市場では、2021 年まで...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Google AI は TensorFlow 3D をリリースしました。これは TensorFlow...
サイバーセキュリティは、今日世界中の企業が直面している戦略的な課題です。パンデミックによって加速した...