中国のパフォーマンスがVLMの最高級GPT-4Vを上回り、アリ・クウェン-VLスーパーカップが期間限定で無料に！写真を見てプログラミングスキルを数秒で習得。視覚的な問題を一目で特定

最近、同義千文がとても人気になってきました。

少し前にネットユーザーの間で熱狂を巻き起こした国民的ダンス王は、「AI被験者3」をホット検索に頻繁に登場させた。

真歓、慈禧、麝香、猫、兵馬俑が踊れるAIは、同義千文アプリの裏に隠されています。

出典: 夜遅くにポテトチップス

最も強力な国内視覚言語モデルについて学ぶ

ここ数日、Tongyi Qianwenチームはマルチモーダルな大規模モデルの開発に着手した。

Tongyi Qianwenビジュアル言語モデルQwen-VLが再度アップグレードされました。Plusバージョンに続き、Maxバージョンがリリースされました。

Qwen-VLは、アリババが2023年8月に発表した画像とテキストの理解機能を備えた大規模モデルです。同義千文言語モデルをベースに開発されています。アップグレードされたQwen-VLは視覚レベルが大幅に向上し、多くの画像に対する理解力が人間に近づきました。

さらに、100 万ピクセルを超える高解像度の画像や、さまざまな極端なアスペクト比の画像もサポートできます。

アップグレードされたモデルは期間限定で無料で、Tongyi Qianwen公式サイトとアプリで体験でき、APIも無料で呼び出すことができます。

評価結果によると、Qwen-VLのアップグレード版は、MMMUやMathVistaなどのタスクで業界のあらゆるオープンソースモデルをはるかに上回り、文書分析（DocVQA）や中国語画像関連（MM-Bench-CN）などのタスクではGPT-4Vを上回り、世界最高レベルに達しました。

第三者による権威ある評価では、Qwen-VL は GPT-4V や Gemini と並んで業界のトップ 3 を占めることが多く、他の競合他社と大きな差をつけています。

出典: OpenCompass

編集者は何も言わずに、すぐに実際のテストを開始しました。

マルチモーダル基本機能

まず、非常に難しい問題が浮かびました。それは、編集者が10年前にスノータウンで撮影した写真です。

Qwen-VL-Max はそれを一目で認識しただけでなく、非常に美しい説明もしました。

家々はまるでおとぎ話に出てくる小屋のように厚い雪に覆われていました。ちょうど太陽が昇り、雪と家々に暖かい色合いを投げかけていた。遠くの山々や森も淡い黄色の朝の光に包まれ、景色全体が静かで平和な雰囲気に見えました。

GPT-4Vは、具体的な目印がないため正確な位置を示すことはできないと述べた。

次に、Qwen-VL-Max は、GPT-4V を困惑させたひょうたん人形の数を正しく数えただけでなく、「ひょうたん人形の数を数える」問題も解決しました。

そして彼は、古典的なコンピュータービジョンパズル「チワワとパンケーキ」も解きました。

「タオルロールとシャーペイ犬」、「コーギーのお尻とトースト」などの同様の質問にもうまく答えることができます。

「チワワにトーストを乗せている」といった面白い絵も理解できます。

写真に写っている複数の有名人を特定するなどの質問に対しても、Qwen-VL-Max は即座に正しい答えを出すことができます。

たとえば、先日 ACM フェローに選出されたチューリングトリオ。

そしてテクノロジー界の大物たちも多数。

同様に、手書きのテキストであっても、画像内のテキストを正確に認識できます。

対照的に、GPT-4Vは写真に筆で書かれた文字を認識できず、「明けましておめでとうございます。幸運を祈ります」と答えた。

興味深いことに、Qwen-VL-Max はイメージの理解に基づいて詩を書くこともできます。

たとえば、「ゲーム・オブ・スローンズ」の有名なシーンを基にしたこの中国語の詩は、実に詩的です。

同じ場面を基にした英語の詩も非常に詩的です。

ビジュアルエージェントの機能

Qwen-VL-Max には、基本的な説明機能と認識機能に加えて、視覚的な位置決め機能もあり、画面の指定された領域で質問に答えることができます。

たとえば、猫の群れの中にいる黒猫を正確にフレーミングすることができます。

チワワとマフィンでチワワをフレームに入れることもできます。

私たちは、OpenAI の共同創設者 Karpathy 氏の投稿にある写真をハイライトし、ハイライトされた部分が何を意味するのかを Qwen-VL-Max 氏に尋ねました。

すぐに正解が出ました。マークされた部分は、AlphaCodium のコード生成プロセスを示すフローチャートです。正しい説明も記載されています。

重要な情報の抽出と処理

実際のテストでは、Qwen-VL-Max の最も重要な改善点の 1 つは、視覚に基づいて複雑な推論を完了する能力であることがわかりました。

これは、コンテンツの説明を超えて、複雑な表現を理解することにもつながります。

たとえば、次の一見単純な中学校の幾何学の問題は、条件情報が画像に埋め込まれているため、実際には多くの視覚モデルを困惑させます。

対照的に、Qwen-VL-Maxは正しい答えを直接出しました。

上下にスワイプして表示

たとえば、下の図のアルゴリズムフローチャートを説明してください。

Qwen-VL-Max は、各ステップの後に何を行う必要があるかを含め、プロセス全体を明確に説明します。

また、子どものプログラミング問題に対して、図の中の過程を正しく理解し、Python プログラムに変換することもできます。

 import random # 初始化变量my_number = random.randint(1, 10) guess = None # 猜数字循环while guess != my_number: guess = int(input("Guess a number between 1 and 10: ")) if guess > my_number: print("Too high!") elif guess < my_number: print("Too low!") print("You got it!")

チャートを提供するだけで、Qwen-VL-Max が詳細な分析と解釈を行うことができます。

論文内のグラフがどんなに複雑であっても、グラフを簡潔で直感的な表に即座に整理するのに役立ちます。

以下の図の推論問題では、図 4 は星の中に点がある図であるはずだと正確に推論できます。

テキスト情報の認識と処理

今回、反復型 Qwen-VL-Plus/Max の画像内のテキスト処理能力も大幅に向上し、特に中国語と英語のテキストが顕著になりました。

モデルは、テーブルやドキュメントから情報を効率的に抽出し、再フォーマットすることができます。

例えば、文字だらけの薬の説明書を写真に撮ってアップロードし、標準フォーマットでテキストを出力してもらうことができます。

Qwen-VL-Maxは画像内のテキストを正確に認識できるだけでなく、画像内の[ ]を同期させることもできます。

下記のスキャンした文書は、メモがたくさん書かれていて一部が隠されていますが、それでも認識できます。

Qwen-VLは同レベルの大規模モデルを圧倒し、AIコミュニティはそれを賞賛する

さまざまな複雑な視覚タスクにおける Tongyi Qianwen のパフォーマンスは本当に素晴らしいです。その背後にある技術的なアーキテクチャは何ですか?

チームは早くも昨年 8 月に、Qwen-7B と ViT-G をベースにした Qwen-VL をオープンソース化しました。

論文アドレス: https://arxiv.org/abs/2308.12966

視覚言語ダウンストリームタスクデータセットを直接使用してアライメントを行うのではなく、チームは第 1 世代の Qwen-VL をトレーニングする際に 3 段階のトレーニング方法を設計しました。

ステージ1: 事前トレーニング - ビジュアルエンコーダーを固定LLMに合わせる

トレーニングデータが不十分だとタスクの一般化パフォーマンスが低下する可能性があるため、大量の弱く監視された画像テキストデータ (LAION-5B など) を使用して調整します。

同時に、LLM の理解と生成能力を維持するために、LLM を凍結する必要があります。

フェーズ2: マルチタスク事前トレーニング - Qwen-VLがさまざまな下流タスクを完了できるようにする

LLM に、視覚的な質問回答、画像の説明生成 (画像キャプション)、OCR、視覚的な配置 (ビジュアルグラウンディング) などのさまざまなタスクの事前トレーニングを完了させます。

ここでは位置がテキスト座標で直接表現されるため、LLM はフォーカス要素の位置情報を自然に出力できます。

ステージ3: 教師あり微調整 - 視覚言語モデルを人間の好みに合わせる

多様な SFT サンプルのセットが収集および構築され、視覚言語モデルに対して予備的なアライメントプロセスが実行されます。

主流のマルチモーダルタスク評価やマルチモーダルチャット能力評価において、Qwen-VLは同時期に同規模の一般的なモデルをはるかに上回る性能を達成していることがわかります。

Qwen-VL モデルはオープンソース化されてから、AI コミュニティで広く賞賛され、推奨されました。

一部のネットユーザーは、人工知能の次の進化が来ると嘆いている。 Qwen-VL モデルは、視覚 + テキスト推論を巧みに組み合わせ、マルチモーダル人工知能の開発を推進します。

一部のネットユーザーも、同義千文チームの仕事は非常に傑出しており、真剣であり、特に最近リリースされたバージョンは絶対に素晴らしいと述べた。

もちろん、Qwen-VL-Plus の新しいバージョンのパフォーマンスは大幅に改善されており、ネットユーザーたちはテストを始めています。

たとえば、ある人は、Qwen-VL-Plus が実際に独自の「キノコテスト」(写真内の特定の種類のキノコを識別する) に合格したことを発見し、「これはこのテストに合格した 2 番目のオープンソース VLM モデルです」と述べました。

Qwen-VL-Plus と ChatGPT を比較した人もいますが、Tongyi Qianwen モデルの回答の方が印象的です。

次なる AI の爆発点: マルチモーダル視覚言語モデル

2023 年は大規模言語モデルの爆発的な成長の年です。

LLMの後、次に爆発的なトラックはどこになるでしょうか?

多くの人は、それがマルチモーダルであると考えています。おそらく、AGI を実現するための鍵はここにあります。

「マルチモーダルモデルはAI時代の次の爆発的なポイントになるだろう」という発言は、業界の多くのAIリーダーからも支持されています。

OpenAIの開発者関係担当ディレクターであるローガン・キルパトリック氏は、かつてAIエンジニアサミットで「2024年はマルチモーダルモデルの年になるだろう」と述べたことがある。

最近、HuggingFace の研究エンジニアが Latent Space ポッドキャストのインタビューでさらに踏み込んで、2 年以内にすべての LLM が LMM になると予測しました。

Meta の公共政策の専門家は、2024 年の AI を予測し、「マルチモーダル評価、マルチモーダル安全性、マルチモーダルこれ、マルチモーダルあれに関する議論において、LMM が引き続き出現し、LLM に取って代わるだろう。さらに、LMM は真に汎用的な人工知能アシスタントへの足がかりとなる」と述べています。

チューリング賞の巨匠ルカン氏もこれに同意した。

過去 1 年間、多くの人がマルチモーダル大規模モデルの開発における重要なマイルストーンを目撃しました。

LLaVa、Imagebind、Flamingo から GPT-4V や Gemini などの大規模モデルの誕生まで、AI システムがさまざまな形式のデータを理解し、操作する方法は完全に変化しました。

マルチモーダル大型モデルの分野では、国内有数のテクノロジー企業であるアリババも計画や模索を進めている。

2021年にはM6シリーズの事前トレーニングと微調整モードがリリースされ、2022年にはグラフィックとテキストモーダルタスクを統合した汎用モデルのOFAシリーズがリリースされ、その後OFA-Sysの体系的なAI学習が試みられる予定です。

2023年に同義千文ビッグモデルが登場した後、アリババチームがQwen-7Bをベースに構築した視覚理解ビッグモデルQwen-VLが8月末に正式にオープンソース化されました。

11月、アリババは音声理解モデルQwen-Audioをオープンソース化し、またQwen-VLをアップグレードして、一般的なOCR、視覚的推論、中国語テキスト理解の基本機能と、さまざまな解像度や仕様の画像を処理する機能を追加しました。次にQwen-VL-Maxが打ち上げられました。

同義千文チームは、彼らの目標は常に、人間のように聞き、見て、理解し、コミュニケーションできる「汎用AIモデル」を開発することだったと語った。

すべてのマルチモーダル大規模モデルの反復的な更新の最も重要な価値は、さまざまな業界を再構築するための実用的なアプリケーションとの統合にあります。

LMM は AI 企業が注目する重要な開発トレンドとなっており、その一般化能力は完全なビジネスモデルを形成するための重要な能力の 1 つです。

イノベーションを先導する最初の産業はロボット工学の分野です。 LMM は将来の家庭用サービスロボットを人間の生活にさらに浸透させるでしょう。

過去1年間のビッグモデルの継続的な発酵を経て、多くの人がAI +ロボットの幅広い応用展望を目にしてきました。これが、多くのAI大手が2024年を「ロボット元年」と呼ぶ理由です。

例えば、Google の DeepMind チームによってアップグレードされた RT-2 ロボットには、新しい「視覚言語アクション」モデルが搭載されており、アクションモードが追加され、驚くべき学習能力と理解力を発揮します。

マルチモーダル大型モデル「ジェミニ」の発表後、グーグル・ディープマインドのハサビスCEOも「チームはジェミニとロボット技術を組み合わせて物理的に世界とやりとりする方法を研究している」と述べた。

LMM は、医師が医療画像分析を通じて病気を診断するのにも役立ち、医師が医療画像やレポートを解釈して診断を迅速化するのに役立ちます。

数日前、世界保健機関（WHO）も、医療と健康分野におけるマルチモーダルビッグモデルの5つの主要な応用シナリオ（診断と臨床ケア、患者の自主的な使用、事務と管理作業、医療と看護教育、科学研究と医薬品開発）を概説した新しいガイドラインを発表しました。

さらに、LMMは教育分野でも広く利用されています。

たとえば、GPT-4 を搭載したカーンアカデミーの AI ロボットである Khanmio は、生徒に個別の指導を提供でき、数学に重点を置いた WolframAlpha は視覚的な問題解決手順を生成できます。

将来的には、マルチモーダルなビッグモデルにより、テキスト、画像、音声を組み合わせることで、より没入感のある学習体験を生み出すことができるようになります。

マルチモーダル大規模モデルは、テキスト、画像、音声などのさまざまなモダリティをシームレスに統合し、ヘルスケア、教育、アート、パーソナライズされた推奨事項などの革新的なアプリケーションへの扉を開きます。

要約すると、LMM は人工知能の未来であり、人工汎用知能への足がかりであるという結論を導き出すことができます。

明らかに、アリババは正しい方向に進んでいます。

<<:

>>:

ブログ

新たな市場トレンドをリードする百度Apollo Zhituがグローバルインテリジェント運転マップをリリース

中国のパフォーマンスがVLMの最高級GPT-4Vを上回り、アリ・クウェン-VLスーパーカップが期間限定で無料に！写真を見てプログラミングスキルを数秒で習得。視覚的な問題を一目で特定

最も強力な国内視覚言語モデルについて学ぶ

マルチモーダル基本機能

ビジュアルエージェントの機能

重要な情報の抽出と処理

テキスト情報の認識と処理

Qwen-VLは同レベルの大規模モデルを圧倒し、AIコミュニティはそれを賞賛する

次なる AI の爆発点: マルチモーダル視覚言語モデル

人工知能がいかにして質の高い経済発展を可能にするか

大型模型シリーズ - RAGの解釈

人工知能を理解していないかもしれませんが、次の3つのポイントを知っておく必要があります

新たな市場トレンドをリードする百度Apollo Zhituがグローバルインテリジェント運転マップをリリース

人工知能: Web3 の救世主か破壊者か?

2021年世界の最新人工知能技術9選

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

混合交通流におけるコネクテッド自動運転車の衝突回避方法: モデルベースの強化学習アプローチ

推薦する

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

テクノロジー | 12人の専門家が2021年の人工知能の発展動向について語る

データセンター不足がAIの未来を阻害している理由

CNNとRNNについての簡単な説明

AIが観測性を高める方法

受注収益が7億人民元を超えるPercentが、なぜこれほど爆発的な成長を遂げることができたのでしょうか?

アリババは、DAMOアカデミーの1990年代生まれの科学者が開発した新世代のAIアルゴリズムモデルをオープンソース化しました。

口を使ってiPhoneで10秒写真編集！ UCSB Appleの中国人チームがマルチモーダルMGIEをリリース、オープンソースで誰でもプレイできることを公式発表

プログラマーがエキスパートになるためのプログラミングアルゴリズムトップ 10_IT テクノロジーウィークリー 380 号

OpenCV を使用した画像の二値化とグレースケール変換

機能テストケース自動生成アルゴリズムペアワイズ

GitHub ホットリスト 1 位: 数百万のトークンコンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作