清華大学のオープンソースの中国語マルチモーダルモデルVisCPM:対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

清華大学のオープンソースの中国語マルチモーダルモデルVisCPM:対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

2020年12月にリリースされたCPM-1は、中国初の大型中国語モデルです。2022年9月にリリースされたCPM-Antは、パラメータの0.06%を微調整するだけで、完全なパラメータ微調整の効果を上回ることができます。2023年5月にリリースされたWebCPMは、中国初の検索ベースの質問応答オープンソースモデルです。 CPM-Bee 100億モデルは、チームがリリースした最新のベースモデルです。中国語能力は権威あるリストZeroCLUEで1位にランクされており、英語能力はLLaMAと同等です。

大型機種CPMシリーズは、これまで画期的な成果を次々と生み出し、国内大型機種を新たな高みへと導いてきました。このたび発売したVisCPMも、その証です。 VisCPM は、Mianbi Intelligence、清華大学 NLP 研究所、Zhihu が共同で OpenBMB にオープンソース化した一連のマルチモーダル大規模モデルです。VisCPM-Chat モデルは中国語と英語の両方でマルチモーダル会話機能をサポートし、VisCPM-Paint モデルはテキストから画像への生成機能をサポートしています。評価によると、VisCPM は中国のマルチモーダル オープンソース モデルの中で最高レベルに達しています。

VisCPM は、数百億のパラメータを持つ CPM-Bee モデルでトレーニングされ、視覚エンコーダ (Q-Former) と視覚デコーダ (Diffusion-UNet) を統合して、視覚信号の入出力をサポートします。CPM-Bee ベースの優れたバイリンガル機能により、VisCPM は英語のマルチモーダル データのみで事前トレーニングでき、一般化して優れた中国語のマルチモーダル機能を実現できます。

VisCPM のシンプルなアーキテクチャ図

VisCPM-Chat と VisCPM-Paint が優れている点を詳しく見てみましょう。

写真

VisCPM リンク: https://github.com/OpenBMB/VisCPM

VisCPM-Chat は、中国語と英語の両方で画像ベースのマルチモーダル会話をサポートします。このモデルは、視覚エンコーダーとしてQ-Formerを使用し、言語相互作用基質モデルとしてCPM-Bee(10B)を使用し、言語モデリングトレーニング目標を通じて視覚モデルと言語モデルを融合します。モデルのトレーニングには、事前トレーニングと指示の微調整の 2 つの段階が含まれます。

チームは、CC3M、CC12M、COCO、Visual Genome、Laionなどを含む約1億の高品質の英語の画像とテキストデータを使用して、VisCPM-Chatを事前トレーニングしました。事前トレーニング段階では、言語モデルのパラメータは固定されたままで、大規模な視覚言語表現の効率的なアライメントをサポートするために Q-Former の一部のパラメータのみが更新されます。

次に、チームは、 LLaVA-150K の英語の指示の微調整データを使用し、対応する中国語の翻訳データを組み合わせてモデルの指示を微調整し、モデルのマルチモーダル基本機能とユーザーの意図を一致させて、VisCPM-Chat の指示を微調整しました。命令の微調整フェーズでは、すべてのモデルパラメータを更新して、命令の微調整データの利用効率を向上させました。

興味深いことに、チームは、コマンドの微調整に英語のコマンドデータのみを使用した場合でも、モデルは中国語の質問を理解できるが、答えられるのは英語だけであることを発見しました。これは、モデルの多言語およびマルチモーダル機能が十分に一般化されていることを示しています。指示の微調整段階で少量の中国語翻訳データをさらに追加することで、モデルの応答言語をユーザーの質問言語に合わせることができます。

チームは、LLaVA 英語テスト セットと翻訳された中国語テスト セットでモデルを評価しました。評価ベンチマークでは、オープン ドメインの対話、画像の詳細説明、複雑な推論におけるモデルのパフォーマンスを調べ、スコアリングに GPT-4 を使用します。 VisCPM-Chat は中国語のマルチモーダル機能において最高の平均パフォーマンスを達成し、一般ドメインの対話と複雑な推論に優れており、英語のマルチモーダル機能も優れていることがわかります。

VisCPM-Chat には、VisCPM-Chat-balance と VisCPM-Chat-zhplus という 2 つのモデル バージョンがあります。前者は英語と中国語でよりバランスの取れた機能を備えており、後者は中国語でより顕著です。 2 つのモデルは、命令の微調整段階で同じデータを使用します。VisCPM-Chat-zhplus は、事前トレーニング段階で、さらに 2,000 万のクリーンアップされた中国語ネイティブの画像テキスト ペア データと 1 億 2,000 万の中国語に翻訳された画像テキスト ペア データを追加します。

写真

以下は、VisCPM-Chat のマルチモーダル会話機能のデモです。特定のエリアの地図を認識できるだけでなく、落書きや映画のポスターを読んだり、スターバックスのロゴを認識することもできます。さらに、彼は中国語と英語の両方に堪能です!


中国語と英語の両方でテキストから画像への生成をサポートする VisCPM-Paint を見てみましょう。このモデルは、テキストエンコーダーとしてCPM-Bee(10B)、画像デコーダーとしてUNetを使用し、拡散モデルを通じてターゲット融合言語およびビジョンモデルをトレーニングします。

トレーニング プロセス中、言語モデルのパラメーターは常に固定されます。ビジュアル デコーダーは、Stable Diffusion 2.1 の UNet パラメーターを使用して初期化され、主要なブリッジ パラメーターを徐々に解凍することで言語モデルと融合されます。最初に、テキスト表現をビジュアル モデルにマッピングする線形レイヤーをトレーニングし、次に UNet のクロス アテンション レイヤーをさらに解凍します。このモデルは、Laion 2B 英語の画像とテキストのペアのデータでトレーニングされました。

VisCPM-Paint と同様に、ベース モデル CPM-Bee のバイリンガル機能により、 VisCPM-Paint は英語のテキストと画像のペアのみでトレーニングでき、一般化して優れた中国語のテキストから画像への生成機能を実現し、中国語のオープン ソース モデルの最高の結果を達成できます。さらに、2,000 万件のクリーンな中国語ネイティブ画像テキスト ペア データと、中国語に翻訳された 1 億 2,000 万件の画像テキスト ペア データを追加することで、モデルの中国語テキストから画像への生成機能がさらに向上しました。同様に、VisCPM-Paint には、balance と zhplus という 2 つの異なるバージョンがあります。彼らは、標準的な画像生成テストセット MSCOCO から 30,000 枚の画像をサンプリングし、生成された画像の品質を評価するために、一般的に使用される画像生成評価メトリック FID (Fréchet Inception Distance) を計算しました。

VisCPM-Paint モデルは、「明るい月が海の上に昇り、世界はこの瞬間を共有します。美的スタイル、抽象スタイル」と「人々が怠惰なとき、甘い香りのキンモクセイの花が散り、月は静かで春の山は空っぽです」という 2 つのプロンプトを入力し、次の 2 つの画像を生成します。

(生成される効果の安定性にはまだ改善の余地があります)

実に素晴らしいです。古代の詩の芸術的概念を正確に捉えていると言えます。今後詩が理解できなくても、絵を生成すれば理解できます。設計に適用すれば、多くの人手を節約できます。 「絵を描く」だけでなく、「詩を朗読する」こともできます。VisCPM-Chat は、画像を使用して詩を逆検索する機能です。例えば、黄河の景色を描写したり解釈したりするために李白の詩を使うことができます。中秋の名月を迎えるときは、蘇軾の「水の旋律」を使って感情を表現することもできます。

VisCPM は優れた生成結果をもたらすだけでなく、ダウンロード バージョンは慎重に設計されており、インストールと使用も非常に簡単です。

VisCPMは中国語版と英語版を用意しています

VisCPM は、誰でもダウンロードして選択できる、さまざまな中国語と英語の機能を備えたモデル バージョンを提供しています。インストール手順は簡単です。使用中は、わずか数行のコードでマルチモーダル ダイアログを実現できます。入力テキストと出力画像のセキュリティ チェックも、コード内でデフォルトで有効になっています。 (詳細なチュートリアルについては、README を参照してください) 今後、チームは VisCPM を huggingface コード フレームワークに統合し、セキュリティ モデルを徐々に改善し、Web ページの高速展開、モデル量子化のサポート、モデルの微調整などの機能をサポートしていきます。 アップデートをお楽しみに!

VisCPM シリーズ モデルは、個人使用や研究目的に非常に適していることは言うまでもありません。モデルを商用目的で使用したい場合は、cpm@modelbest.cn に連絡して商用ライセンスに関する事項について話し合うこともできます。

従来のモデルは、シングルモーダル データの処理に重点を置いています。現実世界の情報は、多くの場合、マルチモーダルです。マルチモーダルの大規模モデルは、人工知能システムの知覚相互作用機能を向上させ、AI が現実世界の複雑な知覚と理解のタスクを解決するための新たな機会をもたらします。清華大学傘下の大型モデル会社Mianbi Intelligentは強力な研究開発能力を持っていると言わざるを得ません。共同で発表したマルチモーダル大型モデルVisCPMは強力で、パフォーマンスも素晴らしいです。今後の成果発表に期待しています!

<<:  13万個の注釈付きニューロン、5300万個のシナプス、プリンストン大学などが初の完全な「成虫ミバエ」脳接続グループを発表

>>:  BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

ブログ    
ブログ    
ブログ    

推薦する

中国人がさらに7,360万ドルの資金調達を実施した!天才プログラマーが共同設立したLeCunの重鎮たちが全員サポート

Perplexity AIは本日、シリーズBの資金調達で7,360万ドルを調達し、評価額は5億2,0...

AIがIT運用に大きな影響を与える仕組み

AI が IT 運用に直接影響を与えることができる分野を考えるとき、他のアプリケーションよりも際立っ...

...

ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

対称暗号化アルゴリズムはどのようにして ASP.NET データ暗号化を実装するのでしょうか?それでは...

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...

人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

[[270985]]研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャ...

大企業面接のための iAsk の「スケジュール アルゴリズム」、写真 20 枚が当たる

[[341122]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転載...

研究のアイデアがうまくいかない場合、それはアイデアが悪いからではなく、ハードウェアが追いついていないからかもしれません。

研究アイデアの成功は、そのアイデアが他の研究方向よりも優れているかどうかではなく、適切なハードウェア...

...

マッキンゼーのパートナー:中国は医療AIでリードしているが、将来的には5つの重要な課題がある

[[235958]] 「医師はAIに取って代わられるか?」という質問に対し、鼎祥源の創業者李天天氏は...

我が国はすでに「人工知能」でトップを走っています!なぜ米国は5日後にようやく強く否定し始めたのか?

[[429481]]最近、元国防総省の最高ソフトウェア責任者は、人工知能に関して、米国は今後15年...

なぜビッグデータは十分にスマートではないのでしょうか?機械が強力な人工知能へと進化する方法

なぜビッグデータは十分にスマートではないのでしょうか?確率の言語よりも強力な思考ツールは何でしょうか...

...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...