写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

手を自由にして口で入力する時代が本当に到来しました。

『原神』の宣伝原稿を書きたいとき、ネットでいろいろ資料を集めたりする必要はありません。モデルに「原神に関する記事を書くのを手伝って」と指示するだけです。

ゲームの背景、発売時期、影響など重要なポイントが記されています。次に、LLM で興味深く鮮やかなイラストを自動的に挿入することができます。

あっという間に、カスタマイズされた傑作が完成します。

では、どのようなモデルにそのような魔法の力があるのでしょうか?

InternLM-XComposer(以下「Pu Yu Ling Bi」と略します)です。これは上海人工知能研究所(上海AI実験室)が発表した初の大規模なテキストと画像の混合作成モデルです。

強力なマルチモーダルパフォーマンスにより、ワンクリックでテキストと画像が混在した記事を作成できるようになり、大規模モデルの適用の可能性が広がります。

現在、Pu Yu Ling Bi は、インテリジェント作成および対話 (InternLM-XComposer-7B) およびマルチタスク事前トレーニング (InternLM-XComposer-VL-7B) バージョンをオープンソース化し、無料で商用利用できるように提供しています。

オープンソースリンク: https://github.com/InternLM/InternLM-XComposer

技術レポート: https://arxiv.org/abs/2309.15112

上海AI実験室は今年7月以来、Shusheng·Puyu大規模言語モデルの7B(InterLM-7B)バージョンと20B(InternLM-20B)バージョンを相次いでオープンソース化し、業界に完全な大規模モデルの研究開発と応用基盤、およびフルチェーンツールシステムを提供しました。

Shusheng Puyu Large Language Model (InternLM) をベースにした Puyu Lingbi は、ビジュアルおよび言語モーダル入力を受け入れます。画像とテキストの対話で優れたパフォーマンスを発揮するだけでなく、ワンクリックで画像とテキストの両方を含む記事を「生成」する機能も備えています。

正確な画像とテキストの理解、ワンクリックで画像とテキストを認識

Pu Yulingbi は、中国語と英語のテキストと画像の対話を流暢に行うことができ、画像の内容を正確に理解することができます。 Shusheng Pu Yu の高品質な多言語事前トレーニングの利点により、Pu Yu Lingbi は中国文化に関する深い知識の蓄積を示しています。

例えば、関連する絵画を Pu Yulingbi に入力すると、絵画のテーマが「赤壁の戦い」の暗示であることをすばやく識別してフィードバックできます。また、成功または失敗に影響を与える主要な要因を正確に紹介できるため、画像の内容理解と知識の蓄積における優れたパフォーマンスが反映されています。

プー・ユリンビは中国の文化的暗示を特定する

Pu Yulingbi は、マルチモーダルテキストと画像ダイアログの「基本スキル」に加えて、画像とテキストの両方を含む記事を作成する新しい機能を解き放ちました。

大規模言語モデル (LLM) にはテキストを書く機能がありますが、高品質の記事では、より鮮明にするために正確で興味深いイラストが必要になることがよくあります。

Pu Yu Lingbi チームは、Shusheng Pu Yu の強力な言語機能をマルチモーダルに拡張し、マルチモーダル記事の作成を可能にしました。ユーザーはトピックを指定するだけで、ワンクリックで画像とテキストを含む記事を生成し、新しいビジュアルとテキストの作成パラダイムを体験できます。

たとえば、Pu Yulingbi に旅行ガイドの作成を依頼すると、モデルは歴史的変遷、主要な観光名所、文化遺産を網羅した長い記事を素早く生成し、適切な場所にテキスト情報に対応する写真を自動的に挿入することができます。

Pu Yu Ling Bi は、画像を自動的にマッチングする機能に加えて、ユーザーの実際のニーズに応じてグラフィック コンテンツをカスタマイズするための画像推奨機能と置換機能も提供します。

プー・ユリンビが中国の旅行ガイドを作成

現在、Pu Yu Ling Bi は、科学普及論文、マーケティング広告、ニュースリリース、映画やテレビのレビュー、ライフガイド、その他の種類の記事のテキストと画像の生成をすでにサポートしており、より多様なタスク要件に適応するために、徐々にさらに多くの機能を開放していきます。

Pu Yulingbiが英語の映画レビューを作成

グラフィック記事を作成する3つのステップ

Pu Yulingbi 氏は、グラフィック記事を作成するための「3 段階」アルゴリズム プロセスを設計しました。

Pu Yulingbi のグラフィックとテキスト記事の作成プロセス

ユーザーの指示を理解し、トピックの要件を満たす長い記事を作成します。Pu Yu Ling Bi は強力なライティング機能を備えており、ユーザーが入力したトピックに基づいて素晴らしい記事を作成できます。

記事をインテリジェントに分析し、モデルが自動的にイラストの理想的な位置を計画し、必要な画像の内容要件を生成します。Pu Yu Ling Bi は記事の内容と段落のレイアウトを自動的に分析し、イラスト画像が必要な位置を計画します。各モデルについて、イラストが必要な場所を決定し、画像コンテンツ要件の説明を生成します。

マルチレベル インテリジェント スクリーニングでは、大規模なマルチモーダル モデルの画像理解機能を使用して、ギャラリーから最も完璧な画像をロックします。画像コンテンツを生成するニーズに基づいて、粗いスクリーニングから細かい選択までの戦略を使用して、Pu Yu Ling Bi は最初にテキスト画像検索を使用して、大規模なギャラリーから候補画像のグループを選択します。次に、マルチモーダル大規模モデルの強力な画像理解機能を使用して、候補画像を入力コンテンツとして使用し、モデルが記事のコンテキストと全体的な画像スタイルに最も一致する画像を自動的に選択し、記事の自動イラスト化を完成させます。

能力評価: 包括的な先進オープンソースマルチモーダル大規模モデル

Pu Yulingbi の優れたグラフィックおよびテキスト作成効果は、マルチタスク事前トレーニング済みモデル (InternLM-XComposer-VL-7B) の強力なマルチモーダル理解能力によるものです。

研究者らは、以下の 5 つの主流のマルチモーダル大規模モデル評価を使用して、InternLM-XComposer-VL-7B の機能の詳細なテストを実施しました。

- MME ベンチマーク:モデルの知覚および認識機能に重点を置いた、14 のサブタスクを含むマルチモーダル モデルの包括的な評価。

- MMBench: 20 の能力次元を含み、ChatGPT ループ評価戦略を使用するマルチモーダル評価。

- MMBench-CN:質問と回答を含む MMBench レビューの簡体字中国語版。

- Seed-Bench:手動で注釈が付けられた 19,000 のマルチモーダル多肢選択式質問を含むマルチモーダル評価を提供します。

- CCBench:中国文化理解のための中国語マルチモーダルベンチマーク。

評価結果によると、上記の 5 つの中国語と英語のマルチモーダル評価において、Pu Yu Ling Pen は優れたパフォーマンスを示しました。

Puyu Lingbi と他のオープンソース モデルのパフォーマンス比較

MME ベンチマークはモデルの知覚と認識機能に重点を置いており、Puyu Lingbi は全体的なパフォーマンスで優れています。

MMBenchには20個の能力項目が含まれており、Pu Yulingbiが最高得点を達成しました。

MMBench-CN は、モデルの中国語マルチモーダル理解機能に重点を置いた MMBench 評価の中国語版です。Pu Yu Ling Bi も最高の結果を達成し、その強力な中国語能力を実証しました。

SEED-Bench は、12 の評価次元をカバーする、手動注釈付きの 19,000 のマルチモーダル多肢選択式質問を提供します。Pu Yu Lingbi は、画像コンテンツの理解において優れた精度を備えています。

中国文化を理解するために設計されたマルチモーダル評価であるCCBenchにおいて、Pu Yuling Penのテストスコアは大幅にリードしており、中国文化に関する深い知識の蓄積を鮮明に示しています。

Pu Yu Ling Bi は現在オープンソースであり、GitHub、Hugging Face、ModelScope で入手できます。開発者はぜひダウンロードして試してみてください。

<<:  AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

>>:  「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

ブログ    
ブログ    
ブログ    

推薦する

AIとデート:機械はどうやって私たちを出会わせてくれるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

アルトマン氏の地位は再び危険にさらされているのか? ! OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた

アルトマン氏の地位は再び危険にさらされているのか?事情に詳しい人物によると、オープンAIの取締役であ...

梅雨から台風シーズンまで、ドローンが再び活躍

最近、静かに梅雨の季節が去り、猛烈な台風の季節が勢いよくやって来ています。 [[336317]] 8...

LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

大規模言語モデルは推論できますか?出現したさまざまな能力の源は何でしょうか?少し前に、LeCun 氏...

人工知能が火星の新しいクレーターの発見に貢献

人工知能ツールによって特定された、火星の最新のクレーター群の高解像度画像。画像出典: Space.c...

ビッグデータと AI を現代の教育とどのように組み合わせることができるでしょうか?

転載は歓迎しますが、署名し、「劉鵬の未来を見つめる」公開アカウントからの転載であることを明記し、この...

AIと自動化はCOVID-19後のビジネス成功の鍵

COVID-19 パンデミックが発生する前は、ビジネスリーダーたちは、ビジネス運営の最適化、収益性の...

LinkedIn: データサイエンスと機械学習は米国で最も急速に成長している職業です。

元記事: データサイエンスと機械学習が米国で最も急速に成長している職業である理由[[223686]]...

大型モデルがドローンを制御できるように、北京航空航天チームは具現化された知能の新しいアーキテクチャを提案した

マルチモーダル時代突入、大型機種でもドローンを操縦可能!視覚モジュールが開始条件を捉えれば、大型モデ...

マーク・アンドリーセン氏、AIが世界を救うと語る

ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...

...

...