写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

手を自由にして口で入力する時代が本当に到来しました。

『原神』の宣伝原稿を書きたいとき、ネットでいろいろ資料を集めたりする必要はありません。モデルに「原神に関する記事を書くのを手伝って」と指示するだけです。

ゲームの背景、発売時期、影響など重要なポイントが記されています。次に、LLM で興味深く鮮やかなイラストを自動的に挿入することができます。

あっという間に、カスタマイズされた傑作が完成します。

では、どのようなモデルにそのような魔法の力があるのでしょうか?

InternLM-XComposer(以下「Pu Yu Ling Bi」と略します)です。これは上海人工知能研究所(上海AI実験室)が発表した初の大規模なテキストと画像の混合作成モデルです。

強力なマルチモーダルパフォーマンスにより、ワンクリックでテキストと画像が混在した記事を作成できるようになり、大規模モデルの適用の可能性が広がります。

現在、Pu Yu Ling Bi は、インテリジェント作成および対話 (InternLM-XComposer-7B) およびマルチタスク事前トレーニング (InternLM-XComposer-VL-7B) バージョンをオープンソース化し、無料で商用利用できるように提供しています。

オープンソースリンク: https://github.com/InternLM/InternLM-XComposer

技術レポート: https://arxiv.org/abs/2309.15112

上海AI実験室は今年7月以来、Shusheng·Puyu大規模言語モデルの7B(InterLM-7B)バージョンと20B(InternLM-20B)バージョンを相次いでオープンソース化し、業界に完全な大規模モデルの研究開発と応用基盤、およびフルチェーンツールシステムを提供しました。

Shusheng Puyu Large Language Model (InternLM) をベースにした Puyu Lingbi は、ビジュアルおよび言語モーダル入力を受け入れます。画像とテキストの対話で優れたパフォーマンスを発揮するだけでなく、ワンクリックで画像とテキストの両方を含む記事を「生成」する機能も備えています。

正確な画像とテキストの理解、ワンクリックで画像とテキストを認識

Pu Yulingbi は、中国語と英語のテキストと画像の対話を流暢に行うことができ、画像の内容を正確に理解することができます。 Shusheng Pu Yu の高品質な多言語事前トレーニングの利点により、Pu Yu Lingbi は中国文化に関する深い知識の蓄積を示しています。

例えば、関連する絵画を Pu Yulingbi に入力すると、絵画のテーマが「赤壁の戦い」の暗示であることをすばやく識別してフィードバックできます。また、成功または失敗に影響を与える主要な要因を正確に紹介できるため、画像の内容理解と知識の蓄積における優れたパフォーマンスが反映されています。

プー・ユリンビは中国の文化的暗示を特定する

Pu Yulingbi は、マルチモーダルテキストと画像ダイアログの「基本スキル」に加えて、画像とテキストの両方を含む記事を作成する新しい機能を解き放ちました。

大規模言語モデル (LLM) にはテキストを書く機能がありますが、高品質の記事では、より鮮明にするために正確で興味深いイラストが必要になることがよくあります。

Pu Yu Lingbi チームは、Shusheng Pu Yu の強力な言語機能をマルチモーダルに拡張し、マルチモーダル記事の作成を可能にしました。ユーザーはトピックを指定するだけで、ワンクリックで画像とテキストを含む記事を生成し、新しいビジュアルとテキストの作成パラダイムを体験できます。

たとえば、Pu Yulingbi に旅行ガイドの作成を依頼すると、モデルは歴史的変遷、主要な観光名所、文化遺産を網羅した長い記事を素早く生成し、適切な場所にテキスト情報に対応する写真を自動的に挿入することができます。

Pu Yu Ling Bi は、画像を自動的にマッチングする機能に加えて、ユーザーの実際のニーズに応じてグラフィック コンテンツをカスタマイズするための画像推奨機能と置換機能も提供します。

プー・ユリンビが中国の旅行ガイドを作成

現在、Pu Yu Ling Bi は、科学普及論文、マーケティング広告、ニュースリリース、映画やテレビのレビュー、ライフガイド、その他の種類の記事のテキストと画像の生成をすでにサポートしており、より多様なタスク要件に適応するために、徐々にさらに多くの機能を開放していきます。

Pu Yulingbiが英語の映画レビューを作成

グラフィック記事を作成する3つのステップ

Pu Yulingbi 氏は、グラフィック記事を作成するための「3 段階」アルゴリズム プロセスを設計しました。

Pu Yulingbi のグラフィックとテキスト記事の作成プロセス

ユーザーの指示を理解し、トピックの要件を満たす長い記事を作成します。Pu Yu Ling Bi は強力なライティング機能を備えており、ユーザーが入力したトピックに基づいて素晴らしい記事を作成できます。

記事をインテリジェントに分析し、モデルが自動的にイラストの理想的な位置を計画し、必要な画像の内容要件を生成します。Pu Yu Ling Bi は記事の内容と段落のレイアウトを自動的に分析し、イラスト画像が必要な位置を計画します。各モデルについて、イラストが必要な場所を決定し、画像コンテンツ要件の説明を生成します。

マルチレベル インテリジェント スクリーニングでは、大規模なマルチモーダル モデルの画像理解機能を使用して、ギャラリーから最も完璧な画像をロックします。画像コンテンツを生成するニーズに基づいて、粗いスクリーニングから細かい選択までの戦略を使用して、Pu Yu Ling Bi は最初にテキスト画像検索を使用して、大規模なギャラリーから候補画像のグループを選択します。次に、マルチモーダル大規模モデルの強力な画像理解機能を使用して、候補画像を入力コンテンツとして使用し、モデルが記事のコンテキストと全体的な画像スタイルに最も一致する画像を自動的に選択し、記事の自動イラスト化を完成させます。

能力評価: 包括的な先進オープンソースマルチモーダル大規模モデル

Pu Yulingbi の優れたグラフィックおよびテキスト作成効果は、マルチタスク事前トレーニング済みモデル (InternLM-XComposer-VL-7B) の強力なマルチモーダル理解能力によるものです。

研究者らは、以下の 5 つの主流のマルチモーダル大規模モデル評価を使用して、InternLM-XComposer-VL-7B の機能の詳細なテストを実施しました。

- MME ベンチマーク:モデルの知覚および認識機能に重点を置いた、14 のサブタスクを含むマルチモーダル モデルの包括的な評価。

- MMBench: 20 の能力次元を含み、ChatGPT ループ評価戦略を使用するマルチモーダル評価。

- MMBench-CN:質問と回答を含む MMBench レビューの簡体字中国語版。

- Seed-Bench:手動で注釈が付けられた 19,000 のマルチモーダル多肢選択式質問を含むマルチモーダル評価を提供します。

- CCBench:中国文化理解のための中国語マルチモーダルベンチマーク。

評価結果によると、上記の 5 つの中国語と英語のマルチモーダル評価において、Pu Yu Ling Pen は優れたパフォーマンスを示しました。

Puyu Lingbi と他のオープンソース モデルのパフォーマンス比較

MME ベンチマークはモデルの知覚と認識機能に重点を置いており、Puyu Lingbi は全体的なパフォーマンスで優れています。

MMBenchには20個の能力項目が含まれており、Pu Yulingbiが最高得点を達成しました。

MMBench-CN は、モデルの中国語マルチモーダル理解機能に重点を置いた MMBench 評価の中国語版です。Pu Yu Ling Bi も最高の結果を達成し、その強力な中国語能力を実証しました。

SEED-Bench は、12 の評価次元をカバーする、手動注釈付きの 19,000 のマルチモーダル多肢選択式質問を提供します。Pu Yu Lingbi は、画像コンテンツの理解において優れた精度を備えています。

中国文化を理解するために設計されたマルチモーダル評価であるCCBenchにおいて、Pu Yuling Penのテストスコアは大幅にリードしており、中国文化に関する深い知識の蓄積を鮮明に示しています。

Pu Yu Ling Bi は現在オープンソースであり、GitHub、Hugging Face、ModelScope で入手できます。開発者はぜひダウンロードして試してみてください。

<<:  AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

>>:  「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

ブログ    
ブログ    
ブログ    

推薦する

自動運転は安全試験に合格するのが難しい。自動車メーカー、サプライヤー、規制当局は協力を強化すべき

[[276381]]現在、レベル3自動運転の量産化を円滑に推進するためには、コンピューティング能力、...

革新的なマイクロチップ設計によりコンピューティングがエッジにまで広がり、AIをリアルタイムで使用できるようになります。

人工知能によるコンピュータネットワークへの需要の爆発的な増加に対処するため、プリンストン大学の研究者...

AI人材の競争は軍拡競争となっている。AIの創造性競争に賭けるAI大手の中で、勝利のポイントを獲得するのはどれだろうか?

世界中の人工知能の人材が徐々に量産モードに入りつつあります。今年6月、百度と浙江大学は、潜在的な人工...

...

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなど...

AIはあなたの建物をスマートで健康的な建物にします

すぐにスマートで健康的な建物で仕事に戻り、スマートフォンのアプリを使ってハンズフリーでドアを開けるこ...

ハッカーがGSMアルゴリズムを破り、携帯電話ユーザーが盗聴の危険にさらされる

以下の記事では、主にハッカーがGSMアルゴリズムをクラックし、携帯電話ユーザーが盗聴の危険にさらされ...

2024 年のビッグデータ業界予測 (パート 3)

ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...

...

MobileSAM: モバイルデバイスに高いパフォーマンスをもたらす軽量の画像セグメンテーションモデル

1. はじめにモバイルデバイスの普及とコンピューティング能力の向上により、画像セグメンテーション技術...

能力が高くても給料が高くならない?これらの考えはあなたに合うでしょう

2019年ももうすぐ終わり。何もなかったこの一年を振り返って、最も給与が高い職種はどれでしょうか?ア...

新しい小売業界における人工知能の応用

インターネットの急速な発展に伴い、伝統的なオフライン小売チャネルは弱体化の兆候を見せ始めており、中国...

海洋工学における生成AI:独自のデータセットが不十分なため、実用化が制限されている

現代のコンピューティングは造船や海洋工学における設計および建設プロセスを大幅に改善していますが、限ら...

スマートメーター: スマートなエネルギー管理への道

新型コロナウイルス感染症のパンデミックにより、配電事業者はメーターの読み取りとその後の請求という基本...

大きなモデルが常に「事実」を間違えた場合はどうすればよいでしょうか? 300以上の論文のレビューはこちら

ビッグモデルは事実の知識を習得する上で優れた能力と可能性を示していますが、ドメイン知識の欠如、リアル...