写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

手を自由にして口で入力する時代が本当に到来しました。

『原神』の宣伝原稿を書きたいとき、ネットでいろいろ資料を集めたりする必要はありません。モデルに「原神に関する記事を書くのを手伝って」と指示するだけです。

ゲームの背景、発売時期、影響など重要なポイントが記されています。次に、LLM で興味深く鮮やかなイラストを自動的に挿入することができます。

あっという間に、カスタマイズされた傑作が完成します。

では、どのようなモデルにそのような魔法の力があるのでしょうか?

InternLM-XComposer(以下「Pu Yu Ling Bi」と略します)です。これは上海人工知能研究所(上海AI実験室)が発表した初の大規模なテキストと画像の混合作成モデルです。

強力なマルチモーダルパフォーマンスにより、ワンクリックでテキストと画像が混在した記事を作成できるようになり、大規模モデルの適用の可能性が広がります。

現在、Pu Yu Ling Bi は、インテリジェント作成および対話 (InternLM-XComposer-7B) およびマルチタスク事前トレーニング (InternLM-XComposer-VL-7B) バージョンをオープンソース化し、無料で商用利用できるように提供しています。

オープンソースリンク: https://github.com/InternLM/InternLM-XComposer

技術レポート: https://arxiv.org/abs/2309.15112

上海AI実験室は今年7月以来、Shusheng·Puyu大規模言語モデルの7B(InterLM-7B)バージョンと20B(InternLM-20B)バージョンを相次いでオープンソース化し、業界に完全な大規模モデルの研究開発と応用基盤、およびフルチェーンツールシステムを提供しました。

Shusheng Puyu Large Language Model (InternLM) をベースにした Puyu Lingbi は、ビジュアルおよび言語モーダル入力を受け入れます。画像とテキストの対話で優れたパフォーマンスを発揮するだけでなく、ワンクリックで画像とテキストの両方を含む記事を「生成」する機能も備えています。

正確な画像とテキストの理解、ワンクリックで画像とテキストを認識

Pu Yulingbi は、中国語と英語のテキストと画像の対話を流暢に行うことができ、画像の内容を正確に理解することができます。 Shusheng Pu Yu の高品質な多言語事前トレーニングの利点により、Pu Yu Lingbi は中国文化に関する深い知識の蓄積を示しています。

例えば、関連する絵画を Pu Yulingbi に入力すると、絵画のテーマが「赤壁の戦い」の暗示であることをすばやく識別してフィードバックできます。また、成功または失敗に影響を与える主要な要因を正確に紹介できるため、画像の内容理解と知識の蓄積における優れたパフォーマンスが反映されています。

プー・ユリンビは中国の文化的暗示を特定する

Pu Yulingbi は、マルチモーダルテキストと画像ダイアログの「基本スキル」に加えて、画像とテキストの両方を含む記事を作成する新しい機能を解き放ちました。

大規模言語モデル (LLM) にはテキストを書く機能がありますが、高品質の記事では、より鮮明にするために正確で興味深いイラストが必要になることがよくあります。

Pu Yu Lingbi チームは、Shusheng Pu Yu の強力な言語機能をマルチモーダルに拡張し、マルチモーダル記事の作成を可能にしました。ユーザーはトピックを指定するだけで、ワンクリックで画像とテキストを含む記事を生成し、新しいビジュアルとテキストの作成パラダイムを体験できます。

たとえば、Pu Yulingbi に旅行ガイドの作成を依頼すると、モデルは歴史的変遷、主要な観光名所、文化遺産を網羅した長い記事を素早く生成し、適切な場所にテキスト情報に対応する写真を自動的に挿入することができます。

Pu Yu Ling Bi は、画像を自動的にマッチングする機能に加えて、ユーザーの実際のニーズに応じてグラフィック コンテンツをカスタマイズするための画像推奨機能と置換機能も提供します。

プー・ユリンビが中国の旅行ガイドを作成

現在、Pu Yu Ling Bi は、科学普及論文、マーケティング広告、ニュースリリース、映画やテレビのレビュー、ライフガイド、その他の種類の記事のテキストと画像の生成をすでにサポートしており、より多様なタスク要件に適応するために、徐々にさらに多くの機能を開放していきます。

Pu Yulingbiが英語の映画レビューを作成

グラフィック記事を作成する3つのステップ

Pu Yulingbi 氏は、グラフィック記事を作成するための「3 段階」アルゴリズム プロセスを設計しました。

Pu Yulingbi のグラフィックとテキスト記事の作成プロセス

ユーザーの指示を理解し、トピックの要件を満たす長い記事を作成します。Pu Yu Ling Bi は強力なライティング機能を備えており、ユーザーが入力したトピックに基づいて素晴らしい記事を作成できます。

記事をインテリジェントに分析し、モデルが自動的にイラストの理想的な位置を計画し、必要な画像の内容要件を生成します。Pu Yu Ling Bi は記事の内容と段落のレイアウトを自動的に分析し、イラスト画像が必要な位置を計画します。各モデルについて、イラストが必要な場所を決定し、画像コンテンツ要件の説明を生成します。

マルチレベル インテリジェント スクリーニングでは、大規模なマルチモーダル モデルの画像理解機能を使用して、ギャラリーから最も完璧な画像をロックします。画像コンテンツを生成するニーズに基づいて、粗いスクリーニングから細かい選択までの戦略を使用して、Pu Yu Ling Bi は最初にテキスト画像検索を使用して、大規模なギャラリーから候補画像のグループを選択します。次に、マルチモーダル大規模モデルの強力な画像理解機能を使用して、候補画像を入力コンテンツとして使用し、モデルが記事のコンテキストと全体的な画像スタイルに最も一致する画像を自動的に選択し、記事の自動イラスト化を完成させます。

能力評価: 包括的な先進オープンソースマルチモーダル大規模モデル

Pu Yulingbi の優れたグラフィックおよびテキスト作成効果は、マルチタスク事前トレーニング済みモデル (InternLM-XComposer-VL-7B) の強力なマルチモーダル理解能力によるものです。

研究者らは、以下の 5 つの主流のマルチモーダル大規模モデル評価を使用して、InternLM-XComposer-VL-7B の機能の詳細なテストを実施しました。

- MME ベンチマーク:モデルの知覚および認識機能に重点を置いた、14 のサブタスクを含むマルチモーダル モデルの包括的な評価。

- MMBench: 20 の能力次元を含み、ChatGPT ループ評価戦略を使用するマルチモーダル評価。

- MMBench-CN:質問と回答を含む MMBench レビューの簡体字中国語版。

- Seed-Bench:手動で注釈が付けられた 19,000 のマルチモーダル多肢選択式質問を含むマルチモーダル評価を提供します。

- CCBench:中国文化理解のための中国語マルチモーダルベンチマーク。

評価結果によると、上記の 5 つの中国語と英語のマルチモーダル評価において、Pu Yu Ling Pen は優れたパフォーマンスを示しました。

Puyu Lingbi と他のオープンソース モデルのパフォーマンス比較

MME ベンチマークはモデルの知覚と認識機能に重点を置いており、Puyu Lingbi は全体的なパフォーマンスで優れています。

MMBenchには20個の能力項目が含まれており、Pu Yulingbiが最高得点を達成しました。

MMBench-CN は、モデルの中国語マルチモーダル理解機能に重点を置いた MMBench 評価の中国語版です。Pu Yu Ling Bi も最高の結果を達成し、その強力な中国語能力を実証しました。

SEED-Bench は、12 の評価次元をカバーする、手動注釈付きの 19,000 のマルチモーダル多肢選択式質問を提供します。Pu Yu Lingbi は、画像コンテンツの理解において優れた精度を備えています。

中国文化を理解するために設計されたマルチモーダル評価であるCCBenchにおいて、Pu Yuling Penのテストスコアは大幅にリードしており、中国文化に関する深い知識の蓄積を鮮明に示しています。

Pu Yu Ling Bi は現在オープンソースであり、GitHub、Hugging Face、ModelScope で入手できます。開発者はぜひダウンロードして試してみてください。

<<:  AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

>>:  「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

ブログ    
ブログ    

推薦する

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。最近、MIT の研...

...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

人工知能と機械学習の違いを本当に理解していますか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能は歯科医療の分野におけるブルーオーシャンである

過去 20 年間で、世界はテクノロジーにおいて驚異的な進歩を遂げ、人間の生活のさまざまな側面に影響を...

2020年を振り返ると、我が国のドローンは4つの新たな変化を遂げた。

2020年は紆余曲折の多い年であり、ドローン開発にとっては革新と変化の年です。今年、我が国のドロー...

百度がスマートシティ向け「ACE計画」を発表、ロビン・リーはAI思考でインターネット思考に打ち勝ちたい

11月1日、北京で百度世界博覧会2018が開幕した。百度の創業者で会長兼CEOの李克強(ロビン・リー...

日常生活におけるAIの応用

機械学習やその他の技術をバックグラウンドで使用することで、AI は私たちの日常生活に多くの素晴らしい...

...

科学者たちは、人間の肌の感触を模倣し、さらには触覚の方向を感知して予測できる電子毛髪を備えたロボットを開発している。

ビッグデータダイジェスト制作著者: カレブ皆さんはたくさんのロボットを見たことがあると思いますが、こ...

BBAug: PyTorch 用のオブジェクト検出境界ボックスデータ拡張パッケージ

多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...

...

...

機械学習モデルを構築するときに避けるべき 6 つの間違い

近年、機械学習は学術研究や実用化の分野でますます注目を集めています。しかし、機械学習モデルの構築は簡...