写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

写真とテキストで、3ステップで『原神』原稿がすぐに作れる!最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

手を自由にして口で入力する時代が本当に到来しました。

『原神』の宣伝原稿を書きたいとき、ネットでいろいろ資料を集めたりする必要はありません。モデルに「原神に関する記事を書くのを手伝って」と指示するだけです。

ゲームの背景、発売時期、影響など重要なポイントが記されています。次に、LLM で興味深く鮮やかなイラストを自動的に挿入することができます。

あっという間に、カスタマイズされた傑作が完成します。

では、どのようなモデルにそのような魔法の力があるのでしょうか?

InternLM-XComposer(以下「Pu Yu Ling Bi」と略します)です。これは上海人工知能研究所(上海AI実験室)が発表した初の大規模なテキストと画像の混合作成モデルです。

強力なマルチモーダルパフォーマンスにより、ワンクリックでテキストと画像が混在した記事を作成できるようになり、大規模モデルの適用の可能性が広がります。

現在、Pu Yu Ling Bi は、インテリジェント作成および対話 (InternLM-XComposer-7B) およびマルチタスク事前トレーニング (InternLM-XComposer-VL-7B) バージョンをオープンソース化し、無料で商用利用できるように提供しています。

オープンソースリンク: https://github.com/InternLM/InternLM-XComposer

技術レポート: https://arxiv.org/abs/2309.15112

上海AI実験室は今年7月以来、Shusheng·Puyu大規模言語モデルの7B(InterLM-7B)バージョンと20B(InternLM-20B)バージョンを相次いでオープンソース化し、業界に完全な大規模モデルの研究開発と応用基盤、およびフルチェーンツールシステムを提供しました。

Shusheng Puyu Large Language Model (InternLM) をベースにした Puyu Lingbi は、ビジュアルおよび言語モーダル入力を受け入れます。画像とテキストの対話で優れたパフォーマンスを発揮するだけでなく、ワンクリックで画像とテキストの両方を含む記事を「生成」する機能も備えています。

正確な画像とテキストの理解、ワンクリックで画像とテキストを認識

Pu Yulingbi は、中国語と英語のテキストと画像の対話を流暢に行うことができ、画像の内容を正確に理解することができます。 Shusheng Pu Yu の高品質な多言語事前トレーニングの利点により、Pu Yu Lingbi は中国文化に関する深い知識の蓄積を示しています。

例えば、関連する絵画を Pu Yulingbi に入力すると、絵画のテーマが「赤壁の戦い」の暗示であることをすばやく識別してフィードバックできます。また、成功または失敗に影響を与える主要な要因を正確に紹介できるため、画像の内容理解と知識の蓄積における優れたパフォーマンスが反映されています。

プー・ユリンビは中国の文化的暗示を特定する

Pu Yulingbi は、マルチモーダルテキストと画像ダイアログの「基本スキル」に加えて、画像とテキストの両方を含む記事を作成する新しい機能を解き放ちました。

大規模言語モデル (LLM) にはテキストを書く機能がありますが、高品質の記事では、より鮮明にするために正確で興味深いイラストが必要になることがよくあります。

Pu Yu Lingbi チームは、Shusheng Pu Yu の強力な言語機能をマルチモーダルに拡張し、マルチモーダル記事の作成を可能にしました。ユーザーはトピックを指定するだけで、ワンクリックで画像とテキストを含む記事を生成し、新しいビジュアルとテキストの作成パラダイムを体験できます。

たとえば、Pu Yulingbi に旅行ガイドの作成を依頼すると、モデルは歴史的変遷、主要な観光名所、文化遺産を網羅した長い記事を素早く生成し、適切な場所にテキスト情報に対応する写真を自動的に挿入することができます。

Pu Yu Ling Bi は、画像を自動的にマッチングする機能に加えて、ユーザーの実際のニーズに応じてグラフィック コンテンツをカスタマイズするための画像推奨機能と置換機能も提供します。

プー・ユリンビが中国の旅行ガイドを作成

現在、Pu Yu Ling Bi は、科学普及論文、マーケティング広告、ニュースリリース、映画やテレビのレビュー、ライフガイド、その他の種類の記事のテキストと画像の生成をすでにサポートしており、より多様なタスク要件に適応するために、徐々にさらに多くの機能を開放していきます。

Pu Yulingbiが英語の映画レビューを作成

グラフィック記事を作成する3つのステップ

Pu Yulingbi 氏は、グラフィック記事を作成するための「3 段階」アルゴリズム プロセスを設計しました。

Pu Yulingbi のグラフィックとテキスト記事の作成プロセス

ユーザーの指示を理解し、トピックの要件を満たす長い記事を作成します。Pu Yu Ling Bi は強力なライティング機能を備えており、ユーザーが入力したトピックに基づいて素晴らしい記事を作成できます。

記事をインテリジェントに分析し、モデルが自動的にイラストの理想的な位置を計画し、必要な画像の内容要件を生成します。Pu Yu Ling Bi は記事の内容と段落のレイアウトを自動的に分析し、イラスト画像が必要な位置を計画します。各モデルについて、イラストが必要な場所を決定し、画像コンテンツ要件の説明を生成します。

マルチレベル インテリジェント スクリーニングでは、大規模なマルチモーダル モデルの画像理解機能を使用して、ギャラリーから最も完璧な画像をロックします。画像コンテンツを生成するニーズに基づいて、粗いスクリーニングから細かい選択までの戦略を使用して、Pu Yu Ling Bi は最初にテキスト画像検索を使用して、大規模なギャラリーから候補画像のグループを選択します。次に、マルチモーダル大規模モデルの強力な画像理解機能を使用して、候補画像を入力コンテンツとして使用し、モデルが記事のコンテキストと全体的な画像スタイルに最も一致する画像を自動的に選択し、記事の自動イラスト化を完成させます。

能力評価: 包括的な先進オープンソースマルチモーダル大規模モデル

Pu Yulingbi の優れたグラフィックおよびテキスト作成効果は、マルチタスク事前トレーニング済みモデル (InternLM-XComposer-VL-7B) の強力なマルチモーダル理解能力によるものです。

研究者らは、以下の 5 つの主流のマルチモーダル大規模モデル評価を使用して、InternLM-XComposer-VL-7B の機能の詳細なテストを実施しました。

- MME ベンチマーク:モデルの知覚および認識機能に重点を置いた、14 のサブタスクを含むマルチモーダル モデルの包括的な評価。

- MMBench: 20 の能力次元を含み、ChatGPT ループ評価戦略を使用するマルチモーダル評価。

- MMBench-CN:質問と回答を含む MMBench レビューの簡体字中国語版。

- Seed-Bench:手動で注釈が付けられた 19,000 のマルチモーダル多肢選択式質問を含むマルチモーダル評価を提供します。

- CCBench:中国文化理解のための中国語マルチモーダルベンチマーク。

評価結果によると、上記の 5 つの中国語と英語のマルチモーダル評価において、Pu Yu Ling Pen は優れたパフォーマンスを示しました。

Puyu Lingbi と他のオープンソース モデルのパフォーマンス比較

MME ベンチマークはモデルの知覚と認識機能に重点を置いており、Puyu Lingbi は全体的なパフォーマンスで優れています。

MMBenchには20個の能力項目が含まれており、Pu Yulingbiが最高得点を達成しました。

MMBench-CN は、モデルの中国語マルチモーダル理解機能に重点を置いた MMBench 評価の中国語版です。Pu Yu Ling Bi も最高の結果を達成し、その強力な中国語能力を実証しました。

SEED-Bench は、12 の評価次元をカバーする、手動注釈付きの 19,000 のマルチモーダル多肢選択式質問を提供します。Pu Yu Lingbi は、画像コンテンツの理解において優れた精度を備えています。

中国文化を理解するために設計されたマルチモーダル評価であるCCBenchにおいて、Pu Yuling Penのテストスコアは大幅にリードしており、中国文化に関する深い知識の蓄積を鮮明に示しています。

Pu Yu Ling Bi は現在オープンソースであり、GitHub、Hugging Face、ModelScope で入手できます。開発者はぜひダウンロードして試してみてください。

<<:  AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

>>:  「人工知能のゴッドファーザー」ジェフリー・ヒントン氏は再び警告した。AIが人間に取って代わるかもしれない

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能は防衛システムをどのように変えるのでしょうか?

この記事では、人工知能が防衛システムにどのように革命をもたらし、より安全な未来を実現できるかを探りま...

ブロックチェーン技術における機械学習

近代化は世界を変える可能性のある新しい画期的なものをもたらしました。現実世界の問題は、単純な従来のア...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

騒ぎの裏で、2020年はケータリングロボットにとって楽な年になるだろうか?

最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...

ロボットが高齢者介護のあらゆる問題を解決する

人口の高齢化は世界中の発展途上国や先進国が直面する深刻な問題となっている。 少数の人間が大多数の人間...

DeepMindはAIを使ってチェスの新しいルールを作成する

今回、彼らは元チェス世界チャンピオンのウラジミール・クラムニクとチームを組み、AI技術にこの古代のボ...

LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました

最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい...

ヘルスケアにおける6つの新たなテクノロジートレンド

ヘルスケア業界におけるテクノロジーの浸透は、この分野の専門家のほぼすべての業務に影響を及ぼしています...

研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

I. はじめに1. まず話をしましょう約4〜5年前、私はカーネギーメロン大学(CMU)の博士課程の...

Python で線形回帰機械学習モデルを作成する方法は? 「初心者ガイド」

線形回帰とロジスティック回帰は、現在人気のある 2 つの機械学習モデルです。 [[331887]]こ...

...

LRUアルゴリズムの概念から実装まで、React非同期開発の未来

[[428240]]みなさんこんにちは、カソンです。 React ソース コードは、さまざまなモジュ...

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

純粋に学術的な目的で機械学習モデルを構築することと、製造、金融サービス、小売、エンターテインメント、...