今回、ヤン・ルカンが初めて「変わり続ける大物」の仲間入りを果たした。アイアンマンの衣装とかっこいいサングラスをかけて、無表情で見つめたり、古代の衣装を着て紫禁城の前でチェックインしたり… 私も再投稿して「左下のこのルネッサンス絵画が私のお気に入りです」と言いました。 セクシーな女神ブラック ウィドウは紫色の魔法使いのコスチュームを着て遠くを見つめています。サンタの帽子をかぶってあなたと目を合わせることもできます。 宇宙服を着たウルトラマンはかわいいし、髪を赤く染めても違和感ない 上記の研究は南開大学、テンセントなどの機関によるもので、効率的でパーソナライズされたテキストから画像への生成方法であるPhotoMakerを提案しています。関連論文「PhotoMaker: スタック ID 埋め込みによるリアルな人間写真のカスタマイズ」は昨年 12 月に発表され、プロジェクトはオープンソース化されました。 1日も経たないうちに、星の数は650以上に達しました。 プロジェクトアドレス: https://github.com/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427 PhotoMaker では、リアルなポートレートを生成するだけでなく、スケッチ、漫画、アニメーションなどの他のスタイルも生成できます。 異なるキャラクターのアイデンティティを組み合わせて、まったく新しいキャラクターイメージを作成することもできます。ヘップバーンとエルサ王女の組み合わせは、両方の特徴を兼ね備えています。 写真の人物の年齢や性別を変えることも可能。今回生成された女性の服装について、LeCunさんはどんな感想を持っているのだろうか。 画像出典: https://twitter.com/xiaohuggg/status/1746861416743928103 この調査は誰でも参加でき、使い方も非常に簡単です。4 つのステップで構成されています。
上記の生成プロセスで不適切な操作があった場合、PhotoMaker が通知するので、間違いを心配する必要はありません。 体験中、私たちはマスクの写真を入力しました。プロンプトは「宇宙服を着た男性の画像」で、スタイルはコミカルで、数秒待つだけで済みました。効果はかなり良かったです。 トライアルアドレス: https://huggingface.co/spaces/TencentARC/PhotoMaker?cnotallow=98363d6ac1beafe515190e50d2c40427 この研究の背後で使用されているテクノロジーを引き続き見てみましょう。 研究論文アドレス: https://arxiv.org/pdf/2312.04461.pdf PhotoMaker は、効率的なパーソナライズされたテキストから画像への生成方法で、主に任意の数の入力 ID 画像をスタックされた ID 埋め込みにエンコードして ID 情報を保持します。このような埋め込みは、統一された ID 表現として、同じ入力 ID の機能を包括的にカプセル化できるだけでなく、その後の統合のために異なる ID の機能に適応することもできます。これにより、より興味深く便利なアプリケーションへの道が開かれます。 図 1 に示すように、PhotoMaker は一般的な再構成を実行できるだけでなく、入力ポートレートの属性 (アクセサリや表情など) を変更したり、入力 ID とはまったく異なる視点から人物写真を生成したり、入力 ID の性別や年齢を変更したりすることもできます (図 1 を参照)。 PhotoMaker は、ユーザーがカスタムポートレートを生成するためのさまざまな可能性も提供します。トレーニング中にスタックされた ID 埋め込みを構築するために使用される画像は同じ ID からのものですが、推論中に異なる ID からの画像を使用してスタックされた ID 埋め込みを形成し、新しいカスタム ID をマージして作成することができます。マージされた新しい ID は、異なる入力 ID の特性を保持できます。たとえば、PhotoMaker はマスクに似たスカーレットを生成したり、人物とよく知られた IP キャラクターを組み合わせたカスタマイズされた ID を生成したりできます (図 1(c) を参照)。 PhotoMaker のトレーニングを容易にするために、研究者はトレーニング データを組み立てるための ID 指向のデータ構築パイプラインを提案しました。提案されたパイプラインを通じて構築されたデータセットの助けを借りて、PhotoMaker は、テスト時に微調整された基本メソッドよりも優れた ID 保存機能を実証し、大幅な速度の向上、高品質の生成結果、強力な一般化機能、および幅広いアプリケーションを提供します。図2(a)はPhotoMakerの概要を示しています。図2(b)は関連するデータ構築パイプラインを示しています。 図 3 と表 1 に示すように、定性的実験と定量的実験の両方において、PhotoMaker は ID の高忠実度を確保しながら高品質の画像を生成する能力を十分に満たしています。 PhotoMaker は、図 4 (a) に示すように、前世紀や古代の人々を現代に呼び寄せて「写真を撮る」こともできます。 PhotoMaker と比較すると、Dreambooth と SDXL はどちらも、現実には登場したことのない人物のリアルな画像を生成するのが困難です。さらに、DreamBooth はカスタム イメージの品質と解像度に大きく依存しているため、カスタム ビルドに古い写真を使用した場合、DreamBooth で高品質の結果を生成することは困難です。 ユーザーが異なる ID の写真を入力すると、PhotoMaker は異なる ID の機能を統合して新しい ID を形成できます。図 5 からわかるように、DreamBooth と SDXL はどちらも ID の混合を実現できません。対照的に、入力がアニメーション IP であるか実在の人物であるかに関係なく、また性別に関係なく、PhotoMaker は生成された新しい ID にさまざまな ID の特性を適切に保持できます。 さらに、PhotoMaker のスタイル化パフォーマンスも優れています。図 6 に示すように、PhotoMaker は ID の忠実度を維持するだけでなく、プロンプトにスタイル要件を効果的に表示します。 より詳細な技術的内容については、原著論文をお読みください。 |
<<: オープンソースモデルの新記録:Mixtral 8x7B Instructを超えるモデルが登場
>>: マイクロソフト、中小企業向けにCopilot AIアシスタントを導入、個人向けにプレミアムサービスを開始
spaCy は、最先端の研究に基づいて構築され、実際の製品での使用のためにゼロから設計された、Py...
ヒューマノイドロボット「アメカ」が第2世代にバージョンアップしました!最近、モバイル・ワールド・コン...
まず、負荷分散とは何かを紹介します(百科事典より)負荷分散は既存のネットワーク構造に基づいて構築され...
それはとんでもないことだ。何もしてないのに理由もなく10日間警察に拘留されるんですか? ! [[39...
ご存知のとおり、オープンソースの大規模言語モデル (LLM) とその派生モデル (LLaMA や V...
ディープラーニング プロジェクトに適した環境を構築するのは簡単な作業ではありません。処理すべきことは...
この記事では、機械学習における回帰と分類のさまざまな指標について説明します。私たちは常に、優れた機械...
本日、Xiaomi は、弾性探索 (マクロ + ミクロ) に基づく超解像で驚くべき結果を達成した新し...
写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...
普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...
中小企業、大企業を問わず、コールドコールは製品の売上とビジネスを拡大するための最も効果的な戦略の 1...