テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

大企業がこのビジネスに参入し始めています!

ByteDance と Alibaba のツールが人気を博し、今度は Tencent の新しい写真生成アプリ PhotoMaker が画面を独占しています。シーンを見てください...

1 枚以上の写真をアップロードするだけで、追加の LoRA トレーニングなしですぐにカスタマイズできます。誰でも、どんなスタイルでも、高忠実度タイプ。

こうして数秒のうちに、ルカンはアイアンマンに変身したのです。しかしその後、ルカン氏は再投稿し、ルネッサンスの絵画スタイルが自分のお気に入りだと述べた。

ヤン・ミーの様々なスタイルの写真が公開された。

さらに、興味深い機能が多数あり、アプリケーションのデモが無料で体験できるようになりました。

事前に体験してみましょう。

PhotoMaker スクリーンスイープ

要約すると、PhotoMaker には 3 つの主な機能があります。

最初のものは、説明に基づいて複数のスタイルで個人的な写真を生成できます

たとえば、このようなブラックウィドウを見たことがありますか?

2次元で使える写真も生成できます。

2つ目は、異なる文字の特性を組み合わせて新しい文字形式を生成することです。

想像力を働かせて、ウルトラマンとスティーブ・ジョブズの間に生まれた子供はどんな姿になるか考えてみましょう。 ? ?

次元の組み合わせさえも破壊できる!

さらに、年齢、性別、写真の年を変更するなど、いくつかの細かい機能があります。

マスク氏が子供の頃に見たことがありますか?

ルカンが中年女性になると…

現在、研究チームは公式オリジナルバージョンと様式化されたバージョンの 2 つの体験バージョンを提供しています。様式化されたバージョンでは、より良い結果を得るために、基本モデルを変更し、LoRA モジュールを追加するだけで済みます。

ただし、これら 2 つのバージョンの消費には違いはなく、主に 3 つのステップに分かれています。

まず、カスタマイズしたい写真をアップロードします。 1つでも、複数でも大丈夫です。

ここで注目すべきは、顔検出は行わないと強調しているが、アップロードされた写真の顔はすでに写真の大部分を占めているということだ。

次に、テキスト プロンプトを入力し、カスタマイズするカテゴリ ワードの後に​​トリガー ワード(img)を必ず追加します。

たとえば、男性の画像、女性の写真、女の子の画像などです。

次に、お気に入りのスタイルとテンプレートを選択して生成します。

しかし、実際のテストでは、おそらく多くの人が使用しているために、効果が現れるのが遅いことがわかりました。

これを実現するにはどうすればよいでしょうか?

つまり、PhotoMaker は、スタックされた ID 埋め込みというシンプルだが効果的な表現方法を使用します。

複数の識別 (ID) 画像の情報を統一されたデータ構造に統合できるため、複数の異なる ID 機能を統合しながら、単一の ID の情報をより適切に保存できます。

具体的には、まず、テキスト エンコーダと画像エンコーダからそれぞれテキスト埋め込みと画像埋め込みを取得します。次に、対応するカテゴリ埋め込み(性別など)を各画像埋め込みと結合して、融合埋め込みを抽出します。次に、すべての融合された埋め込みが長さの次元に沿って連結され、積み重ねられた ID 埋め込みが形成されます。最後に、それを拡散モデルに入力して画像を生成します。

トレーニング プロセスでは ID 別に分類されたデータセットを使用する必要があるため、既存のデータセットには注釈付きの ID 情報が含まれていないか、顔の領域のみに焦点を当てているなど、シーンの豊富さが限られています。

この目的のために、研究者らは、異なる ID に従って分類できる ID 指向のテキスト画像データセット構築パイプラインも特別に構築しました。各 ID には複数の画像があり、それぞれ異なる表現、属性、シーンなどが含まれます。

なお、トレーニング時には背景マスク付きの同じ ID 画像が使用されますが、推論プロセス時には背景マスクなしの別の ID 画像を直接入力して新しい ID を作成できます。

実験結果によると、PhotoMaker は他の方法と比較して、高品質で多様な生成機能、編集機能、忠実度を備えていることがわかりました。

さらに、この方法では、従来は実現が困難だった、より興味深い機能も実現できます。たとえば、年齢や性別の変更、古い写真や芸術作品の人物を現実に復元すること、アイデンティティの混合などです。

では、興味のある友達は下のリンクをクリックしてプレイしてください〜
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
論文リンク:
https://arxiv.org/abs/2312.04461
プロジェクトリンク:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

<<:  AI不正対策!ディープフェイク音声・動画検出技術がCESでデビュー、精度は90%以上

>>:  マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

ブログ    

推薦する

ソフトウェアが自動車を飲み込んでいる、伝統的な自動車産業は消滅の危機に瀕しているのでしょうか?

[[440100]]半導体チップの継続的な不足が世界の自動車生産の減少につながるとの予測が高まって...

...

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...

...

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

YESOUL高反発腹筋ローラーは、1月7日よりXiaomi Youpinでクラウドファンディングで販...

Google AI 面接の質問(回答と戦略付き)

おそらくすべてのプログラマーは Google への入社を考えたことがあるでしょう。しかし、「試験」に...

20200202 千年に一度の対称性の日、すべての「回文アルゴリズム」をキャッチする時が来ました!

[[313923]]今日は2020年2月2日、「千年に一度の対称の日」として知られています。202...

感情 AI はデジタルヘルスケアの未来となるでしょうか?

進化するヘルスケアとテクノロジーの世界では、「感情 AI」と呼ばれる画期的なイノベーションが変化の兆...

...

Microsoft Copilot Pro が登場: 個人ユーザーも Word で GPT-4 を使用可能、月額 20 ドル

個人ユーザー向けの Microsoft Copilot メンバーシップ バージョンはここにあります。...

視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...

...

ロボットが家庭に入り込み、家事を引き受け始めています。あなたのお気に入りはどれですか?

【網易知能ニュース 3月18日】次回チェルシーでディナーを楽しんだ際、スーパーヨットの執事の慎重な...