テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

大企業がこのビジネスに参入し始めています!

ByteDance と Alibaba のツールが人気を博し、今度は Tencent の新しい写真生成アプリ PhotoMaker が画面を独占しています。シーンを見てください...

1 枚以上の写真をアップロードするだけで、追加の LoRA トレーニングなしですぐにカスタマイズできます。誰でも、どんなスタイルでも、高忠実度タイプ。

こうして数秒のうちに、ルカンはアイアンマンに変身したのです。しかしその後、ルカン氏は再投稿し、ルネッサンスの絵画スタイルが自分のお気に入りだと述べた。

ヤン・ミーの様々なスタイルの写真が公開された。

さらに、興味深い機能が多数あり、アプリケーションのデモが無料で体験できるようになりました。

事前に体験してみましょう。

PhotoMaker スクリーンスイープ

要約すると、PhotoMaker には 3 つの主な機能があります。

最初のものは、説明に基づいて複数のスタイルで個人的な写真を生成できます

たとえば、このようなブラックウィドウを見たことがありますか?

2次元で使える写真も生成できます。

2つ目は、異なる文字の特性を組み合わせて新しい文字形式を生成することです。

想像力を働かせて、ウルトラマンとスティーブ・ジョブズの間に生まれた子供はどんな姿になるか考えてみましょう。 ? ?

次元の組み合わせさえも破壊できる!

さらに、年齢、性別、写真の年を変更するなど、いくつかの細かい機能があります。

マスク氏が子供の頃に見たことがありますか?

ルカンが中年女性になると…

現在、研究チームは公式オリジナルバージョンと様式化されたバージョンの 2 つの体験バージョンを提供しています。様式化されたバージョンでは、より良い結果を得るために、基本モデルを変更し、LoRA モジュールを追加するだけで済みます。

ただし、これら 2 つのバージョンの消費には違いはなく、主に 3 つのステップに分かれています。

まず、カスタマイズしたい写真をアップロードします。 1つでも、複数でも大丈夫です。

ここで注目すべきは、顔検出は行わないと強調しているが、アップロードされた写真の顔はすでに写真の大部分を占めているということだ。

次に、テキスト プロンプトを入力し、カスタマイズするカテゴリ ワードの後に​​トリガー ワード(img)を必ず追加します。

たとえば、男性の画像、女性の写真、女の子の画像などです。

次に、お気に入りのスタイルとテンプレートを選択して生成します。

しかし、実際のテストでは、おそらく多くの人が使用しているために、効果が現れるのが遅いことがわかりました。

これを実現するにはどうすればよいでしょうか?

つまり、PhotoMaker は、スタックされた ID 埋め込みというシンプルだが効果的な表現方法を使用します。

複数の識別 (ID) 画像の情報を統一されたデータ構造に統合できるため、複数の異なる ID 機能を統合しながら、単一の ID の情報をより適切に保存できます。

具体的には、まず、テキスト エンコーダと画像エンコーダからそれぞれテキスト埋め込みと画像埋め込みを取得します。次に、対応するカテゴリ埋め込み(性別など)を各画像埋め込みと結合して、融合埋め込みを抽出します。次に、すべての融合された埋め込みが長さの次元に沿って連結され、積み重ねられた ID 埋め込みが形成されます。最後に、それを拡散モデルに入力して画像を生成します。

トレーニング プロセスでは ID 別に分類されたデータセットを使用する必要があるため、既存のデータセットには注釈付きの ID 情報が含まれていないか、顔の領域のみに焦点を当てているなど、シーンの豊富さが限られています。

この目的のために、研究者らは、異なる ID に従って分類できる ID 指向のテキスト画像データセット構築パイプラインも特別に構築しました。各 ID には複数の画像があり、それぞれ異なる表現、属性、シーンなどが含まれます。

なお、トレーニング時には背景マスク付きの同じ ID 画像が使用されますが、推論プロセス時には背景マスクなしの別の ID 画像を直接入力して新しい ID を作成できます。

実験結果によると、PhotoMaker は他の方法と比較して、高品質で多様な生成機能、編集機能、忠実度を備えていることがわかりました。

さらに、この方法では、従来は実現が困難だった、より興味深い機能も実現できます。たとえば、年齢や性別の変更、古い写真や芸術作品の人物を現実に復元すること、アイデンティティの混合などです。

では、興味のある友達は下のリンクをクリックしてプレイしてください〜
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
論文リンク:
https://arxiv.org/abs/2312.04461
プロジェクトリンク:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

<<:  AI不正対策!ディープフェイク音声・動画検出技術がCESでデビュー、精度は90%以上

>>:  マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

推薦する

江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンス ライブプレビュー

[[374688]] 「半オーク」「半魚」… SF映画、漫画、おとぎ話では、それは驚くことではありま...

自動運転車に「道路を認識」させる方法

人間が歩くのと同じように、自動運転車も移動プロセスを完了するためには、交通環境について自主的に考え、...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

AIは雇用を奪うのか、それとも雇用を生み出すのか?

人工知能は、職場環境で参照される場合、複雑な感情と視点をもたらします。同僚、友人、または見知らぬ人に...

HarmonyOS メタサービス開発実践: デスクトップカード辞書

1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...

携帯電話の AI 技術を使って撮影した写真は、本当に一眼レフカメラで撮影した写真に匹敵するのでしょうか?

最新世代のスマートフォンに搭載されつつある 3D センサーは、機械学習によって解き放たれた写真撮影技...

...

AIと自動化により企業のクラウド移行が改善

COVID-19 パンデミックの影響で、2020 年末までに推定 60% の企業がワークロードをクラ...

...

人工知能技術が英語学習にどのように役立つかについての簡単な議論

人工知能技術は私たちの日常の仕事、勉強、生活に溶け込み、静かに社会生活を変えています。人工知能技術は...

Twitterはボットアカウントのラベルをテスト中

Twitterは木曜日、自動/ボットアカウントラベルを導入すると発表した。 Twitter社は、ユー...

それでおしまい? Gptsのプロンプト単語をランダムにクロールします

11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...

...

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

6月14日、マイクロソフトの研究者らは、主に生物医学研究に使用され、CTやX線画像に基づいて患者の病...

マーケターが人工知能を採用する時が来た

[[275753]] [51CTO.com クイック翻訳] あらゆる業界の先進的な企業は、人工知能を...