テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

大企業がこのビジネスに参入し始めています!

ByteDance と Alibaba のツールが人気を博し、今度は Tencent の新しい写真生成アプリ PhotoMaker が画面を独占しています。シーンを見てください...

1 枚以上の写真をアップロードするだけで、追加の LoRA トレーニングなしですぐにカスタマイズできます。誰でも、どんなスタイルでも、高忠実度タイプ。

こうして数秒のうちに、ルカンはアイアンマンに変身したのです。しかしその後、ルカン氏は再投稿し、ルネッサンスの絵画スタイルが自分のお気に入りだと述べた。

ヤン・ミーの様々なスタイルの写真が公開された。

さらに、興味深い機能が多数あり、アプリケーションのデモが無料で体験できるようになりました。

事前に体験してみましょう。

PhotoMaker スクリーンスイープ

要約すると、PhotoMaker には 3 つの主な機能があります。

最初のものは、説明に基づいて複数のスタイルで個人的な写真を生成できます

たとえば、このようなブラックウィドウを見たことがありますか?

2次元で使える写真も生成できます。

2つ目は、異なる文字の特性を組み合わせて新しい文字形式を生成することです。

想像力を働かせて、ウルトラマンとスティーブ・ジョブズの間に生まれた子供はどんな姿になるか考えてみましょう。 ? ?

次元の組み合わせさえも破壊できる!

さらに、年齢、性別、写真の年を変更するなど、いくつかの細かい機能があります。

マスク氏が子供の頃に見たことがありますか?

ルカンが中年女性になると…

現在、研究チームは公式オリジナルバージョンと様式化されたバージョンの 2 つの体験バージョンを提供しています。様式化されたバージョンでは、より良い結果を得るために、基本モデルを変更し、LoRA モジュールを追加するだけで済みます。

ただし、これら 2 つのバージョンの消費には違いはなく、主に 3 つのステップに分かれています。

まず、カスタマイズしたい写真をアップロードします。 1つでも、複数でも大丈夫です。

ここで注目すべきは、顔検出は行わないと強調しているが、アップロードされた写真の顔はすでに写真の大部分を占めているということだ。

次に、テキスト プロンプトを入力し、カスタマイズするカテゴリ ワードの後に​​トリガー ワード(img)を必ず追加します。

たとえば、男性の画像、女性の写真、女の子の画像などです。

次に、お気に入りのスタイルとテンプレートを選択して生成します。

しかし、実際のテストでは、おそらく多くの人が使用しているために、効果が現れるのが遅いことがわかりました。

これを実現するにはどうすればよいでしょうか?

つまり、PhotoMaker は、スタックされた ID 埋め込みというシンプルだが効果的な表現方法を使用します。

複数の識別 (ID) 画像の情報を統一されたデータ構造に統合できるため、複数の異なる ID 機能を統合しながら、単一の ID の情報をより適切に保存できます。

具体的には、まず、テキスト エンコーダと画像エンコーダからそれぞれテキスト埋め込みと画像埋め込みを取得します。次に、対応するカテゴリ埋め込み(性別など)を各画像埋め込みと結合して、融合埋め込みを抽出します。次に、すべての融合された埋め込みが長さの次元に沿って連結され、積み重ねられた ID 埋め込みが形成されます。最後に、それを拡散モデルに入力して画像を生成します。

トレーニング プロセスでは ID 別に分類されたデータセットを使用する必要があるため、既存のデータセットには注釈付きの ID 情報が含まれていないか、顔の領域のみに焦点を当てているなど、シーンの豊富さが限られています。

この目的のために、研究者らは、異なる ID に従って分類できる ID 指向のテキスト画像データセット構築パイプラインも特別に構築しました。各 ID には複数の画像があり、それぞれ異なる表現、属性、シーンなどが含まれます。

なお、トレーニング時には背景マスク付きの同じ ID 画像が使用されますが、推論プロセス時には背景マスクなしの別の ID 画像を直接入力して新しい ID を作成できます。

実験結果によると、PhotoMaker は他の方法と比較して、高品質で多様な生成機能、編集機能、忠実度を備えていることがわかりました。

さらに、この方法では、従来は実現が困難だった、より興味深い機能も実現できます。たとえば、年齢や性別の変更、古い写真や芸術作品の人物を現実に復元すること、アイデンティティの混合などです。

では、興味のある友達は下のリンクをクリックしてプレイしてください〜
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
論文リンク:
https://arxiv.org/abs/2312.04461
プロジェクトリンク:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

<<:  AI不正対策!ディープフェイク音声・動画検出技術がCESでデビュー、精度は90%以上

>>:  マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...

マスク氏に敵対的買収の疑い!ツイッター株を受け取ったが取締役会には参加せず、訴訟を起こされている

これはすべて悪意のある計画ですか? ツイッター株を7000万株以上購入した後、マスク氏は取締役会への...

...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

今日のインターネット アプリケーション開発では、可用性の高い分散システムを構築することが、システムの...

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

以下は、テンセント研究所法律研究センター副所長兼主任研究員である蔡雄山氏の講演の記録です。多くの場合...

GNN初心者必読! Google Research が、SOTA グラフ ニューラル ネットワークをゼロから構築する方法を教えます

[[422426]]近年、ニューラル ネットワークは自然言語、画像、音声、その他のデータで大きな進歩...

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

AIは私たちが何を見て、何を考えるかを静かにコントロールしている

私たちの日常生活では、携帯電話のさまざまなアプリにますます依存するようになっています。外食時にレスト...

...

...