テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

大企業がこのビジネスに参入し始めています!

ByteDance と Alibaba のツールが人気を博し、今度は Tencent の新しい写真生成アプリ PhotoMaker が画面を独占しています。シーンを見てください...

1 枚以上の写真をアップロードするだけで、追加の LoRA トレーニングなしですぐにカスタマイズできます。誰でも、どんなスタイルでも、高忠実度タイプ。

こうして数秒のうちに、ルカンはアイアンマンに変身したのです。しかしその後、ルカン氏は再投稿し、ルネッサンスの絵画スタイルが自分のお気に入りだと述べた。

ヤン・ミーの様々なスタイルの写真が公開された。

さらに、興味深い機能が多数あり、アプリケーションのデモが無料で体験できるようになりました。

事前に体験してみましょう。

PhotoMaker スクリーンスイープ

要約すると、PhotoMaker には 3 つの主な機能があります。

最初のものは、説明に基づいて複数のスタイルで個人的な写真を生成できます

たとえば、このようなブラックウィドウを見たことがありますか?

2次元で使える写真も生成できます。

2つ目は、異なる文字の特性を組み合わせて新しい文字形式を生成することです。

想像力を働かせて、ウルトラマンとスティーブ・ジョブズの間に生まれた子供はどんな姿になるか考えてみましょう。 ? ?

次元の組み合わせさえも破壊できる!

さらに、年齢、性別、写真の年を変更するなど、いくつかの細かい機能があります。

マスク氏が子供の頃に見たことがありますか?

ルカンが中年女性になると…

現在、研究チームは公式オリジナルバージョンと様式化されたバージョンの 2 つの体験バージョンを提供しています。様式化されたバージョンでは、より良い結果を得るために、基本モデルを変更し、LoRA モジュールを追加するだけで済みます。

ただし、これら 2 つのバージョンの消費には違いはなく、主に 3 つのステップに分かれています。

まず、カスタマイズしたい写真をアップロードします。 1つでも、複数でも大丈夫です。

ここで注目すべきは、顔検出は行わないと強調しているが、アップロードされた写真の顔はすでに写真の大部分を占めているということだ。

次に、テキスト プロンプトを入力し、カスタマイズするカテゴリ ワードの後に​​トリガー ワード(img)を必ず追加します。

たとえば、男性の画像、女性の写真、女の子の画像などです。

次に、お気に入りのスタイルとテンプレートを選択して生成します。

しかし、実際のテストでは、おそらく多くの人が使用しているために、効果が現れるのが遅いことがわかりました。

これを実現するにはどうすればよいでしょうか?

つまり、PhotoMaker は、スタックされた ID 埋め込みというシンプルだが効果的な表現方法を使用します。

複数の識別 (ID) 画像の情報を統一されたデータ構造に統合できるため、複数の異なる ID 機能を統合しながら、単一の ID の情報をより適切に保存できます。

具体的には、まず、テキスト エンコーダと画像エンコーダからそれぞれテキスト埋め込みと画像埋め込みを取得します。次に、対応するカテゴリ埋め込み(性別など)を各画像埋め込みと結合して、融合埋め込みを抽出します。次に、すべての融合された埋め込みが長さの次元に沿って連結され、積み重ねられた ID 埋め込みが形成されます。最後に、それを拡散モデルに入力して画像を生成します。

トレーニング プロセスでは ID 別に分類されたデータセットを使用する必要があるため、既存のデータセットには注釈付きの ID 情報が含まれていないか、顔の領域のみに焦点を当てているなど、シーンの豊富さが限られています。

この目的のために、研究者らは、異なる ID に従って分類できる ID 指向のテキスト画像データセット構築パイプラインも特別に構築しました。各 ID には複数の画像があり、それぞれ異なる表現、属性、シーンなどが含まれます。

なお、トレーニング時には背景マスク付きの同じ ID 画像が使用されますが、推論プロセス時には背景マスクなしの別の ID 画像を直接入力して新しい ID を作成できます。

実験結果によると、PhotoMaker は他の方法と比較して、高品質で多様な生成機能、編集機能、忠実度を備えていることがわかりました。

さらに、この方法では、従来は実現が困難だった、より興味深い機能も実現できます。たとえば、年齢や性別の変更、古い写真や芸術作品の人物を現実に復元すること、アイデンティティの混合などです。

では、興味のある友達は下のリンクをクリックしてプレイしてください〜
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
論文リンク:
https://arxiv.org/abs/2312.04461
プロジェクトリンク:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

<<:  AI不正対策!ディープフェイク音声・動画検出技術がCESでデビュー、精度は90%以上

>>:  マスク氏のロボットショーは何百万人ものネットユーザーを魅了した!

ブログ    
ブログ    
ブログ    

推薦する

...

文字列マッチングのためのボイヤー・ムーアアルゴリズム

前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...

AI時代になっても、あなたのキャリアは存続できるでしょうか?

人工知能(AI)技術はどこまで発展したのでしょうか? [[278665]]将来、AIが社会に本格的に...

Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方

[51CTO.com クイック翻訳] Zstandard (Zstd とも呼ばれる) は、Faceb...

Java プログラミング スキル - データ構造とアルゴリズム「フィボナッチ検索」

[[398011]]基本的な紹介フィボナッチとは、線分を 2 つの部分に分割し、一方の長さと全体の...

マスク氏はAIに無料でデータを取得させない:Twitterは閉鎖され、ログインしないと誰も見ることができない

現在、Twitter アカウントにログインしないと、Twitter コンテンツの Web バージョン...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[387017]] 01 まさに必要: ビッグデータ天体物理学の時代が到来観測技術の発展により、...

...

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい

テクノロジー業界は歴史的に平均給与が最も高い業界の一つであり、リストのトップにランクされることも少な...

IBMは顔認識技術の開発を中止し、議会に書簡を送った。

IBMは、顔認識技術の影響に対する人々の懸念が高まる中、今後は顔認識関連の技術や機能を開発しないこ...

駐車技術の進化: 人工知能が駐車場の未来をどう形作るか

近年、インドは深刻な駐車スペース不足という差し迫った問題に直面している。自動車の数が日々増加している...

...

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

機械学習エンジニアチームの責任者であり、Looker の最高製品責任者でもある彼は、10 年を超える...

高性能な MongoDB データ移行ツールの構築: Java 開発の実践

ビッグデータ時代の到来により、データ移行は多くの企業や組織が直面しなければならない課題の 1 つにな...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...