1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

最近、わずか9.9元で個人的な写真を生成できる「Miaoya Camera」など、AI生成の視覚画像アプリケーションが人気を集めています。操作が簡単で技術的な操作を必要としないため、多くのユーザーがMiaoYaカメラで生成した写真をWeChatモーメントに投稿しています。

Miaoya Cameraは使いやすいですが、有料アプリです。現在、FaceChainと呼ばれるオープンソースプロジェクトでは、AIモデルを使用して人物の肖像画を作成できます。このプロジェクトはオンラインになってから1週間経ちますが、すでに2,500個のスターを獲得しています。今日、このプロジェクトはGithubのトレンドリストでも1位にランクされています。

プロジェクトアドレス: https://github.com/modelscope/facechain

ユーザーは、特定のスタイルの個人の肖像画を取得するために、最低 3 枚の写真を提供するだけで済みます。たとえば、ビジネス ID 写真を生成するには、次のようにします。

インストール手順なしで、ModelScope Maker Space でこのアプリケーションを直接体験することもできます。

トライアルアドレス: https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary

プロジェクトの紹介では、著者は AI が生成した個人ポートレートの技術的原理と、生成 AI モデルがどのようにして「写真アーティファクト」になるかを説明しています。説明のこの部分を見てみましょう。

個人の肖像画がどのように生成されるか

根拠

AI が個人のポートレートを生成する能力は、テキストまたは一連のプロンプトを入力し、対応する画像を出力するための、安定拡散モデルのテキスト生成画像機能から生まれます。パーソナル写真生成の効果に影響を与える主な要素は、写真スタイル情報とユーザーキャラクター情報の 2 つです。

この目的のために、プロジェクトの著者は、オフラインでトレーニングされたスタイル LoRA モデルとオンラインでトレーニングされた顔 LoRA モデルを使用して、上記の 2 つの情報の側面を学習しました。 LoRA は、トレーニング可能なパラメータが少ない、微調整されたモデルです。Stable Diffusion では、少数の入力画像でテキスト マップをトレーニングすることで、入力画像の情報を LoRA モデルに注入できます。

そのため、個人ポートレート モデルの機能は、トレーニングと推論の 2 つの段階に分かれています。トレーニング段階では、安定拡散モデルを微調整して顔 LoRA モデルを取得するための画像とテキスト ラベル データを生成し、推論段階では、顔 LoRA モデルとスタイル LoRA モデルに基づいて個人ポートレート画像を生成します。

トレーニングフェーズ

トレーニング フェーズの入力は、ユーザーがアップロードした、明確な顔領域を含む画像であり、出力は顔 LoRA モデルです。

具体的には、プロジェクトの著者らはまず、方向判断に基づく画像回転モデルと、顔検出およびキーポイントモデルに基づく洗練された顔回転方法を使用して、ユーザーがアップロードした画像を処理して、肯定的な顔を含む画像を取得しました。次に、人体解析モデルとポートレート肌美化モデルを使用して、高品質の顔トレーニング画像を取得しました。その後、プロジェクトは、顔属性モデルとテキスト注釈モデルをラベル後処理方法と組み合わせて使用​​し、トレーニング画像の洗練されたラベルを生成しました。最後に、上記の画像とラベルデータを使用して、安定拡散モデルを微調整し、顔LoRAモデルを取得しました。

推論フェーズ

推論フェーズの入力は、トレーニング フェーズ中にユーザーがアップロードした画像と、個人の肖像画を生成するための事前設定された入力プロンプトであり、出力は個人の肖像画の画像です。

推論段階では、まず顔LoRAモデルとスタイルLoRAモデルの重みを安定拡散モデルに統合します。次に、安定拡散モデルのテキスト画像機能を使用して、事前に設定されたプロンプトに基づいて個人のポートレート画像を予備的に生成します。その後、顔融合モデルを使用して、上記の肖像画画像の顔の詳細をさらに改善します。融合に使用するテンプレート顔は、顔品質評価モデルを介してトレーニング画像から選択されます。最後に、顔認識モデルを使用して、生成された肖像画像とテンプレート顔の類似性を計算し、肖像画像をソートして、最終出力結果として上位の個人の肖像画像を出力します。

プロジェクト作者はインストールと使用方法を詳細に紹介し、プロジェクトコードをオープンソース化しました。興味のある読者はぜひ試してみてください。

<<:  GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

>>:  農業革命: 世界市場における作物収穫ロボットの台頭

ブログ    
ブログ    
ブログ    

推薦する

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

人工知能技術はすでに音声や手書きを通じて個人の身元を確認することができます。現在、人工知能アルゴリズ...

ハイリアンと手を携えてデジタル変革の道を議論する

モバイルインターネットの発展に伴い、企業の生産・運営プロセスで生成されるデータは、これまでにない爆発...

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

統計モデルやその他のアルゴリズムに加えて、回帰は機械学習を正常に動作させるための重要な要素です。回帰...

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

いつ表面的に調べ、いつ深く掘り下げるべきか - 機械学習は1ページで説明できるものではありません

機械学習、ディープラーニング、人工知能の台頭は議論の余地のない事実となり、コンピュータサイエンスの分...

自動運転までどれくらい遠いのでしょうか?

[[412592]] 2021年、北京では初めて規制に従って無人配送車両の公道走行が許可された。写...

それは大したことだ! Google によれば、人類は 2029 年に不死を達成するそうです。病気も老化も痛みも完全に消え去ります! ?

この世で最も公平なものは、誕生、老い、病気、そして死だと思います。人生においてどれほど偉大な業績を成...

...

エネルギー効率を向上させるために、脳は予測知覚能力を発達させた。

[[436377]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

ビジネス開発における感情AIの重要性

世界が人工知能技術に依存する未来に向かって進むにつれ、人々はこれまで以上に感情を必要としています。人...

...

スマートカーの「ChatGPTモーメント」はどこまで進んでいるのでしょうか?

今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...