1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

最近、わずか9.9元で個人的な写真を生成できる「Miaoya Camera」など、AI生成の視覚画像アプリケーションが人気を集めています。操作が簡単で技術的な操作を必要としないため、多くのユーザーがMiaoYaカメラで生成した写真をWeChatモーメントに投稿しています。

Miaoya Cameraは使いやすいですが、有料アプリです。現在、FaceChainと呼ばれるオープンソースプロジェクトでは、AIモデルを使用して人物の肖像画を作成できます。このプロジェクトはオンラインになってから1週間経ちますが、すでに2,500個のスターを獲得しています。今日、このプロジェクトはGithubのトレンドリストでも1位にランクされています。

プロジェクトアドレス: https://github.com/modelscope/facechain

ユーザーは、特定のスタイルの個人の肖像画を取得するために、最低 3 枚の写真を提供するだけで済みます。たとえば、ビジネス ID 写真を生成するには、次のようにします。

インストール手順なしで、ModelScope Maker Space でこのアプリケーションを直接体験することもできます。

トライアルアドレス: https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary

プロジェクトの紹介では、著者は AI が生成した個人ポートレートの技術的原理と、生成 AI モデルがどのようにして「写真アーティファクト」になるかを説明しています。説明のこの部分を見てみましょう。

個人の肖像画がどのように生成されるか

根拠

AI が個人のポートレートを生成する能力は、テキストまたは一連のプロンプトを入力し、対応する画像を出力するための、安定拡散モデルのテキスト生成画像機能から生まれます。パーソナル写真生成の効果に影響を与える主な要素は、写真スタイル情報とユーザーキャラクター情報の 2 つです。

この目的のために、プロジェクトの著者は、オフラインでトレーニングされたスタイル LoRA モデルとオンラインでトレーニングされた顔 LoRA モデルを使用して、上記の 2 つの情報の側面を学習しました。 LoRA は、トレーニング可能なパラメータが少ない、微調整されたモデルです。Stable Diffusion では、少数の入力画像でテキスト マップをトレーニングすることで、入力画像の情報を LoRA モデルに注入できます。

そのため、個人ポートレート モデルの機能は、トレーニングと推論の 2 つの段階に分かれています。トレーニング段階では、安定拡散モデルを微調整して顔 LoRA モデルを取得するための画像とテキスト ラベル データを生成し、推論段階では、顔 LoRA モデルとスタイル LoRA モデルに基づいて個人ポートレート画像を生成します。

トレーニングフェーズ

トレーニング フェーズの入力は、ユーザーがアップロードした、明確な顔領域を含む画像であり、出力は顔 LoRA モデルです。

具体的には、プロジェクトの著者らはまず、方向判断に基づく画像回転モデルと、顔検出およびキーポイントモデルに基づく洗練された顔回転方法を使用して、ユーザーがアップロードした画像を処理して、肯定的な顔を含む画像を取得しました。次に、人体解析モデルとポートレート肌美化モデルを使用して、高品質の顔トレーニング画像を取得しました。その後、プロジェクトは、顔属性モデルとテキスト注釈モデルをラベル後処理方法と組み合わせて使用​​し、トレーニング画像の洗練されたラベルを生成しました。最後に、上記の画像とラベルデータを使用して、安定拡散モデルを微調整し、顔LoRAモデルを取得しました。

推論フェーズ

推論フェーズの入力は、トレーニング フェーズ中にユーザーがアップロードした画像と、個人の肖像画を生成するための事前設定された入力プロンプトであり、出力は個人の肖像画の画像です。

推論段階では、まず顔LoRAモデルとスタイルLoRAモデルの重みを安定拡散モデルに統合します。次に、安定拡散モデルのテキスト画像機能を使用して、事前に設定されたプロンプトに基づいて個人のポートレート画像を予備的に生成します。その後、顔融合モデルを使用して、上記の肖像画画像の顔の詳細をさらに改善します。融合に使用するテンプレート顔は、顔品質評価モデルを介してトレーニング画像から選択されます。最後に、顔認識モデルを使用して、生成された肖像画像とテンプレート顔の類似性を計算し、肖像画像をソートして、最終出力結果として上位の個人の肖像画像を出力します。

プロジェクト作者はインストールと使用方法を詳細に紹介し、プロジェクトコードをオープンソース化しました。興味のある読者はぜひ試してみてください。

<<:  GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

>>:  農業革命: 世界市場における作物収穫ロボットの台頭

ブログ    

推薦する

「顔認識」に反対する教授:最大の受益者がリスクの責任を負う

劉玉秀、ザ・ペーパーの研修記者ラオ・ドンヤン氏の抵抗により、コミュニティ内で顔認識によるアクセス制御...

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。しかし、...

...

1 つの記事で RNN (リカレント ニューラル ネットワーク) の基礎を理解する

[[211628]] 1. ニューラルネットワークの基礎ニューラル ネットワークは、あらゆる関数に適...

漫画は爆発的な効果でAIに変身し、サーバーが何度も圧倒された

[[436077]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

[[410176]]予測時間を可能な限り延長することが時系列予測の中心的な課題であり、エネルギー、輸...

テスラの自動運転タクシー参入は依然として困難

[[442909]] [51CTO.com クイック翻訳]テスラは2019年4月に「Autonomy...

Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

編集者注:この記事はWeChatの公開アカウントHaoge Says(ID:haogetalks)か...

遺伝的アルゴリズムの動作原理を 1 つの記事で理解する (Python 実装付き)

最近、「遺伝的アルゴリズムの紹介とデータ サイエンスにおけるその応用」というタイトルの記事が Ana...

人工知能が実戦投入され、すでに一部は排除・解雇されている!

脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...

ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...

...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...