1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

最近、わずか9.9元で個人的な写真を生成できる「Miaoya Camera」など、AI生成の視覚画像アプリケーションが人気を集めています。操作が簡単で技術的な操作を必要としないため、多くのユーザーがMiaoYaカメラで生成した写真をWeChatモーメントに投稿しています。

Miaoya Cameraは使いやすいですが、有料アプリです。現在、FaceChainと呼ばれるオープンソースプロジェクトでは、AIモデルを使用して人物の肖像画を作成できます。このプロジェクトはオンラインになってから1週間経ちますが、すでに2,500個のスターを獲得しています。今日、このプロジェクトはGithubのトレンドリストでも1位にランクされています。

プロジェクトアドレス: https://github.com/modelscope/facechain

ユーザーは、特定のスタイルの個人の肖像画を取得するために、最低 3 枚の写真を提供するだけで済みます。たとえば、ビジネス ID 写真を生成するには、次のようにします。

インストール手順なしで、ModelScope Maker Space でこのアプリケーションを直接体験することもできます。

トライアルアドレス: https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary

プロジェクトの紹介では、著者は AI が生成した個人ポートレートの技術的原理と、生成 AI モデルがどのようにして「写真アーティファクト」になるかを説明しています。説明のこの部分を見てみましょう。

個人の肖像画がどのように生成されるか

根拠

AI が個人のポートレートを生成する能力は、テキストまたは一連のプロンプトを入力し、対応する画像を出力するための、安定拡散モデルのテキスト生成画像機能から生まれます。パーソナル写真生成の効果に影響を与える主な要素は、写真スタイル情報とユーザーキャラクター情報の 2 つです。

この目的のために、プロジェクトの著者は、オフラインでトレーニングされたスタイル LoRA モデルとオンラインでトレーニングされた顔 LoRA モデルを使用して、上記の 2 つの情報の側面を学習しました。 LoRA は、トレーニング可能なパラメータが少ない、微調整されたモデルです。Stable Diffusion では、少数の入力画像でテキスト マップをトレーニングすることで、入力画像の情報を LoRA モデルに注入できます。

そのため、個人ポートレート モデルの機能は、トレーニングと推論の 2 つの段階に分かれています。トレーニング段階では、安定拡散モデルを微調整して顔 LoRA モデルを取得するための画像とテキスト ラベル データを生成し、推論段階では、顔 LoRA モデルとスタイル LoRA モデルに基づいて個人ポートレート画像を生成します。

トレーニングフェーズ

トレーニング フェーズの入力は、ユーザーがアップロードした、明確な顔領域を含む画像であり、出力は顔 LoRA モデルです。

具体的には、プロジェクトの著者らはまず、方向判断に基づく画像回転モデルと、顔検出およびキーポイントモデルに基づく洗練された顔回転方法を使用して、ユーザーがアップロードした画像を処理して、肯定的な顔を含む画像を取得しました。次に、人体解析モデルとポートレート肌美化モデルを使用して、高品質の顔トレーニング画像を取得しました。その後、プロジェクトは、顔属性モデルとテキスト注釈モデルをラベル後処理方法と組み合わせて使用​​し、トレーニング画像の洗練されたラベルを生成しました。最後に、上記の画像とラベルデータを使用して、安定拡散モデルを微調整し、顔LoRAモデルを取得しました。

推論フェーズ

推論フェーズの入力は、トレーニング フェーズ中にユーザーがアップロードした画像と、個人の肖像画を生成するための事前設定された入力プロンプトであり、出力は個人の肖像画の画像です。

推論段階では、まず顔LoRAモデルとスタイルLoRAモデルの重みを安定拡散モデルに統合します。次に、安定拡散モデルのテキスト画像機能を使用して、事前に設定されたプロンプトに基づいて個人のポートレート画像を予備的に生成します。その後、顔融合モデルを使用して、上記の肖像画画像の顔の詳細をさらに改善します。融合に使用するテンプレート顔は、顔品質評価モデルを介してトレーニング画像から選択されます。最後に、顔認識モデルを使用して、生成された肖像画像とテンプレート顔の類似性を計算し、肖像画像をソートして、最終出力結果として上位の個人の肖像画像を出力します。

プロジェクト作者はインストールと使用方法を詳細に紹介し、プロジェクトコードをオープンソース化しました。興味のある読者はぜひ試してみてください。

<<:  GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

>>:  農業革命: 世界市場における作物収穫ロボットの台頭

ブログ    
ブログ    
ブログ    

推薦する

警戒するのは困難:真剣な AI 研究がいかにしてコンピューター生成ポルノに変わったのか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

Microsoft と Meta が提携し、Bing 検索を Meta AI チャットボットに統合

9月28日早朝、Meta Connect 2023において、MetaはMeta AIという新しいチャ...

マスクは困った状況だ! Grok AI は ChatGPT を盗用した疑いがあるのでしょうか? ?

みなさんこんにちは。Ergouです。マスク氏は今日、困った状況に陥っている! X (Twitter)...

Reddit ユーザーが「泣く」: 私はアルゴリズム エンジニアではなく、「パラメータ調整者」です

[[387580]]まず最初に質問させてください。あなたは自分が「スイッチャー」だと思いますか、それ...

アリの採餌とインターネットアルゴリズム

[[93484]]人間とアリの違いは何でしょうか? Ant にはインターネットがありません。創造的な...

...

Googleは社内でAIを使ったコンピュータチップの開発を試みていることを明らかに

グーグルの人工知能研究責任者ジェフ・ディーン氏によると、同社は人工知能プログラムを搭載したソフトウェ...

集める! 2017 年の主要な AI イベントを総ざらい!(動画付き)

[[219484]] 2017 年に 1 年間眠っていたのに、突然目が覚めて、今年世界で最も誇るべ...

Google、AIロボットが人間に危害を加えないことを保証する「ロボット憲法」を起草

グーグルのディープマインドは1月5日、3つの新たな開発を発表した。その1つは、AIロボットが人間に危...

ディープラーニングツール: TensorFlow と NLP モデル

[[200204]]序文自然言語処理 (略して NLP) は、コンピューターが人間の言語を処理する方...

ドミノ倒し: DataOps、AI、機械学習だけがマイクロサービスと分散システムを無敵にできる

[[440885]] [51CTO.com クイック翻訳]次のようなシナリオを想像してみてください。...

上場企業上位500社を調査し、人工知能の7つの主要トレンドをまとめました。

近年、人工知能技術の研究が継続的に進歩するにつれて、資本は熱い傾向を示し、さまざまな業界が人工知能に...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

人工知能はどこにでもありますが、計画とコーディングは始めましたか?

人々は「ソフトウェア 2.0」の時代に入りつつあります。人工知能、ディープラーニング、機械学習、高度...