Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

最近、InstantX と名乗る、Xiaohongshu 出身の 95 歳以上の謎のチームが大きな動きを見せました。それは、「InstantID」プロジェクトをオープンソース化するというものでした。

InstantID は、その高品質な画像生成機能により、オープンソース コミュニティで大きな話題を呼んでいます。多くのテクノロジー大手から賞賛されただけでなく、GitHub のホット リストでも急速に人気が高まり、注目を集めています。

この「写真生成ツール」は、写真をアップロードするだけで、AI写真をさまざまなスタイルに簡単にカスタマイズできるツールです。

はい、その通りです。写真の左側に示すように、少なくとも 20 枚の写真をアップロードする必要がある、以前人気のあった Miaoya カメラとは異なり、InstantID では 1 枚の自撮り写真のみが必要で、モデルのトレーニングに依存せず、待機する必要がなく、瞬時に変換できます。

古典的な油絵の優雅さ、クールなサイバーパンク、3D 彫像の立体感など、お気に入りのスタイルであれば、InstantID で簡単に処理できます。

多様なスタイルを備えているだけでなく、モデルのトレーニングを必要とせず、キャラクターの顔の忠実度を高く保ちながら数秒で画像を生成できるため、効率が大幅に向上します。

InstantIDは現在、Hugging Face Spaceのトレンドで1位にランクされており、多くの友人が楽しんで遊んでいます〜

たとえば、マスク氏を火星に送るなど。

モナリザに「桜の写真」を撮らせてください。彼女の笑顔はやはり神秘的です。

中国の教科書に出てくる杜甫を二次元から三次元に変身させ、現代にタイムスリップして「イケメンおじさん」になることさえ可能です。

チューリング賞受賞者のヤン・ルカンがさまざまなアニメキャラクターに変身します。あなたは何人のキャラクターに変身できるか推測できましたか?

ヤン・ルカン本人もこの投稿に「いいね!」してリポストし、「アイアンマン」スーツがどこにあるのかについて冗談を言った。

パーソナライズされた画像合成の分野では、顔の忠実度を高く維持しながら、様式化された肖像画を実現することが常に課題となってきました。

結果から判断すると、InstantID はそれを実現しました。では、その背後にはどのような方法が使われており、何がユニークなのでしょうか?

振り返ってみると、Textual Inversion、DreamBooth、LoRA などのテクノロジーは大きな進歩を遂げてきました。しかし、その実際の応用は、高いストレージ要件、時間のかかる微調整プロセス、および複数の参照画像への依存によって依然として制限されています。対照的に、既存の ID 埋め込みベースの方法は、1 つの前方推論のみを必要とするものの、多数のモデル パラメータの大規模な微調整が必​​要であるか、コミュニティの事前トレーニング済みモデルと互換性がないか、高い信頼性を維持できないかのいずれかの大きな課題に直面しています。

InstantID の出現により、これらの制限は打ち破られました。 Xiaohongshu の InstantX チームは、論文「InstantID: 数秒でゼロショット ID 保持生成」と推論コードを発表しました。チームは次のように述べています。「 InstantID は、テキストベースのグラフ モデルの UNet 部分のトレーニングを巧みに回避します。軽量のプラグ可能なモジュールのみをトレーニングすることで、推論プロセス中のテスト時間の調整を排除し、テキスト制御の柔軟性を維持し、顔の特徴の高忠実度を確保します。」

図に示すように、InstantID の動作原理は 3 つの主要な部分に分けられます。

  • ID 埋め込み: チームは、CLIP の代わりに事前トレーニング済みの顔認識モデルを使用して意味的な顔の特徴を抽出し、トレーニング可能な投影レイヤーを使用してこれらの特徴をテキスト特徴空間にマッピングして、顔の特徴、表情、年齢などの豊富な意味情報を持つ顔埋め込みを形成し、その後の画像生成のための強固な基盤を提供します。
  • イメージ アダプター: 抽出された ID 情報とテキスト キューを組み合わせる軽量アダプター モジュールを導入します。このモジュールは、分離されたクロスアテンションメカニズムを使用して、画像とテキストが生成プロセスに独立して影響を与えることを可能にします。これにより、ユーザーはアイデンティティ情報を維持しながら画像スタイルを細かく制御でき、「win-win」の状況が実現します。
  • IdentityNet: Xiaohongshu は、InstantID の中核部分である IdentityNet と呼ばれるネットワークを提案しました。強力な意味条件 (顔の特徴の詳細な説明など) と弱い空間条件 (顔のランドマークの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。 IdentityNet では、生成プロセスはテキスト情報なしで Face Embedding によって完全にガイドされます。新しく追加されたモジュールのみが更新され、事前トレーニング済みのテキストから画像へのモデルは柔軟性を確保するために固定されたままになります。

実際の画像生成プロセスでは、InstantID はまずテキスト プロンプトとユーザーの顔画像を受信します。次に、ID 埋め込みを通じてキー情報が抽出され、イメージ アダプターがこの情報をテキスト プロンプトと結合します。 IdentityNet は、この融合された情報に基づいて画像を生成します。

プロセス全体が自動化されているため、ユーザーは追加の微調整やトレーニングを行う必要がありません。テキストの説明と一致し、個人のアイデンティティの特徴を保持するカスタマイズされた画像を取得するには、20 秒ほど待つだけで済みます。

InstantID は、トレーニングの効率性と ID の忠実性のバランスを解決するだけでなく、一連の優れた機能も提供します。

まず第一に、InstantID のプラグアンドプレイと互換性は、その最大のセールスポイントの 1 つです。 UNet の追加トレーニングは必要なく、コミュニティベースの Wenshengtu モデル、LoRA、ControlNet などの既存の事前トレーニング済みモデルとシームレスに統合できます。これは、コストを増やすことなく、ユーザーが推論プロセス中にキャラクターのアイデンティティ特性を簡単に維持できることを意味し、分裂可能性が強いです。

第二に、InstantID は微調整を必要としないため、実際のアプリケーションでは非常に経済的かつ実用的です。ユーザーは、たった 1 回のフォワード パスで、テキスト編集を強力に制御しながら画像をすばやく生成できるため、アイデンティティ情報をさまざまなスタイルに完全に統合できます。下の図に示すように、高度な編集機能により、ユーザーはテキストを通じて性別、髪型、服装などの詳細を制御でき、生成される画像の多様性を確保できます。

パフォーマンスも同様に印象的で、たった 1 つの参照画像から、高い忠実度と柔軟性を備えた高度な結果を生成します。このパフォーマンスは、IP-Adapter-FaceID などの単一の画像特徴に基づく埋め込み方法を上回るだけでなく、特定のシナリオでは、その効果は ROOP や LoRAs などの方法に匹敵します。

InstantID は、類似性に対する要件が高い実際の写真シーンでも優れたパフォーマンスを発揮します。数秒以内に高品質の画像を生成できるだけでなく、時間のかかる LoRa トレーニングも回避できます。MiaoYa と比較すると、コストは約 1/300 と低くなります。 InstantID は、顔の領域を細かく制御することで、全体的なスタイルの調和を維持しながら顔の類似性を高めることができます。

さらに、InstantID の領域ベースの生成ソリューションは、ほとんど時間をかけずに複数人物および複数スタイルの画像生成をサポートします。

堅牢性と汎用性により、誇張された顔の特徴の比率をスムーズに処理できます。

複数の視点を生成することに問題はありません。指定したポーズと顔の特徴に基づいて新しい AI 写真を生成します。

InstantID は優れたスケーラビリティを備えており、さまざまな派生機能を迅速にサポートできます。

たとえば、素早い顔の交換などです。 Inswapperと比較すると、InstantIDで生成された作品は、顔と背景の融合がより柔軟です。

ID情報の補間。 InstantID は、双方の特徴を保持しながら、2 つの顔のカスタム融合をサポートします。

非肖像とIDの組み合わせが非常に特徴的です。

そうは言っても、実際に試してみてその魅力を感じてみるのも良いでしょう。

操作は非常に簡単です。InstantID のデモ ページにアクセスし、写真を直接アップロードして無料で体験してください。

https://huggingface.co/spaces/InstantX/InstantID

InstantID のこれらの利点は、個々のユーザーに強力なクリエイティブ ツールを提供するだけでなく、電子商取引、広告、エンターテイメント業界などの商用アプリケーションに新たな可能性をもたらします。今回の InstantID のパフォーマンスは驚くべきもので、その効率性、柔軟性、強力なパフォーマンス、使いやすさに感銘を受けました。私たちは、Xiaohongshu のオープンソース プロジェクトの今後の進展を楽しみにしており、将来的には複数の分野でより大きな役割を果たすことができることを期待しています。

付録:

  • 論文アドレス: https://arxiv.org/abs/2401.07519
  • InstantID ホームページ: https://instantid.github.io/
  • デモ: https://huggingface.co/spaces/InstantX/InstantID

<<:  最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

>>: 

ブログ    
ブログ    

推薦する

...

チップ大手がCESで新年の幕開けを飾る戦いを繰り広げる! AMD、インテル、NVIDIA、クアルコムの衝撃的な対決

毎年恒例のテクノロジー業界のオープニングショー「CES」が現在、米国ラスベガスで開催されています。 ...

AIビデオ生成が新たな高みに到達:高解像度の映画品質、無料で無制限に再生可能、「史上最強」として知られる

いわゆる「史上最強の動画生成AI」が誕生した。効果は本当に良いです:たった 1 つのプロンプト ワー...

2019年に予想される5つのホットなスタートアップトレンド

最近は大学生があちこちで見かけられ、就職のプレッシャーも高まっています。そのため、多くの人にとって、...

TuSimpleはAIと自動運転に注力し、時価総額84億ドル超でナスダックに正式に上場した。

海外メディアの報道によると、人工知能(AI)と自動運転の企業TuSimpleが株式コード「TSP」で...

...

AIのおかげで、これら5つの業界の求人需要は大幅な成長傾向を示すだろう

編集者注: 人工知能と人間の仕事は、今日多くの人が話題にしているトピックであり、議論の焦点は主に、人...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

PaddlePaddle を使い始める: 対話システムにおける感情分析から始める

1. 背景人工知能の時代では、さまざまなディープラーニングフレームワークが普及しており、フレームワー...

Pika、Gen-2、ModelScope、SEINE…AIビデオ生成で最高なのはどれでしょうか?このフレームワークは理解しやすい

AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...

...

カスタムデータセットにOpenAI CLIPを実装する

2021年1月、OpenAIはDALL-EとCLIPという2つの新しいモデルを発表しました。どちらも...

また鉄の飯碗が割れた!今後、これらの仕事は人工知能に置き換えられるかもしれません!

この時代に本物の鉄丼なんて存在しない!最近、広東省の高速道路で非接触型決済が導入されたというニュース...