Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

Xiaohongshuのオープンソース「InstantID」は大きな効果があり、Yann LeCunに賞賛され、Githubのホットリストのトップに急上昇

最近、InstantX と名乗る、Xiaohongshu 出身の 95 歳以上の謎のチームが大きな動きを見せました。それは、「InstantID」プロジェクトをオープンソース化するというものでした。

InstantID は、その高品質な画像生成機能により、オープンソース コミュニティで大きな話題を呼んでいます。多くのテクノロジー大手から賞賛されただけでなく、GitHub のホット リストでも急速に人気が高まり、注目を集めています。

この「写真生成ツール」は、写真をアップロードするだけで、AI写真をさまざまなスタイルに簡単にカスタマイズできるツールです。

はい、その通りです。写真の左側に示すように、少なくとも 20 枚の写真をアップロードする必要がある、以前人気のあった Miaoya カメラとは異なり、InstantID では 1 枚の自撮り写真のみが必要で、モデルのトレーニングに依存せず、待機する必要がなく、瞬時に変換できます。

古典的な油絵の優雅さ、クールなサイバーパンク、3D 彫像の立体感など、お気に入りのスタイルであれば、InstantID で簡単に処理できます。

多様なスタイルを備えているだけでなく、モデルのトレーニングを必要とせず、キャラクターの顔の忠実度を高く保ちながら数秒で画像を生成できるため、効率が大幅に向上します。

InstantIDは現在、Hugging Face Spaceのトレンドで1位にランクされており、多くの友人が楽しんで遊んでいます〜

たとえば、マスク氏を火星に送るなど。

モナリザに「桜の写真」を撮らせてください。彼女の笑顔はやはり神秘的です。

中国の教科書に出てくる杜甫を二次元から三次元に変身させ、現代にタイムスリップして「イケメンおじさん」になることさえ可能です。

チューリング賞受賞者のヤン・ルカンがさまざまなアニメキャラクターに変身します。あなたは何人のキャラクターに変身できるか推測できましたか?

ヤン・ルカン本人もこの投稿に「いいね!」してリポストし、「アイアンマン」スーツがどこにあるのかについて冗談を言った。

パーソナライズされた画像合成の分野では、顔の忠実度を高く維持しながら、様式化された肖像画を実現することが常に課題となってきました。

結果から判断すると、InstantID はそれを実現しました。では、その背後にはどのような方法が使われており、何がユニークなのでしょうか?

振り返ってみると、Textual Inversion、DreamBooth、LoRA などのテクノロジーは大きな進歩を遂げてきました。しかし、その実際の応用は、高いストレージ要件、時間のかかる微調整プロセス、および複数の参照画像への依存によって依然として制限されています。対照的に、既存の ID 埋め込みベースの方法は、1 つの前方推論のみを必要とするものの、多数のモデル パラメータの大規模な微調整が必​​要であるか、コミュニティの事前トレーニング済みモデルと互換性がないか、高い信頼性を維持できないかのいずれかの大きな課題に直面しています。

InstantID の出現により、これらの制限は打ち破られました。 Xiaohongshu の InstantX チームは、論文「InstantID: 数秒でゼロショット ID 保持生成」と推論コードを発表しました。チームは次のように述べています。「 InstantID は、テキストベースのグラフ モデルの UNet 部分のトレーニングを巧みに回避します。軽量のプラグ可能なモジュールのみをトレーニングすることで、推論プロセス中のテスト時間の調整を排除し、テキスト制御の柔軟性を維持し、顔の特徴の高忠実度を確保します。」

図に示すように、InstantID の動作原理は 3 つの主要な部分に分けられます。

  • ID 埋め込み: チームは、CLIP の代わりに事前トレーニング済みの顔認識モデルを使用して意味的な顔の特徴を抽出し、トレーニング可能な投影レイヤーを使用してこれらの特徴をテキスト特徴空間にマッピングして、顔の特徴、表情、年齢などの豊富な意味情報を持つ顔埋め込みを形成し、その後の画像生成のための強固な基盤を提供します。
  • イメージ アダプター: 抽出された ID 情報とテキスト キューを組み合わせる軽量アダプター モジュールを導入します。このモジュールは、分離されたクロスアテンションメカニズムを使用して、画像とテキストが生成プロセスに独立して影響を与えることを可能にします。これにより、ユーザーはアイデンティティ情報を維持しながら画像スタイルを細かく制御でき、「win-win」の状況が実現します。
  • IdentityNet: Xiaohongshu は、InstantID の中核部分である IdentityNet と呼ばれるネットワークを提案しました。強力な意味条件 (顔の特徴の詳細な説明など) と弱い空間条件 (顔のランドマークの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。 IdentityNet では、生成プロセスはテキスト情報なしで Face Embedding によって完全にガイドされます。新しく追加されたモジュールのみが更新され、事前トレーニング済みのテキストから画像へのモデルは柔軟性を確保するために固定されたままになります。

実際の画像生成プロセスでは、InstantID はまずテキスト プロンプトとユーザーの顔画像を受信します。次に、ID 埋め込みを通じてキー情報が抽出され、イメージ アダプターがこの情報をテキスト プロンプトと結合します。 IdentityNet は、この融合された情報に基づいて画像を生成します。

プロセス全体が自動化されているため、ユーザーは追加の微調整やトレーニングを行う必要がありません。テキストの説明と一致し、個人のアイデンティティの特徴を保持するカスタマイズされた画像を取得するには、20 秒ほど待つだけで済みます。

InstantID は、トレーニングの効率性と ID の忠実性のバランスを解決するだけでなく、一連の優れた機能も提供します。

まず第一に、InstantID のプラグアンドプレイと互換性は、その最大のセールスポイントの 1 つです。 UNet の追加トレーニングは必要なく、コミュニティベースの Wenshengtu モデル、LoRA、ControlNet などの既存の事前トレーニング済みモデルとシームレスに統合できます。これは、コストを増やすことなく、ユーザーが推論プロセス中にキャラクターのアイデンティティ特性を簡単に維持できることを意味し、分裂可能性が強いです。

第二に、InstantID は微調整を必要としないため、実際のアプリケーションでは非常に経済的かつ実用的です。ユーザーは、たった 1 回のフォワード パスで、テキスト編集を強力に制御しながら画像をすばやく生成できるため、アイデンティティ情報をさまざまなスタイルに完全に統合できます。下の図に示すように、高度な編集機能により、ユーザーはテキストを通じて性別、髪型、服装などの詳細を制御でき、生成される画像の多様性を確保できます。

パフォーマンスも同様に印象的で、たった 1 つの参照画像から、高い忠実度と柔軟性を備えた高度な結果を生成します。このパフォーマンスは、IP-Adapter-FaceID などの単一の画像特徴に基づく埋め込み方法を上回るだけでなく、特定のシナリオでは、その効果は ROOP や LoRAs などの方法に匹敵します。

InstantID は、類似性に対する要件が高い実際の写真シーンでも優れたパフォーマンスを発揮します。数秒以内に高品質の画像を生成できるだけでなく、時間のかかる LoRa トレーニングも回避できます。MiaoYa と比較すると、コストは約 1/300 と低くなります。 InstantID は、顔の領域を細かく制御することで、全体的なスタイルの調和を維持しながら顔の類似性を高めることができます。

さらに、InstantID の領域ベースの生成ソリューションは、ほとんど時間をかけずに複数人物および複数スタイルの画像生成をサポートします。

堅牢性と汎用性により、誇張された顔の特徴の比率をスムーズに処理できます。

複数の視点を生成することに問題はありません。指定したポーズと顔の特徴に基づいて新しい AI 写真を生成します。

InstantID は優れたスケーラビリティを備えており、さまざまな派生機能を迅速にサポートできます。

たとえば、素早い顔の交換などです。 Inswapperと比較すると、InstantIDで生成された作品は、顔と背景の融合がより柔軟です。

ID情報の補間。 InstantID は、双方の特徴を保持しながら、2 つの顔のカスタム融合をサポートします。

非肖像とIDの組み合わせが非常に特徴的です。

そうは言っても、実際に試してみてその魅力を感じてみるのも良いでしょう。

操作は非常に簡単です。InstantID のデモ ページにアクセスし、写真を直接アップロードして無料で体験してください。

https://huggingface.co/spaces/InstantX/InstantID

InstantID のこれらの利点は、個々のユーザーに強力なクリエイティブ ツールを提供するだけでなく、電子商取引、広告、エンターテイメント業界などの商用アプリケーションに新たな可能性をもたらします。今回の InstantID のパフォーマンスは驚くべきもので、その効率性、柔軟性、強力なパフォーマンス、使いやすさに感銘を受けました。私たちは、Xiaohongshu のオープンソース プロジェクトの今後の進展を楽しみにしており、将来的には複数の分野でより大きな役割を果たすことができることを期待しています。

付録:

  • 論文アドレス: https://arxiv.org/abs/2401.07519
  • InstantID ホームページ: https://instantid.github.io/
  • デモ: https://huggingface.co/spaces/InstantX/InstantID

<<:  最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

>>: 

ブログ    
ブログ    

推薦する

左に狂気、右に合理性、真ん中にアルゴリズム

著者: Qianshan校正:ウー・ムーテクノロジーの進歩により、AIは大きな発展の可能性を示してい...

世界を変えた10人のアルゴリズムマスター

ドン・E・クヌース[[236633]]アルゴリズムとプログラミング技術の先駆者。ああ、神様!海外のウ...

チャットボットと人工知能は2018年に新たな産業革命をもたらすだろう

チャットボットが大きなトレンドであることは間違いありません。ますます多くの大手ブランドが、アプリのタ...

「科学的シミュラクル」:人工知能とハイパーリアリティの衝突

人工知能(AI)技術の進歩は、現実と表現が区別できなくなるジャン・ボードリヤールのハイパーリアリティ...

...

機械学習に必要な5つのスキル

機械学習、かっこいいですね。名前からすると、ロボットが一列に並んで座って知識を学習しているように思わ...

ロボット産業発展の鍵は人材にある

製造強国戦略の徹底的な実行の重要な部分として、ロボット産業はますます多くの人々の注目を集めています。...

...

日常生活における人工知能の応用トップ 10

[51CTO.com クイック翻訳]経済社会の発展に伴い、テクノロジーはますます複雑になっています...

...

AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...

電力管理における人工知能の重要性

私たちの生活のあらゆる側面がテクノロジーと絡み合っている時代において、電力業界も例外ではありません。...

2020年にAIに適した5つのプログラミング言語

AI システムの開発にはコンピュータ コードが必要であり、コンピュータ プログラムを開発する際にはさ...