よりリアルな人間の生成モデル、HyperHumanが登場。暗黙の構造拡散に基づいて、SOTAの新記録を樹立した。

論文アドレス: https://arxiv.org/pdf/2310.08579.pdf
Githubアドレス: https://github.com/snap-research/HyperHuman

1. 研究の背景と動機

拡散モデルの台頭により、Stable Diffusion や DALL-E 2 などの代表的なモデルが、テキストから画像への変換タスクにおいて驚くべき能力を発揮するようになりました。しかし、明らかな欠点は、これらのモデルはテキストから人体の画像を生成するタスクではうまく機能せず、合理的な構造や自然な姿勢（人体の物理的構造に適合した正しい手足の数や幾何学的トポロジなど）を持つ人体を生成することさえ難しいことです。その主な理由は、自然環境における人体は関節構造をしており、剛体と非剛体の変形が含まれているため、高品質の人体画像を生成するには、テキストで記述するのが難しい構造情報が必要になるためです。

構造制御情報をWenshengグラフに導入するために、ControlNet ^[1]やT2I-Adapter [2]などの最近の代表的な研究では、非常に軽量でプラグアンドプレイの学習可能なブランチを追加して、事前学習済みのWenshengグラフ拡散モデルを調整しています。ただし、元の拡散モデルブランチと新しく追加された学習可能なブランチ間の機能のギャップにより、生成された結果と制御信号の間に不一致が生じることがよくあります。

この問題を解決するために、HumanSD[3]は、人間の骨格グラフと拡散モデル入力を特徴次元に直接連結するネイティブ制御ガイドアプローチを使用します。生成条件の不整合の問題はある程度解決されていますが、芸術的なスタイルで画像を生成することに限定されており、生成品質、多様性、リアリティにはまだ欠けています。さらに、これまでの研究のほとんどは、制御信号を入力またはガイド条件としてのみ扱い、人間の外観とさまざまな構造情報との間の多層的な関連性を無視しています。現実的で構造化された人間のイメージをどのように生成するかは、未解決の問題のままです。

本稿では、Snap Research Institute、香港中文大学、香港大学、南洋理工大学のチームが最新の高リアルな人間生成モデルHyperHumanを発表しました。明示的な人間の外観と暗黙的な多段階の人間構造を共同で学習することで、ゼロショットMS-COCOデータセットで最高の画質（FID、FID_CLIP、KID）と生成-人間のポーズ一貫性（AP、AR）指標結果を達成し、優れたテキスト-画像アライメント指標（CLIPスコア）結果を獲得し、幅広いユーザー主観評価で最高の結果を達成しました。

2. コアメソッド

ポーズ制御のために人間の骨格グラフを導入する最も簡単な方法は、特徴残差または入力連結を使用することです。しかし、このアプローチにはまだいくつかの問題があります。(1) まばらなキーポイントは人間の大まかな構造のみを描写し、細かい人間の形状や前景と背景の関係は無視されます。さらに、元の拡散モデルのトレーニングは RGB 信号によってのみ監視され、データセット画像に含まれる構造情報を取得することはできません。（２）画像のRGBと構造表現は空間的に整列しているが、特徴空間分布には大きな違いがある。これらを共同でモデル化する方法はまだ課題が残っています。

（１）同時ノイズ除去のための統一モデル

最初の問題に対する私たちの解決策は、深度マップ、表面法線マップ、および合成された RGB 画像を同時にノイズ除去することです。これらを追加の学習目標として選択した理由は2つあります。1) 大規模なデータセットに自動的に注釈を付けることで深度と表面法線を簡単に取得できるため、最近の制御可能なテキストグラフモデルでも広く使用されています[1, 2]。 2) 一般的に使用される2つの構造ガイドとして、これらは空間関係と幾何学的情報を補完し、その中でも深度マップと表面法線マップは最近の3Dビジョン研究で大きな助けになることが示されています[4]。この目的を達成するための単純なアプローチは、RGB、深度マップ、表面法線のノイズをそれぞれ除去する 3 つの個別のネットワークをトレーニングすることです。しかし、それらの間の空間的な整合を維持することは困難です。したがって、次の損失関数を使用してトレーニングできる統合モデルフレームワークで同時にノイズを除去することにより、3 つの結合分布を学習することを提案します。

（２）共通のバックボーンを持つ構造的な専門分野

拡散モデル UNet が 3 つの異なる分布から RGB、深度マップ、表面法線マップを同時に処理し、3 つのモダリティごとにノイズ除去された信号を出力できるようにするため、UNet バックボーンネットワークのダウンサンプリングモジュールの最初の数層とアップサンプリングモジュールの最後の数層を、3 つの異なる学習目標の構造エキスパートノイズ除去ブランチとして複製することを提案します。実験により、モジュール複製層の数は、3つの出力間の空間的整合とそれぞれの分布学習の精度との間でトレードオフの関係にあることが示されています。(1)一方では、独立したブランチパラメータが少なく、共有バックボーンネットワークパラメータが多いと、出力の類似性が高まり、拡散モデルによって出力されるRGB、深度マップ、表面法線マップの空間的整合が向上します。（２）一方、対応するRGB、深度マップ、表面法線マップのセットは、同じ画像の異なる形式とみなすことができます。共有バックボーンネットワークを通過すると、同じ中間層ネットワーク特性が得られます。同じ特徴に基づいて同じ画像の異なる形式/表現/スタイルを取得することは、本質的に画像間の変換問題と非常に似ています。したがって、このタスクを完了するには、十分な独立したネットワークパラメータが必要です。極端な例を考えてみましょう。異なるノイズ除去ブランチのパラメータに 1 つの畳み込みレイヤーしか含まれていない場合、同じ特徴を RGB、深度マップ、および表面法線マップの出力にマッピングするには 1 つの畳み込みネットワークのみを使用する必要がありますが、これは明らかに不可能です。十分な実験を行った後、元の拡散モデル UNet の入力畳み込み層 (conv_in)、最初のダウンサンプリングモジュール (DownBlock)、最後のアップサンプリングモジュール (UpBlock)、および出力畳み込み層 (conv_out) をコピーすることを選択しました。これにより、出力 RGB、深度マップ、表面法線マップ間の空間的な位置合わせが保証されるだけでなく、3 つの異なるモダリティの表現分布を正確に学習できるようになります。具体的なネットワーク構造図は次のとおりです。

上記 2 つの主要な貢献に加えて、この論文では、共同学習におけるノイズレベルのサンプリング戦略と、第 1 段階で推定された構造情報を使用して、より高解像度で詳細かつ現実的な生成結果を得る方法についても慎重に設計しています。詳細については、論文を参照してください。

3. 実験結果

HyperHuman は、ゼロショット MS-COCO データセットで最高の画像品質 (FID、FID_CLIP、KID) と世代と人間のポーズの一貫性 (AP、AR) インジケーター結果を達成し、優れたテキストと画像の配置インジケーター (CLIP スコア) 結果を得ました。その中で、SDXL[5]は2つのテキストエンコーダと3倍の規模の拡散モデルUNetバックボーンネットワークを使用しているため、テキストと画像のクロスアテンションレイヤーが多く、CLIPスコアの点で最高のパフォーマンスを発揮します。それにもかかわらず、HyperHuman は CLIP スコアで同様の結果を達成し、同じテキストエンコーダーパラメーターを持つ他のテキスト画像モデルと比較して、テキスト画像の一貫性のパフォーマンスが優れています。

さらに、異なる分類子フリーガイダンス (CFG) 下でのさまざまなモデルのパフォーマンスを示すために、FID-CLIP 曲線と FID_CLIP-CLIP 曲線も示します。 HyperHuman は、画像生成の品質と画像とテキストの一貫性の間で適切なトレードオフを実現していることがわかります。特に、実際のシナリオで使用される CFG 値 (つまり、画像の右下隅の領域) が大幅に改善されています。

以下は HyperHuman によって生成されたサンプルです。左側の 2x2 グリッドでは、左上隅が入力人間の骨格画像で、他の 3 つは同時ノイズ除去によって生成された 512x512 解像度の表面法線マップ、深度マップ、RGB 画像の結果です。右側は 1024x1024 解像度の高解像度画像生成結果です。

さらに高解像度の結果は次のとおりです。

以下は、以前の作業で生成された結果との比較です。

その他のサンプルについては、記事の付録を参照してください。

3. 結論と今後の課題

この論文では、非常にリアルな生成人間モデルである HyperHuman を提案します。 HyperHuman は、2 つの中核的な貢献を提案しています。(1) 暗黙的な構造ノイズ除去モデルは、同時ノイズ除去によって画像 RGB、深度マップ、表面法線マップを取得するように設計されており、画像の外観テクスチャ、空間関係、および幾何学的構造情報は、統一されたフレームワークで特徴付けられます。(2) 構造ガイドによる改良モジュールが設計されており、第 1 段階で生成された構造表現に基づいて、高解像度で高品質の人体生成結果を堅牢に取得できます。全体的に、HyperHuman は、自然なシーンでさまざまな外観と姿勢を持つ高解像度のリアルな人物を生成することができ、画質、リアリティ、多様性、制御性の点で以前の研究を上回っています。

今後の仕事:

1. 既存の人間のポーズ、深度マップ、表面法線マップ推定ネットワークの制限により、メガネや指などの非常に詳細なテクスチャ特徴には依然として生成エラーがあります。これらの問題を効果的に解決し、超微細粒度の高解像度の人体を生成する方法は、依然として検討する価値のある問題です。

2. 現在のフレームワークでは、ガイドとしてスケルトン画像を入力する必要があります。これは、スケルトンのキーポイントをドラッグすることで取得できる非常に取得しやすい制御信号であり、ユーザーの主観的な制御も強化されますが、このモデルを大規模かつ迅速に使用するには、追加の入力が必要です。考えられるアプローチの 1 つは、LLM を使用してテキストから人間の骨格を生成し、次に HyperHuman を使用して高解像度の人間の姿を生成することです。

詳細な研究情報については、以下を参照してください。