「人と風景のインタラクティブ生成」に新たなブレークスルー！天津大学と清華大学がナレーターをリリース：テキスト駆動型で自然に制御可能｜ICCV 2023

自然で制御可能なヒューマンシーンインタラクション (HSI) の生成は、仮想現実/拡張現実 (VR/AR) コンテンツの作成や人間中心の人工知能など、多くの分野で重要な役割を果たします。

しかし、既存の方法では制御性が限られており、インタラクションの種類が限られており、生成される結果が不自然であるため、現実のアプリケーションシナリオが厳しく制限されます。

この問題に対処するため、天津大学と清華大学のチームは、ICCV 2023 での研究でナレーターを提案し、テキストの説明から現実的で多様な人間とシーンのインタラクションを自然かつ制御可能に生成するという困難なタスクに焦点を当てました。

写真

プロジェクトのホームページ: http://cic.tju.edu.cn/faculty/likun/projects/Narrator

コード: https://github.com/HaibiaoXuan/Narrator

人間の認知の観点から見ると、理想的な生成モデルは、空間関係を正しく推論し、相互作用の自由度を探索できる必要があります。

そこで著者らは、シーングラフを通じてシーンと説明の空間関係をそれぞれモデル化し、相互作用アクションを原子体部分の状態として表現する部分レベルの相互作用メカニズムを導入する、関係推論に基づく生成モデルを提案する。

特に、関係推論の恩恵を受けて、著者らはさらにシンプルだが効果的な複数人生成戦略を提案しており、これは当時の制御可能な複数人シーンインタラクション生成の最初の探究であった。

最後に、著者らは多数の実験とユーザー調査を実施し、ナレーターが制御可能な多様なインタラクションを生成できること、そしてその効果が既存の研究よりも大幅に優れていることを証明しました。

方法の動機

人間とシーンのインタラクションを生成するための既存の方法のほとんどは、インタラクションの物理的な幾何学的関係に焦点を当てていますが、生成に対する意味的な制御が欠けており、単一人物の生成に限定されています。

したがって、私たちは、自然言語による記述から、人々とシーンの間の現実的で多様なインタラクションを制御可能に生成するという困難なタスクに焦点を当てています。著者らは、人間は空間認識と行動認識を通じて、さまざまな場所でさまざまなやり取りを行っている人々を自然に描写することが多いことを観察した。

写真

図 1 ナレーターは、意味的に一貫性があり物理的に妥当な人間とシーンのインタラクションを自然で制御可能な方法で生成できます。これは、次の状況に適用できます。(a) 空間関係によってガイドされるインタラクション、(b) 複数のアクションによってガイドされるインタラクション、(c) 複数人のシーンインタラクション、および (d) 上記のインタラクションタイプを組み合わせた人間とシーンのインタラクション。

具体的には、空間関係はシーンまたはローカルエリア内の異なるオブジェクト間の相互関係として表現でき、インタラクティブなアクションは、人が足を地面につける、胴体を傾ける、右手をタップする、頭を下げるなどの身体部位の原子状態によって指定されます。

これに基づいて、著者らはシーングラフを使用して空間関係を表現し、後続の世代にグローバルな位置認識を提供するための Joint Global and Local Scene Graph (JGLSG) メカニズムを提案しています。

同時に、テキストに準拠したリアルなインタラクションをシミュレートするには体の部分の状態が鍵となることを考慮し、著者らは人体の部位と動作の対応を確立するためのパーツレベルアクション (PLA) メカニズムを導入しました。

効果的な観察認知と、提案された関係推論の柔軟性と再利用性を活用して、著者らはさらに、シンプルでありながら効果的な複数人の生成戦略を提案しました。これは、当時の最初の自然に制御可能でユーザーフレンドリーなマルチヒューマンシーンインタラクション (MHSI) 生成スキームでした。

方法

ナレーターフレームワークの概要

ナレーターの目的は、テキストの説明と意味的に一貫性があり、3 次元シーンに物理的に一致する、自然で制御可能な方法で人間とシーンのインタラクションを生成することです。

写真

図 2 ナレーターフレームワークの概要

図 2 に示すように、この方法では、主に次の要素を含むトランスフォーマーベースの条件付き変分オートエンコーダ (cVAE) を使用します。

1) シーンやオブジェクトを個別に考慮する既存の研究と比較して、複雑な空間関係を推論し、グローバルな位置認識を実現するためのグローバルおよびローカルシーングラフの統合メカニズムを設計します。

2) 人間は異なる体の部分を同時に使ってインタラクティブな動作を行うという観察に基づいて、現実的で多様なインタラクションを実現するためにコンポーネントレベルの動作メカニズムを導入します。

3) シーンを考慮した最適化のプロセスでは、より良い生成結果を得るためにインタラクティブな二分損失が追加で導入されます。

4) さらに、複数人のインタラクション生成に拡張され、最終的には複数人のシーンインタラクションの第一歩を促進します。

グローバルとローカルのシーングラフメカニズムを組み合わせた

空間関係についての推論は、モデルに特定のシーンに関する手がかりを提供することができ、人々とシーンの間の自然で制御可能な相互作用を実現する上で重要な役割を果たします。

そこで著者らは、次の 3 つのステップで実装されるグローバルおよびローカルのシーングラフ結合メカニズムを設計しました。

1. グローバルシーングラフの生成: シーンが与えられたら、事前トレーニング済みのシーングラフモデルを使用してグローバルシーングラフを生成します。つまり、はカテゴリラベルを持つオブジェクト、はとの関係、n はオブジェクトの数、m は関係の数です。

2. ローカルシーングラフ生成：意味解析ツールを使用して、説明の文構造を識別し、主語-述語-目的語のトリプルが定義されたローカルシーンを抽出して生成します。

3. シーングラフのマッチング: モデルは、同じオブジェクトセマンティックラベルに基づいてグローバルシーングラフとローカルシーングラフのノードをマッチングし、エッジ関係を拡張して位置情報を提供することで仮想人間ノードを自動的に追加します。

パーツレベルアクション（PLA）メカニズム

シーン内の人々の相互作用は、身体部位の原子状態で構成されているため、著者らは、モデルが特定の相互作用から重要な部分に注意を払い、無関係な部分を無視できるようにする、きめ細かい部分レベルのアクションメカニズムを提案しています。

具体的には、著者らは豊富で多様なインタラクティブなアクションを調査し、これらの可能なアクションを人体の 5 つの主要部分 (頭、胴体、左腕/右腕、左手/右手、左下半身/右下半身) にマッピングしました。

同時に、これらのアクションと体の部位を表すためにワンホットエンコーディングが使用され、それらは後続のエンコーディングのために対応する関係に従って接続されます。

複数のアクションをインタラクティブに生成するために、著者らは注意メカニズムを使用して、体の構造のさまざまな部分の状態を学習します。

特定のインタラクティブなアクションの組み合わせでは、各アクションに対応する体の部分と他のすべてのアクション間の注意が自動的にブロックされます。

「キャビネットを使って地面にしゃがんでいる人」を例にとると、しゃがんでいる状態は下半身の状態に相当するため、他の部分でマークされている注意力がゼロにブロックされます。

シーン認識の最適化

著者らは、生成結果を改善するために、幾何学的制約と物理的制約を使用してシーンを考慮した最適化を実行します。この方法は、最適化プロセス全体を通じて、生成されたポーズが逸脱しないようにすると同時に、シーンとの接触を促進し、シーンとの相互浸透を避けるために体を制約します。

3D シーン S と生成された SMPL-X パラメータが与えられた場合、最適化損失は次のようになります。

その中には、人体の頂点がシーンに接触するように促すもの、符号付き距離に基づく衝突項があるもの、シーンと人体の間でサンプリングされた等距離の点のセットである既存の作業と比較して追加で導入されたインタラクティブ二分面 (IBS) 損失があるもの、初期化から逸脱したパラメータにペナルティを課すために使用される正規化係数があるものがあります。

複数人シーンインタラクション (MHSI)

現実世界のシナリオでは、多くの場合、シーンと対話するのは 1 人だけではなく、複数の人が独立して、または関連して対話します。

しかし、MHSI データセットが不足しているため、既存の方法では通常、追加の手作業が必要となり、このタスクを制御可能かつ自動的に処理することができません。

この目的のために、著者らは、既存の単一人物データセットのみを使用して複数人物を生成するためのシンプルでありながら効果的な戦略を提案しています。

複数の人物に関連するテキスト記述が与えられた場合、著者らはまずそれを複数のローカルシーングラフとインタラクションアクションに解析し、候補セットをと定義します。ここで、l は人物の数です。

候補セット内の各項目は、まずシーンと対応するグローバルシーングラフとともにナレーターに入力され、次に最適化プロセスが実行されます。

人々の衝突に対処するために、最適化プロセスに、人々の間の符号付き距離という追加の損失が導入されます。

次に、最適化損失が実験経験に基づいて決定されたしきい値よりも低い場合、生成された結果が受け入れられ、人間のノードを追加することによって更新されます。それ以外の場合、生成された結果は信頼できないと見なされ、対応するオブジェクトノードをブロックすることによって更新されます。

この更新方法では、各世代の結果と前の世代の結果との関係を確立し、ある程度の混雑を回避し、単純な複数世代と比較して、より合理的な空間分布とより現実的な相互作用を持つことが注目に値します。

上記のプロセスは次のように表現できます。

実験結果

既存の手法ではテキスト記述から人間とシーンのインタラクションを自然かつ制御可能に生成することができないため、著者らはPiGraph [1]、POSA [2]、およびCOINS [3]をテキスト記述に適したものに合理的に拡張し、同じデータセットを使用して公式モデルをトレーニングしました。修正された手法は、PiGraph-Text、POSA-Text、およびCOINS-Textとして定義されます。

写真

図3 異なる手法の定性的な比較結果

図 3 は、ナレーターと 3 つのベースラインの定性的な比較結果を示しています。 PiGraph-Text には、独自の表現の制限により、より深刻な侵入問題があります。

POSA-Text は最適化中に局所的最小値に陥りやすく、その結果、インタラクションが悪くなります。 COINS-Text はアクションを特定のオブジェクトにバインドし、シーンの全体的な認識が欠如しているため、不特定のオブジェクトに浸透し、複雑な空間関係を処理することが困難です。

対照的に、ナレーターはさまざまなレベルのテキスト記述に基づいて空間関係を正しく推測し、複数のアクションにおける身体の状態を分析できるため、より優れた生成結果を実現できます。

定量的な比較では、表 1 に示すように、ナレーターは 5 つの指標すべてにおいて他の方法よりも優れており、この方法で生成された結果はより正確なテキストの一貫性とより優れた物理的合理性を備えていることがわかります。

表1 異なる方法の定量的比較結果

さらに、著者らは、提案された MHSI 戦略の有効性をより深く理解するために、詳細な比較と分析も提供しています。

MHSI に関する既存の研究がないことを考慮して、彼らはベースラインとして、COINS を使用して順次生成および最適化される単純なアプローチを選択しました。

公平な比較を行うために、人工的な衝突損失も導入されます。図 4 と表 2 はそれぞれ定性的および定量的結果を示しており、どちらも MHSI における意味的一貫性と物理的合理性の観点から提案された戦略の利点を強く示しています。

図4 COINSを用いて逐次生成・最適化した手法とMHSIの定性的な比較