ひと口引くとバラが生き返ります! Googleは画像ダイナミクスを生成することを提案しており、すべてのものに魂が宿ることになる

ひと口引くとバラが生き返ります! Googleは画像ダイナミクスを生成することを提案しており、すべてのものに魂が宿ることになる

ほら、軽く引っ張るとバラが動きますよ。

葉を左にドラッグすると、松の木も同じ方向に移動します。

引っ張るだけで瞬時に動き出す、世界中のさまざまな物体の写真もあります。

これは Google チームの最新の研究で、手を「魔法の黄金の指」に変えて、ワンタッチであらゆるものを動かすことができるようになります。

https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf

この論文で、Google は、画像空間を事前にモデル化し、そのモデルをトレーニングして「ニューラル ランダム モーション テクスチャ」を予測する「Generative Image Dynamics」を提案しました。

最後に、単一の画像を操作して、無限にループするビデオを生成することもできます。

将来、アーティストの想像力は従来の枠組みに制限されなくなり、このダイナミックなイメージ空間ですべてが可能になります。

写真の中のすべてが生き生きとしている

世の中のあらゆるものの動きはマルチモーダルです。

庭に干してあった洗濯物が風に揺れていた。

通りに吊るされた大きな赤い提灯が空中に揺れていた。

カーテンのそばには、呼吸に合わせてお腹を上下させながら、とても怠け者のように眠っている子猫もいます。

これらの動きは多くの場合予測可能です。ろうそくは特定の方法で燃え、木は風に揺れ、葉はカサカサと音を立てます...

研究者は写真を撮れば、その写真が撮影されたときにそれがどのように動いたかを想像できるかもしれない。

近年の生成モデル、特に拡散モデルの発展により、非常に豊富で複雑な分布をモデル化できるようになりました。

これにより、テキストから任意のリアルな画像を生成するなど、これまで不可能だった多くのアプリケーションが可能になります。拡散モデルは、画像分野での応用に加えて、ビデオのモデル化にも使用できます。

そのため、この研究では、Google チームは、画像空間シーンの動き、つまり単一の画像内のすべてのピクセルの動きの生成事前確率をモデル化しました。

このモデルは、多数の実際のビデオ シーケンスから自動的に抽出された動作軌跡に基づいてトレーニングされます。

入力画像に基づいて、トレーニングされたモデルは「ニューラル確率的モーションテクスチャ」を予測します。これは、各ピクセルの将来の軌道を記述するモーション基底係数のセットです。

Google の研究者は、風に揺れる木や花など、自然な揺れのダイナミクスを持つ現実世界のシーンに研究を限定し、基底関数としてフーリエ級数を選択しました。

次に、ニューラルランダムモーションテクスチャは拡散モデルを使用して予測されます。拡散モデルは、一度に 1 つの周波数の係数を生成し、これらの予測を周波数帯域全体で調整します。

結果として得られる周波数空間テクスチャは、将来のフレームを合成するために使用できる高密度の長距離ピクセルモーション軌跡に変換され、静止画像をリアルなアニメーションに変換できます。

次に、それがどのように実装されているかを詳しく見てみましょう。

技術紹介

研究者の目標は、単一の画像に基づいて動的な木々、花、風に揺れるろうそくの炎などを表現できる長さ T のビデオを生成することです。

研究者らが構築したシステムは、「行動予測モジュール」と「画像ベースレンダリングモジュール」の2つのモジュールで構成されています。

まず、研究者らは潜在拡散モデルを使用して、入力画像のニューラルランダムモーションテクスチャを予測しました

これは、入力画像内の各ピクセルの動きの軌跡の周波数表現です。

2 番目のステップでは、予測されたランダム モーション テクスチャが、逆離散フーリエ変換を使用して一連のモーション変位フィールドに変換されます

これらのモーション変位フィールドは、将来の各タイムステップでの各入力ピクセルの位置を決定するために使用されます。

研究者のレンダリング モジュールは、これらの予測されたモーション フィールドを使用して、画像ベースのレンダリング技術を使用して、入力 RGB 画像からエンコードされた特徴を取得し、取得したこれらの特徴を画像合成ネットワークを通じて出力フレームにデコードします。

ニューラルランダムモーションテクスチャ

モーションテクスチャ

これまでの研究では、モーションテクスチャは、一連の時間変化する 2D 変位マップとして定義されていました。

ここで、各ピクセル座標 p について、入力画像からの 2D 変位ベクトルは、将来の時刻 t におけるそのピクセルの位置を定義します。

時刻 t における将来のフレームを生成するには、対応する変位マップを使用し、そこからピクセルを選択して、前方にワープした画像を取得します。

ランダムモーションテクスチャ

コンピュータ グラフィックスの研究で以前実証されたように、多くの自然の動き、特に振動の動きは、異なる周波数、振幅、位相によって表される少数の調和振動子の重ね合わせとして説明できます。

動きにランダム性を導入する 1 つの方法は、ノイズ フィールドを統合することです。しかし、これまでの研究で示されているように、予測されたモーション フィールドの空間領域と時間領域にランダム ノイズを直接追加すると、非現実的または不安定なアニメーションになることがよくあります。

さらに、上で定義した時間領域でモーション テクスチャを使用するということは、T フレームを含むビデオ クリップを生成するために T 2D 変位フィールドを予測する必要があることを意味します。このような大規模な出力表現を予測することを避けるために、これまでの多くのアニメーション手法では、ビデオ フレームを自己回帰的に生成するか、追加の時間的埋め込みを介して将来の各出力フレームを個別に予測していました。

ただし、どちらの戦略でも、生成されたビデオ フレームが長期的に時間的に一貫していることを保証することはできず、時間の経過とともにドリフトしたり発散したりするビデオが生成される場合があります。

上記の問題を解決するために、研究者らは入力シーンのピクセルごとの動きのテクスチャを周波数領域(つまり、すべてのピクセルの完全な動きの軌跡)で表現し、動き予測問題をマルチモーダルな画像から画像への変換タスクとして定式化しました。

研究者らは潜在拡散モデル (LDM) を使用して、4K チャネルの 2D モーション スペクトログラムで構成されるランダム モーション テクスチャを生成しました。ここで、K << T はモデル化された周波数の数であり、各周波数で、研究者らは x 次元と y 次元の複素フーリエ係数を表すために 4 つのスカラーを必要としました。

下の画像は、これらのニューラルランダムモーションテクスチャを示しています。

では、研究者が示す K 出力周波数はどのように選択すればよいのでしょうか?リアルタイムアニメーション これまでの研究では、ほとんどの自然な振動運動は主に低周波成分で構成されていることがわかっています。

この仮説を検証するために、研究者らはランダムにサンプリングした 5 秒間の実際のビデオ クリップ 1,000 本から抽出した動きの平均パワー スペクトルを計算しました。下の左の図に示すように、電力は主に低周波成分に集中しています。

動作の周波数スペクトルは、周波数が増加するにつれて指数関数的に減少します。これは、ほとんどの自然振動運動が低周波項によって実際にうまく表現できることを示しています。

実際には、研究者たちは、最初の K = 16 のフーリエ係数が、さまざまな実際のビデオやシーンで元の自然な動きを忠実に再現するのに十分であることを発見しました。

拡散モデルを用いた行動予測

研究者らは、潜在拡散モデル (LDM) をアクション予測モジュールの中核として選択しました。これは、LDM が生成品質を維持しながらピクセル空間拡散モデルよりも計算効率が高いためです。

標準 LDM は主に 2 つのモジュールで構成されます。

1. 変分オートエンコーダ(VAE)は、エンコーダz = E(I)を介して入力画像を潜在空間に圧縮し、デコーダI = D(z)を介して潜在的な特徴から入力を再構築します。

2. ガウスランダムノイズから始めて潜在的な特徴を反復的にノイズ除去することを学習する、U-Net に基づく拡散モデル。

研究者らは、入力画像にトレーニングを適用する代わりに、実際のビデオシーケンスからランダムなモーションテクスチャを適用し、これをエンコードしてから、定義済みの分散スケジュールで n ステップ拡散して、ノイズのある潜在変数 zn を生成しました。

周波数適応正規化

研究者たちは、ランダムな動きのテクスチャが周波数において特定の分布特性を持っているという問題に気づきました。上の左の図に示すように、研究者のモーションテクスチャの振幅は 0 から 100 の範囲にあり、周波数が増加するにつれてほぼ指数関数的に減少します。

拡散モデルでは、安定したトレーニングとノイズ除去のために出力値が 0 から 1 の間である必要があるため、研究者は実際のビデオから抽出した S 係数をトレーニングに使用する前に正規化する必要がありました。

研究者が画像の幅と高さに基づいてS係数の大きさを[0,1]にスケーリングすると、上図(右)に示すように、高周波数ではほぼすべての係数がゼロに近くなります。

このようなデータでトレーニングされたモデルは、推論中に、正規化された S 係数の大きさがゼロに非常に近い場合、小さな予測誤差であっても非正規化後に大きな相対誤差につながる可能性があるため、不正確なアクションを生成する可能性があります。

この問題に対処するために、研究者らはシンプルだが効果的な周波数適応型正規化技術を採用した。具体的には、研究者らはまず、トレーニング セットから計算された統計に従って、各周波数におけるフーリエ係数を個別に正規化しました。

周波数調整によるノイズ除去

K 個の周波数帯域を持つランダム アクション テクスチャ S を予測する最も簡単な方法は、標準の拡散 U-Net から 4K チャネルを持つテンソルを出力することです。

ただし、このような多数のチャネルを生成するようにモデルをトレーニングすると、過度に滑らかで不正確な出力が生成されることがよくあります。

別のアプローチは、LDM に追加の周波数埋め込みを挿入することで、個々の周波数でアクション スペクトログラムを個別に予測することですが、これにより周波数領域で相関のない予測が行われ、非現実的なアクションが生成されます。

そこで研究者らは、下の図に示す周波数調整型ノイズ除去戦略を提案しました。具体的には、入力画像 I0 が与えられた場合、研究者はまず LDM をトレーニングして、4 つのチャネルを持つ個々の周波数ごとにランダム アクション テクスチャ マップを予測します。ここで研究者は、時間ステップの埋め込みとともに追加の周波数の埋め込みを LDM ネットワークに挿入します。

画像ベースのレンダリング

研究者らはさらに、与えられた入力画像I0に対して予測されたランダムモーションテクスチャSを使用して、将来の時刻tにフレームˆItをレンダリングする方法についても説明しています。まず、研究者らは逆時間領域FFT(高速フーリエ変換)を使用して、各ピクセルポイントpにおける動きの軌跡フィールドを計算した。

これらのモーション軌道フィールドは、将来の各タイムステップにおける各入力ピクセルの位置を決定します。将来のフレーム It を生成するために、研究者はディープ イメージ ベースのレンダリング技術を採用し、予測されたモーション フィールドを使用して前方スプラッティングを実行し、エンコードされた I0 をワープします (下の図を参照)。

前方ワーピングによって画像に穴があいたり、複数のソース ピクセルが同じ出力 2D 位置にマッピングされたりする可能性があるため、研究者はフレーム補間研究で以前に提案された特徴ピラミッド Softmax ワーピング戦略を採用しました。

実際のビデオからランダムにサンプリングされた開始フレームとターゲットフレームを使用して、特徴抽出器と合成ネットワークを共同でトレーニングします。ここでは、I0 から It への推定フローフィールドを使用して、I0 のエンコードされた特徴をワープし、予測された ˆIt を VGG 知覚損失で監視します。

上の図に示すように、直接平均ワーピングやベースライン ディープ ワーピング手法と比較すると、研究者の動き認識機能ワーピングでは、穴やアーティファクトのないフレームが生成されます。

さらに拡張されたアプリケーション

研究者らはさらに、研究者らが提案したモーション表現とアニメーションのプロセスを使用して、単一の静止画像に動的な効果を追加するアプリケーションを実証しました。

画像からビデオへ

研究者のシステムは、まず入力画像からニューラルランダムモーションテクスチャを予測し、ランダムモーションテクスチャから得られたモーション変位フィールドに研究者の画像ベースのレンダリングモジュールを適用することで、単一の静止画像をアニメーション化します。

研究者らはシーンの動きを明示的にモデル化したため、動きの変位フィールドを線形補間してスローモーションビデオを生成し、予測されたランダムな動きのテクスチャ係数の振幅を調整することでアニメーションの動きを増幅(または縮小)することができました。

シームレスループ

シームレスなループモーション、つまりビデオの開始と終了の間に外観や動きの不連続がないビデオを生成すると便利な場合があります。

残念ながら、シームレスにループするビデオの大規模なトレーニング セットを見つけるのは困難です。そこで研究者たちは、通常のループしないビデオクリップでトレーニングしたモーション拡散モデルを使用して、シームレスにループするビデオを作成する方法を設計しました。

ガイド付き画像編集に関する最近の研究にヒントを得た研究者のアプローチは、明示的なループ制約を使用してモーションノイズ除去サンプリングプロセスをガイドするモーションセルフガイド技術です。

具体的には、推論段階の各反復ノイズ除去ステップで、研究者は標準的な分類器なしのガイダンスの横に追加のモーションガイダンス信号を組み込み、開始フレームと終了フレームの各ピクセルの位置と速度が可能な限り同じになるようにしました。

1枚の画像からインタラクティブなアニメーションを生成する

振動する物体の観測ビデオ内の画像空間運動スペクトルは、その物体の物理的な振動モード基底を近似します。

モード シェイプは、さまざまな周波数でのオブジェクトの振動ダイナミクスをキャプチャするため、オブジェクトの振動モードの画像空間投影を使用して、オブジェクトが突いたり引っ張ったりするなどのユーザー定義の力にどのように反応するかをシミュレートできます。

そこで研究者らは、物体の運動は一連の調和振動子の重ね合わせによって説明できると仮定する、以前の研究からのモード解析技術を使用した。

これにより、研究者は、物体の物理的応答の画像空間 2D モーション変位フィールドを、各シミュレーション時間ステップ t および時間 t におけるフーリエスペクトル係数と複素モード座標の加重和として記述できるようになりました。

実験的評価

研究チームは、未公開のビデオクリップのテストセットで、最新の方法とベースライン方法の定量的な比較を実施しました。

結果は、Google の方法が、画像とビデオの合成品質の両方において、以前の単一画像アニメーションの基準を大幅に上回っていることを示しています。

具体的には、Google の FVD 距離と DT-FVD 距離がはるかに低く、この方法ではよりリアルで時間的に一貫性のある動画が生成されることがわかります。

さらに、図6は、さまざまな方法で生成されたビデオのスライディングウィンドウFIDとスライディングウィンドウDT-FVD距離を示しています。

Google はグローバルなランダム モーション テクスチャ表現を使用するため、この方法で生成される動画は時間的に一貫性が高まり、時間の経過とともにドリフトしたり品質が低下したりすることはありません。

さらに、Google チームは、自社の手法で生成された動画とベースラインで生成された動画の視覚的な定性的な比較を 2 つの方法で実施しました。

まず、図 7 に示すように、生成されたビデオの Xt 時空間スライスが表示されます。

Google が生成した動画のダイナミクスは、対応する実際の参照動画 (2 列目) で観察されるモーション パターンに似ています。ランダム I2V や MCVD などのベースラインでは、時間の経過に伴う外観や動きを現実的にモデル化することはできません。

また、予測画像とそれに対応する動きの変位フィールドを t = 128 の時点で視覚化することにより、生成された個々のフレームと動きの品質をさまざまな方法で定性的に比較します

他の方法と比較して、私たちの方法で生成されたフレームはアーティファクトと歪みが少なく、対応する 2D モーション フィールドは、対応する実際のビデオから推定された参照変位フィールドに最も類似しています。

アブレーション研究: 表 2 から、より単純な構成や代替構成はすべて、完全なモデルと比較してパフォーマンスが低下することがわかります。

著者について

李正奇

Zhengqi Li は Google Research の研究科学者です。彼の研究対象には、3D/4D コンピューター ビジョン、イメージ ベース レンダリング、計算写真術 (特に自然画像とビデオ) が含まれます。彼は、ノア・スナベリーの指導の下、コーネル大学でコンピューターサイエンスの博士号を取得しました。

彼は、CVPR 2019 最優秀論文佳作賞、2020 Google PhD フェローシップ、2020 Adob​​e Research フェローシップ、2021 Baidu Global AI Top 100 China Rising Star Award、および CVPR 2023 最優秀論文佳作賞を受賞しています。

<<:  旅の途中+第2世代、「バルペンハイマー」完成までの7つのステップにカルパシーが驚愕 | 実際のテスト体験を添付

>>:  LangChain と DeepInfra を使用してカスタマー サポート チャットボットを構築するためのガイド

ブログ    

推薦する

マッキンゼーのパートナー、カレル・エルート氏:「3×Simpler」は産業用ロボットのユーザーエクスペリエンスを向上させます

2年前、イタリアのテノール歌手アンドレア・ボチェッリがイタリアのピサにあるヴェルディ劇場でルッカ・フ...

声を上げてください! MakeItTalkの魔法でモナリザと会話できる

最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼...

...

AI後の生活

人工知能は人類史上最も革命的な技術の一つとなるでしょう。 AI テクノロジーが発展するにつれて、どの...

ゴミ分別ロボットが登場! 1分間に80個の仕分けが可能、人間の2倍の速さ

[[270507]]画像: AMP Robotics の特注マシンは、1 分間に 80 個のアイテム...

人工知能は非常に人気があります。PULSE は低品質のモザイク画像を保存し、数秒で高解像度の画像に変換できます。

[51CTO.com オリジナル記事] モザイクとはどういう意味ですか?従来のモザイクは、主に映画...

...

...

...

米政府、AIの競争力と倫理について助言する委員会を設立

[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...

ヘルスケアにおけるAIの加速

[[407769]]ヘルスケア業界における人工知能の活用AI技術が進歩するにつれて、その応用も拡大し...

データ管理はAI革命の最大の課題となるでしょうか?

最新のデータへの投資は人工知能の拡張を成功させる上で重要ですが、調査によると、企業の半数がコストの障...

スマートオフィス管理におけるAIの役割

スマート オフィスの概念は新しいものではありませんが、企業のオーナーや管理者が自動化の生産性の価値を...

GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

1週間前、ChatGPTはメジャーアップデートを受けました。GPT-4とGPT-3.5の両モデルは、...