たった2枚の写真でAIは完全なモーションプロセスを生成できる

たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

まず横顔(キーフレーム1)を作成します。

もう一つの正面顔(キーフレーム 2)は次のとおりです。

そして、この 2 枚の写真だけに基づいて、AI は動作プロセス全体を生成できます。

そして、単純なものだけではなく、運動中のまばたきの動作までもが「きちんと処理」されています。

この効果が明らかになるとすぐに、Reddit で白熱した議論が巻き起こりました。

たった 2 つのキーフレームで完全なモーションを実現するにはどうすればよいでしょうか?

長いトレーニングプロセスは必要ありません。

大規模なトレーニング データセットは必要ありません。

これらは、論文の著者らが提示したこの研究の 2 つのハイライトです。

具体的には、キーフレームに基づいてビデオをスタイリングする作業です。

まず、N フレームで構成されるビデオ シーケンス I を入力します。各フレームには、関心領域を分割するマスク Mi があります。

以前の方法とは異なり、このスタイル転送は、前のフレームが最初にスタイル設定されるのを待たずにランダムな順序で実行され、異なるキーフレームからのスタイル設定されたコンテンツを明示的にマージする必要もありません。

つまり、この方法は実際には、複数の異種の手描きの例 Sk からスタイルをすばやく学習し、それをビデオ シーケンス I 内の任意のフレームに「変換」できる変換フィルターです。

この画像変換フレームワークは、U-net に基づいて実装されています。さらに、研究者らは、少数サンプルのトレーニングと時間的一貫性の問題を解決するために、パッチベースのトレーニング方法とビデオのちらつきを抑制するソリューションを採用しました。

過剰適合を避けるために、研究者は画像パッチベースのトレーニング戦略を採用しました。

画像パッチのセット (a) は元のキーフレーム (Ik) からランダムにサンプリングされ、その様式化された対応物 (b) がネットワーク内で生成されます。

次に、これらの様式化された対応物 (b) の損失は、様式化されたキーフレーム (Sk) からサンプリングされた対応する画像パッチを基準にして計算され、誤差が逆伝播されます。

このようなトレーニング スキームは、特定の損失関数に限定されません。この研究では、L1損失、敵対的損失、VGG損失の組み合わせが使用されました。

もう一つの問題はハイパーパラメータの最適化です。

不適切なハイパーパラメータにより推論の品質が低下する可能性があるためです。

研究者らは、グリッド検索法を使用して、ハイパーパラメータの 4 次元空間をサンプリングしました。Wp はトレーニング画像ブロックのサイズ、Nb はバッチ内のブロック数、α は学習率、Nr は ResNet ブロックの数です。

各ハイパーパラメータ設定について:

(1)一定時間トレーニングを行う。

(2)見えないフレームについての推論

(3)推定フレーム(O4)と真の値(GT4)間の損失を計算する。

目標はこの損失を最小限に抑えることです。

チームについて

この研究は、プラハのチェコ工科大学コンピュータグラフィックスおよびインタラクション学科の博士課程学生であるオンドレイ・テクスラーによって実施されました。

[[397471]]

この仕事に加えて、彼と彼のチームはこれまでにも多くの興味深い仕事を行ってきました。

例えば、手を動かしながら絵を描くこともできます。

例えば、漫画の絵が与えられた場合、動画の中のあなたにその絵を使って自分自身を表現させることができます。

この興味深い研究について詳しく知るには、以下のリンクをクリックしてください。

参考リンク:

[1] https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/
[2] https://ondrejtexler.github.io/patch-based_training/index.html

<<:  10億のパラメータを持つAIモデルSE​​ERは、すべての人を平等に扱い、富裕層と世界に貢献します。

>>:  「幾何学的ディープラーニング」からのディープラーニングの統合

ブログ    
ブログ    
ブログ    

推薦する

デザイナーがAIについて語る:「デザインは最終的に完全に消滅するだろう」

デザイン界では有名なブランド、フィリップ・スタルク。国際宇宙ステーションの居住モジュールからスティー...

...

大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...

...

成功するAIチームの特徴

今日の時代では、人々は目標を達成するために人工知能 (AI) にますます依存するようになっています。...

OpenAI は ChatGPT 機能のアップデートを多数リリースする予定ですが、そのうちいくつご存知ですか?

OpenAI 開発者関係の専門家 Logan Kilpatrick 氏は、ソーシャル メディアに「...

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90%は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

一夜にしてプログラマーは仕事を見つけられなくなるようですね?海外メディアのマザーボードとブラインドが...

単一ニューロンは将来の活動を予測することで学習し、脳の働きを説明するのに役立つ。

何世紀にもわたり、人類は脳がどのように機能し、どのように情報を獲得するかを理解しようとしてきました。...

神々の中年の戦いが始まった。どの国内大型モデルが華山の頂上を勝ち取ることができるのか?

2023年も半ばを過ぎた現在、ビッグモデルは爆発後のメタバースのように冷めることなく、ますます活発...

無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...

機械読解とは何ですか?これは自然言語処理とどのような関係があるのでしょうか?

[[324510]] 01 機械読解タスク2002 年に発表された論文で、学者の C. スノーは読...

なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

よく使われる「生成AIフレームワーク」を1つの記事で理解する

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...