生成 AI は、インターネット上の重要なコンテンツ ソースとなっています。AI によって生成されたテキスト、コード、オーディオ、画像、ビデオ、アニメーションを見ることができます。本日は、リトアニアのブロガー兼アニメーターである auleris による記事をご紹介します。この記事では、アニメーション分野で使用されている生成 AI 技術を、簡単な紹介、例、長所と短所、関連ツールなどを含めてレベル別に紹介および分類しています。 「アニメーターとして、可能性と新たな展開の混沌としたインターネットを独力で切り抜けなければならなかった1年前に、このようなリソースが利用できていればよかったのに」と彼は書いている。 この記事は、この分野に興味のある人、特に AI 分野における新しい技術開発にどう対処すればよいかわからないアニメーターやクリエイティブな人々を対象としています。なお、ビデオのスタイル設定も関連技術ですが、この記事では基本的にこの側面については取り上げません。 この記事の記事構造。 画像生成画像生成技術とは、静止画像を用いて学習したAIモデルを用いて画像を生成する技術を指します。 生成された画像を素材として利用する 任意の AI アプリケーションによって生成された静止画像を、2D クリップアート、デジタル操作、コラージュなどの従来のワークフローの素材として使用したり、image2video ツールに提供してビデオを生成するなど、他の AI ツールのリソースとして使用したりできます。このタイプのテクノロジーは、画像や映像のソースであることに加えて、カットや画像編集などの一般的なスキルも必要とします。 短編映画「Planets and Robots」では、生成された AI 画像をアニメーション化するためにデジタル クリップアートが使用され、ナレーションも LLM を使用してスクリプトから生成されました。 アドバンテージ:
欠点:
無料ツール(任意の画像生成モデルまたはアプリ):
プラグインとアドオン:
Hugging face space には無料のデモもいくつかあります: https://huggingface.co/spaces 有料ツール(画像を生成するモデルまたはアプリ):
注: アニメーション制作に使用されるツールには、After Effects、Moho、Blender などがあります。 フレームごとに画像を生成する このタイプのテクノロジーは、アニメーションのルーツに基づいた精神で生成拡散画像モデルを使用し、従来のアニメーション制作の描画と撮影のプロセスと同様に、フレームごとにアクション シーケンスを生成します。鍵となる点の 1 つは、これらのモデルは各画像を生成する際に時間や動きの概念を持たず、代わりに何らかのメカニズムやさまざまなアプリケーションや拡張機能を使用して、ある程度のアニメーションを実現し、いわゆる「時間的一貫性」を実現することです。 これらの手法では、ちらつくアニメーションが生成されることがよくあります。これらのツールのユーザーの多くは、ちらつきをきれいにするために一生懸命働いていますが、アニメーターはこれをボイリングと呼ばれる芸術形式だと考えています。 この点で最も一般的に使用されているのは、Stable Diffusion などのオープンソース モデルと、その上に構築されたツールです。ユーザーは公開されたパラメータを使用してそれらを設定し、ローカル マシン上で実行できます。対照的に、MidJourney ツールのモデルは公開されておらず、主に画像生成用に設計されているため、フレームごとのアニメーションを生成するために使用することはできません。 アニメーションは、Stable WarpFusion を使用して作成することもできます。これは、基になるビデオ入力を歪み (変位) を使用してアニメーション化する、画像から画像へのワークフローを伴います。 Sagansによるビデオ。 フレームごとの画像を使用してアニメーションを作成するには、通常、次のツールを組み合わせる必要があります。 ワンストップツール(テキストから画像へ) テキスト プロンプトとパラメーター構成を通じてアニメーションを直接サポートする新しいテクノロジがいくつかあります。
生成された各画像フレームでパラメータが徐々に補間され、遷移アニメーションが得られます。ここでのパラメータには、テキスト プロンプト自体や基礎となるシード (潜在的な空間ウォーク) など、モデル関連の設定が含まれる場合があります。 徐々に重みを変化させることでアニメーショントランジションを作成するプロンプト編集方法。ここでは、手の全体的な形状の一貫性を保つために、Depth ControlNet が使用されています。
生成された各画像フレームは、画像間技術を通じてアニメーションの次のフレームを生成するための入力として使用されます。これにより、他のパラメータとシードが変化した場合でも、同様の外観のフレーム シーケンスを生成できます。このプロセスは通常、Deforum の「ノイズ除去の強度」または「強度スケジュール」によって制御されます。開始フレームは既存の画像にすることができます。 これは、以下の多くのアプリケーションが依存しているテクノロジである Stable Diffusion を使用するほとんどのアニメーション実装のコア コンポーネントです。この手法はバランスを取るのが難しく、使用するサンプラー (ノイズ スケジューラー) に大きく依存します。 1 つの開始画像を使用し、わずかに異なるプロンプトを使用してフレームごとに変更します。
各フレームは徐々に変換されて画像が生成され、それが I2I ループへの入力として使用されます。 2D 変換は、単純な移動、回転、およびスケーリングに対応します。 3D 技術では、3D 空間で移動する仮想カメラを想像します。通常、これには各フレームに対して生成される画像の 3D 深度を推定し、想像上のカメラの動きに基づいて変形処理を実行することが必要になります。 このような無限に拡大されたアニメーションを見たことがあるでしょう。この作品が視覚的に素晴らしいのは、SD を使用して新しい詳細を継続的に構築しているからです。
モーション合成の目的は、連続して生成されるフレーム間のモーションフローを「想像」し、このモーションフローを使用してフレームごとに変形処理を実行し、I2I サイクルに基づいて有機的なモーションを注入することです。これには通常、ビデオからの動き推定 (オプティカルフロー) でトレーニングされた AI モデルに依存する必要がありますが、後続のビデオ フレームに焦点を当てるのではなく、後続の生成されたフレーム (I2I ループ経由) に焦点を当てるか、ハイブリッド アプローチを使用します。 その他の技術には、画像復元と変形技術を組み合わせたり、複数の処理ステップを使用したり、モデルトレーニングプロセスのスナップショットをキャプチャしたりするなどの高度な技術が含まれます。たとえば、Deforum にはユーザーによる制御機能がたくさんあります。 生成されたフレーム間で錯覚的な動きを生み出す独自の手法を使用する SD-CN アニメーションで制作されました。開始画像は単なる開始点であり、他の目的はありません。 変換テクニック(画像から画像へ): ソースからの入力を使用してフレームとアニメーション結果を生成することもできます。
入力ビデオを使用して生成されたシーケンスをミックスし、影響を与える方法は多岐にわたります。これらの入力ビデオは通常、複数のフレームに分割されており、その目的は、リアルなビデオを様式化することです。この種の技術は、昨今の様式化されたダンスビデオやパフォーマンスの流行の中で、アニメのような外見やセクシーな体格を実現するためによく使用されています。ただし、独自のアニメーションの大まかなフレームや、乱雑で抽象的なビデオ録画など、何でも入力として使用できます。このタイプのテクノロジーは、ストップモーションやピクセル化などの置換アニメーション技術をエミュレートする点で、幅広い可能性を秘めています。 各フレームでは、入力フレームを生成された画像と直接混合して各 I2I ループにフィードバックすることも、ControlNet などのより高度な調整アプローチを使用することもできます。 Deforum と ControlNet 条件付き処理をハイブリッド モードで組み合わせたものです。左の写真は元のビデオです。マスキングと背景のぼかしは別々に実行され、この手法とは関係ありません。
オプティカルフローは、ビデオ内の推定された動きを指し、各フレームの動きベクトルによって表され、画面空間内の各ピクセルの動きを示します。ワーピング ワークフローでソース ビデオのオプティカル フローを推定すると、それに基づいて生成されたフレームをワープできるため、オブジェクトまたはカメラが移動しても、生成されたテクスチャがオブジェクトに「固定」されます。 Deforum のハイブリッド モードでは、このテクニックをさまざまなセットアップで使用できます。ちらつきの少ない結果を得るために、ケイデンスも増加し、変形効果が向上します。マスキングと背景のぼかしは別々に実行され、この手法とは関係ありません。
ワーピング ワークフローを介して行われる調整は、3D データに対して直接行うこともできます。これにより、ぼやける可能性のあるステップをスキップし、ビデオ フレームに対して直接行うことができます。 たとえば、OpenPose または深度データは、ビデオ (または CG レンダリングされたビデオ) から推定するのではなく、仮想 3D シーンから直接提供できます。これにより、特に時間的な一貫性を促進する方法と組み合わせると、最もモジュール化され制御可能な 3D ネイティブ アプローチが可能になります。 これはおそらく、次のビデオに示されているように、既存の技術と VFX の AI のクロスオーバーの可能性が最も高い領域です。https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm この技術は、ControlNet に直接適合する Blender からの文字グラフィック生成プロセスを簡素化および自動化する、広く使用されているツールでも使用されています。この例では、ControlNet は手のスケルトンを使用して、オープンポーズ、深度、法線マップ画像を生成し、最終的に右端の SD 結果を生成します。 (Openpose は、手だけに適していないことが判明したため、最終的に廃止されました。) これらすべてのテクニックを組み合わせると、結果として得られるアニメーションを微調整するためのパラメーターは無限にあるように見えます (モジュラー オーディオ制作とよく似ています)。キーフレームを通じて「スケジュール」し、Parseq などのツールを使用して描画することも、オーディオや音楽にリンクして、オーディオに合わせて変化する多くのアニメーションを取得することもできます。これで完了です。安定した拡散を使用してダンスを行うことができます。 アドバンテージ:
欠点:
無料ツール: A1111 WebUI で利用可能なツール:
プラグインとアドオン:
有料ツール: (通常は SD にも依存しますが、「クラウド」上で実行されるため、より簡単に使用できます):
プラグインとアドオン:
市場には他にも多くのアプリケーションやツールがありますが、有料ツールの場合、そのほとんどはオープンソースの Deforum コードに基づいています。 注: 最良のシナリオは、これらのツールをローカルで実行するのに十分なハードウェア (GPU など) があることです。そうでない場合は、Google Colab など、リモート コンピューターで実行される機能が制限された無料サービスを試すこともできます。ただし、Google Colab 上のノートブックはローカル ハードウェアでも実行できます。 ビデオ生成技術このタイプのテクノロジーは、モーション ビデオでトレーニングされたビデオ生成 AI モデルを使用し、ニューラル ネットワーク レベルでの時間圧縮を使用して強化できます。 現在、これらのモデルの共通の特徴は、非常に短いビデオ クリップ (数秒) しか処理できず、GPU で使用可能なビデオ メモリによって制限されることです。しかし、この分野は急速に発展しており、複数の生成結果をつなぎ合わせてより長いビデオを作成する方法もあります。 ビデオ生成モデル これは、ゼロから構築およびトレーニングされたモデルを使用してビデオを処理することを指します。 現在、このようなモデルによって得られる結果は、非常に不安定で、明らかに AI の痕跡があり、奇妙に見えることがよくあります。昔画像を生成したAIモデルと同じですね。この分野は開発が少し遅れていますが、進歩は急速であり、ビデオ生成ははるかに難しいため、静止画生成で達成された進歩がビデオ生成で同じ割合で再現されることはないと私は個人的に考えています。 Paul Trillo は、Runway の Gen-2 を使用して、画像とテキスト プロンプトのみを使用して AI 生成ビデオを作成します。 この点では、アニメーションと従来の映画の境界線は曖昧だと思います。結果が現実と異なる限り、ある程度はアニメーションやビデオアートの奇妙な新しいジャンルであると考えることができます。今のところ、人々はこの種の技術を現実的な映画を作るために使うことは忘れて、それを新しい形の実験的なメディアとして考えるべきだと私は思います。楽しむ! ワンストップツール(テキストからビデオへ):テキストプロンプトを使用して新しいビデオクリップを生成します 理論的には、この種のテクノロジーの可能性は無限です。静止画像を生成するのと同じように、それを記述できる限り、パフォーマンスをライブ ストリーミングしたり、シュールかつ様式化されたコンテンツを生成したりすることができます。しかし、実用的な観点から見ると、ビデオモデルをトレーニングするのに十分な多様で大規模なデータセットを収集することははるかに困難であるため、テキストのみに基づいて生成条件を設定することで、これらのモデルを使用してニッチな美的スタイルを実現することは困難です。 このアプローチを使用すると、創造的な作業は緩やかにしか制御できなくなります。この手法は、画像またはビデオの調整(つまり、モーフィング ワークフロー)と組み合わせると、さらに強力になります。 カイル・ウィガーズによるRunwayのGen-2を使用したアニメーション生成テスト 変換: テキストプロンプトを使用し、既存の画像またはビデオに基づいてさらに条件付けする
多くのビデオ生成ツールでは、画像に基づいてビデオを生成できます。指定した画像から完全に生成することも、指定した画像を意味情報、構成、色の大まかな参照として使用することもできます。 多くの場合、従来の静的画像モデルを使用して開始画像を生成し、それをビデオ モデルに入力します。 ここで生成される各ビデオは、Stable Reelのアルバムカバーを開始画像として使用します。
画像生成モデルにおける画像から画像へのプロセスと同様に、入力ビデオからの情報をビデオ モデルに埋め込み、テキスト プロンプトを追加して (ノイズ除去された) 出力を生成することもできます。 正確なプロセスは理解していませんが、このプロセスでは、入力ビデオ クリップをフレーム単位で一致させるだけでなく (様式化のための Stable Diffusion と同様に)、全体的およびモーション レベルでも一致させることができるようです。画像から画像への生成プロセスと同様に、このプロセスはノイズ除去の強度によって制御されます。 運が良ければ、適切なプロンプトがあれば、ビデオを入力してモデルに「インスピレーション」を与え、ソース ビデオの動きを再考し、まったく異なる形式でレンダリングすることもできます。これは、WebUI txt2vid の Zeroscope と vid2vid モードを使用して実行されました。 アドバンテージ:
欠点:
無料ツール:
プラグインとアドオン:
有料ツール(試用版あり):
注: 最良のシナリオは、これらのツールをローカルで実行するのに十分なハードウェア (GPU など) があることです。そうでない場合は、Google Colab など、リモート コンピューターで実行される機能が制限された無料サービスを試すこともできますが、ほとんどの無料サービスや試用サービスは機能が制限されています。 モーション圧縮を使用して強化された画像モデル AnimateDiff の人気が高まるにつれ、ビデオまたは「モーション」圧縮を使用して既存の画像拡散モデルを強化するという新たな分野が生まれています。生成される結果は、フレーム単位の手法を使用して生成される結果よりも、ネイティブ ビデオ モデル (上記で説明) に近いものになります。この手法の利点は、Stable Diffusion、コミュニティによって作成されたチェックポイント モデル、LoRA、ControlNet、その他の条件処理ツールなどの画像モデル用に構築されたツールも使用できることです。 フレームごとのテクニックを使用するなど、ControlNet を通じてビデオ調整を提供することもできます。コミュニティでは、このテクノロジーを現在も積極的に実験中です。利用可能な技術は、静的画像モデル (プロンプト トラバーサルなど) からビデオ ネイティブ モデルまで多岐にわたります。 次のビデオは、いくつかの異なるプロンプト テーマを使用して、ComfyUI の AnimateDiff を使用して完成したアニメーションを示しています。 ビデオリンク: https://www.instagram.com/p/Cx-iecPusza/?utm_source=ig_embed&utm_campaign=embed_video_watch_again この手法における動き自体は非常に原始的なことが多く、オブジェクトやフローがビデオ映像に緩く挿入され、物事が別のものに変形されることがよくあります。ただし、このテクノロジーは時間の一貫性が優れており、まだ初期段階にあります。この方法は、シーンが抽象的で具体的なオブジェクトがない場合に最良の結果をもたらします。 アドバンテージ:
欠点:
無料ツール: 現在、AnimateDiff (SD v1.5) の実装が先頭を走っています。
有料ツール:
音声合成を統合した顔アニメーション皆さんご存知のとおり、これは人気のミームの背後にあるテクノロジーです。比較的静止したキャラクター(カメラは動いているかもしれませんが)が話しているときに顔だけが動いているのを見たことがあるかもしれません。これはおそらく、AI の顔アニメーションと音声合成ツールの組み合わせによるものです。 これには、いくつかの技術的なステップとコンポーネントが組み合わされています。ソース画像は画像生成AIを使用して作成される可能性が高いですが、人間の顔が写っている画像であればどれでも使用できます。音声はテキストから生成され、選択されたタスクの音色に合わせて調整されました。次に、別のツール (またはツールキット内のモデル) を使用して、オーディオにリップシンクされた顔のアニメーション (通常は画像の顔と頭の部分の動きのみ) を合成します。事前にトレーニングされたデジタルアバターを使用して、体を動かすこともできます。 アドバンテージ:
欠点:
無料ツール:
インターネットで直接テキスト読み上げサービスを検索することもできます。サービスは無数にありますが、結果は ElevenLabs ほど良くない可能性があります。 フルフェイスアニメーションに関しては、私が知る限り、試用版を提供している有料アプリはいくつかあるだけで、その用途は非常に限られています。 有料ツール(試用版あり): 顔のアニメーション(通常は音声合成を使用):
「D-ID の代替」を検索すると、多くのものが見つかります。 3Dキャラクターの動きを生成する3Dキャラクターの動きを合成する技術を指します。このタイプのテクノロジーは、3D アニメーション映画、ビデオ ゲーム、その他の 3D インタラクティブ アプリケーションに適用できます。画像やビデオと同様に、新しい AI ツールにより、テキストを通じて人の動きを説明できるようになります。さらに、いくつかのツールを使用すると、いくつかの主要なポーズからモーションを構築したり、インタラクティブな環境でリアルタイムにアニメーションを動的に生成したりすることが可能になります。 ニキータの天才メタ AI 映画予告編。AI の運動学習プロセスを面白くて面白い短編映画として紹介します。 この記事の焦点は生成ツールにあるため、AI 駆動のモーション トラッキング、合成、コーディングなどの特定の非クリエイティブ タスクを自動化する AI アプリケーションは含まれていません。例としては、Move.ai や Wonder Dynamics などがあります。 アドバンテージ:
欠点:
無料ツール(または一部の機能を無料で提供するサービス):
有料ツール:
LLM駆動型ツール理論的には、大規模言語モデル (LLM) は、特に微調整された後はプログラミング タスクで優れたパフォーマンスを発揮するため、アニメーション ソフトウェアのプログラミングとスクリプト作成に使用できます。つまり、通常のワークフローに従ってアニメーションを作成しながら、最初から最後まで AI に支援してもらうことができます。極端なケースでは、AI がすべてを実行し、バックエンド プロセスに適切なタスクを割り当てることもできます。 実際に、これをやってみるのもいいでしょう。たとえば、Blender には非常に広範な Python API が付属しており、コードを介してツールを操作できるため、ChatGPT などの補助ツールがすでにいくつか利用可能です。この傾向は避けられません。コードがある限り、LLM の余地はあるでしょう。 アドバンテージ:
欠点:
無料ツール:
有料ツール:
注: また、近々 ChatUSD も登場します。これは、もともとピクサーがアニメーション映画制作における 3D データ交換と並列化を統一および簡素化するために作成した標準である USD を操作および管理できるチャットボットです。現時点ではこれに関するさらなるニュースはありませんが、Nvidia はこの標準を採用し、映画だけでなくあらゆる種類の 3D コンテンツの標準となるよう推進しているようです。 ついに完成しました!コンテンツはたくさんありますが、おそらく何かを見逃していると思います。 |
<<: OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。
[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...
自動制御システムといえば、実は多くの友人はそれについてあまり知りません。ここでは、自動制御システムと...
Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり...
最近、ケンブリッジ大学の学者たちは、米国科学アカデミー紀要(PNAS)に「安定かつ正確なニューラルネ...
スマートビルへの移行はヨーロッパ全土で加速しています。あらゆる業界の組織が顧客と従業員のエクスペリエ...
[[428240]]みなさんこんにちは、カソンです。 React ソース コードは、さまざまなモジュ...
[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...
人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタルツイン、ロボット工...