AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています

生成 AI は、インターネット上の重要なコンテンツソースとなっています。AI によって生成されたテキスト、コード、オーディオ、画像、ビデオ、アニメーションを見ることができます。本日は、リトアニアのブロガー兼アニメーターである auleris による記事をご紹介します。この記事では、アニメーション分野で使用されている生成 AI 技術を、簡単な紹介、例、長所と短所、関連ツールなどを含めてレベル別に紹介および分類しています。

「アニメーターとして、可能性と新たな展開の混沌としたインターネットを独力で切り抜けなければならなかった1年前に、このようなリソースが利用できていればよかったのに」と彼は書いている。

この記事は、この分野に興味のある人、特に AI 分野における新しい技術開発にどう対処すればよいかわからないアニメーターやクリエイティブな人々を対象としています。なお、ビデオのスタイル設定も関連技術ですが、この記事では基本的にこの側面については取り上げません。

この記事の記事構造。

画像生成

画像生成技術とは、静止画像を用いて学習したAIモデルを用いて画像を生成する技術を指します。

生成された画像を素材として利用する

任意の AI アプリケーションによって生成された静止画像を、2D クリップアート、デジタル操作、コラージュなどの従来のワークフローの素材として使用したり、image2video ツールに提供してビデオを生成するなど、他の AI ツールのリソースとして使用したりできます。このタイプのテクノロジーは、画像や映像のソースであることに加えて、カットや画像編集などの一般的なスキルも必要とします。

短編映画「Planets and Robots」では、生成された AI 画像をアニメーション化するためにデジタルクリップアートが使用され、ナレーションも LLM を使用してスクリプトから生成されました。

アドバンテージ：

既存のアニメーターでも簡単に使える
背景画像の生成に使用できます

欠点:

生成された結果はあまり「目新しい」ものではない
素材とアニメーションを調整するアニメーターが必要です

無料ツール（任意の画像生成モデルまたはアプリ）：

Stable Diffusion (SD、ローカルコンピュータで実行) またはこれらのオンラインアプリ: Craiyon
インヴォケイアイ（SD使用）
アンフーグ（SD使用）
SkyBox AI - VR 用の 360 度シーングラフを生成します

プラグインとアドオン:

Blenderで使用されるComfyUIノード
Krita での安定した拡散
Krita 用 ComfyUI - シンプルで使いやすく、アーティストに優しいインターフェース

Hugging face space には無料のデモもいくつかあります: https://huggingface.co/spaces

有料ツール（画像を生成するモデルまたはアプリ）:

旅の途中
滑走路
ダル・イー2
AdobeのFireFly

注: アニメーション制作に使用されるツールには、After Effects、Moho、Blender などがあります。

フレームごとに画像を生成する

このタイプのテクノロジーは、アニメーションのルーツに基づいた精神で生成拡散画像モデルを使用し、従来のアニメーション制作の描画と撮影のプロセスと同様に、フレームごとにアクションシーケンスを生成します。鍵となる点の 1 つは、これらのモデルは各画像を生成する際に時間や動きの概念を持たず、代わりに何らかのメカニズムやさまざまなアプリケーションや拡張機能を使用して、ある程度のアニメーションを実現し、いわゆる「時間的一貫性」を実現することです。

これらの手法では、ちらつくアニメーションが生成されることがよくあります。これらのツールのユーザーの多くは、ちらつきをきれいにするために一生懸命働いていますが、アニメーターはこれをボイリングと呼ばれる芸術形式だと考えています。

この点で最も一般的に使用されているのは、Stable Diffusion などのオープンソースモデルと、その上に構築されたツールです。ユーザーは公開されたパラメータを使用してそれらを設定し、ローカルマシン上で実行できます。対照的に、MidJourney ツールのモデルは公開されておらず、主に画像生成用に設計されているため、フレームごとのアニメーションを生成するために使用することはできません。

アニメーションは、Stable WarpFusion を使用して作成することもできます。これは、基になるビデオ入力を歪み (変位) を使用してアニメーション化する、画像から画像へのワークフローを伴います。 Sagansによるビデオ。

フレームごとの画像を使用してアニメーションを作成するには、通常、次のツールを組み合わせる必要があります。

ワンストップツール（テキストから画像へ）

テキストプロンプトとパラメーター構成を通じてアニメーションを直接サポートする新しいテクノロジがいくつかあります。

パラメータ補間（変形）

生成された各画像フレームでパラメータが徐々に補間され、遷移アニメーションが得られます。ここでのパラメータには、テキストプロンプト自体や基礎となるシード (潜在的な空間ウォーク) など、モデル関連の設定が含まれる場合があります。

徐々に重みを変化させることでアニメーショントランジションを作成するプロンプト編集方法。ここでは、手の全体的な形状の一貫性を保つために、Depth ControlNet が使用されています。

画像間 (I2I) フィードバックループ

生成された各画像フレームは、画像間技術を通じてアニメーションの次のフレームを生成するための入力として使用されます。これにより、他のパラメータとシードが変化した場合でも、同様の外観のフレームシーケンスを生成できます。このプロセスは通常、Deforum の「ノイズ除去の強度」または「強度スケジュール」によって制御されます。開始フレームは既存の画像にすることができます。

これは、以下の多くのアプリケーションが依存しているテクノロジである Stable Diffusion を使用するほとんどのアニメーション実装のコアコンポーネントです。この手法はバランスを取るのが難しく、使用するサンプラー (ノイズスケジューラー) に大きく依存します。

1 つの開始画像を使用し、わずかに異なるプロンプトを使用してフレームごとに変更します。

2D または 3D 変換 (I2I ループに基づく)

各フレームは徐々に変換されて画像が生成され、それが I2I ループへの入力として使用されます。 2D 変換は、単純な移動、回転、およびスケーリングに対応します。 3D 技術では、3D 空間で移動する仮想カメラを想像します。通常、これには各フレームに対して生成される画像の 3D 深度を推定し、想像上のカメラの動きに基づいて変形処理を実行することが必要になります。

このような無限に拡大されたアニメーションを見たことがあるでしょう。この作品が視覚的に素晴らしいのは、SD を使用して新しい詳細を継続的に構築しているからです。

実験的、モーション合成、ハイブリッドなどの技術

モーション合成の目的は、連続して生成されるフレーム間のモーションフローを「想像」し、このモーションフローを使用してフレームごとに変形処理を実行し、I2I サイクルに基づいて有機的なモーションを注入することです。これには通常、ビデオからの動き推定 (オプティカルフロー) でトレーニングされた AI モデルに依存する必要がありますが、後続のビデオフレームに焦点を当てるのではなく、後続の生成されたフレーム (I2I ループ経由) に焦点を当てるか、ハイブリッドアプローチを使用します。

その他の技術には、画像復元と変形技術を組み合わせたり、複数の処理ステップを使用したり、モデルトレーニングプロセスのスナップショットをキャプチャしたりするなどの高度な技術が含まれます。たとえば、Deforum にはユーザーによる制御機能がたくさんあります。

生成されたフレーム間で錯覚的な動きを生み出す独自の手法を使用する SD-CN アニメーションで制作されました。開始画像は単なる開始点であり、他の目的はありません。

変換テクニック（画像から画像へ）：

ソースからの入力を使用してフレームとアニメーション結果を生成することもできます。

ミキシング（様式化） - ビデオソースのミキシングおよび/または条件付き処理（ControlNets）

入力ビデオを使用して生成されたシーケンスをミックスし、影響を与える方法は多岐にわたります。これらの入力ビデオは通常、複数のフレームに分割されており、その目的は、リアルなビデオを様式化することです。この種の技術は、昨今の様式化されたダンスビデオやパフォーマンスの流行の中で、アニメのような外見やセクシーな体格を実現するためによく使用されています。ただし、独自のアニメーションの大まかなフレームや、乱雑で抽象的なビデオ録画など、何でも入力として使用できます。このタイプのテクノロジーは、ストップモーションやピクセル化などの置換アニメーション技術をエミュレートする点で、幅広い可能性を秘めています。

各フレームでは、入力フレームを生成された画像と直接混合して各 I2I ループにフィードバックすることも、ControlNet などのより高度な調整アプローチを使用することもできます。

Deforum と ControlNet 条件付き処理をハイブリッドモードで組み合わせたものです。左の写真は元のビデオです。マスキングと背景のぼかしは別々に実行され、この手法とは関係ありません。

オプティカルフローワーピング（ビデオ入力を使用して I2I ループで実行）

オプティカルフローは、ビデオ内の推定された動きを指し、各フレームの動きベクトルによって表され、画面空間内の各ピクセルの動きを示します。ワーピングワークフローでソースビデオのオプティカルフローを推定すると、それに基づいて生成されたフレームをワープできるため、オブジェクトまたはカメラが移動しても、生成されたテクスチャがオブジェクトに「固定」されます。

Deforum のハイブリッドモードでは、このテクニックをさまざまなセットアップで使用できます。ちらつきの少ない結果を得るために、ケイデンスも増加し、変形効果が向上します。マスキングと背景のぼかしは別々に実行され、この手法とは関係ありません。

3D進化

ワーピングワークフローを介して行われる調整は、3D データに対して直接行うこともできます。これにより、ぼやける可能性のあるステップをスキップし、ビデオフレームに対して直接行うことができます。

たとえば、OpenPose または深度データは、ビデオ (または CG レンダリングされたビデオ) から推定するのではなく、仮想 3D シーンから直接提供できます。これにより、特に時間的な一貫性を促進する方法と組み合わせると、最もモジュール化され制御可能な 3D ネイティブアプローチが可能になります。

これはおそらく、次のビデオに示されているように、既存の技術と VFX の AI のクロスオーバーの可能性が最も高い領域です。https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm

この技術は、ControlNet に直接適合する Blender からの文字グラフィック生成プロセスを簡素化および自動化する、広く使用されているツールでも使用されています。この例では、ControlNet は手のスケルトンを使用して、オープンポーズ、深度、法線マップ画像を生成し、最終的に右端の SD 結果を生成します。 (Openpose は、手だけに適していないことが判明したため、最終的に廃止されました。)

これらすべてのテクニックを組み合わせると、結果として得られるアニメーションを微調整するためのパラメーターは無限にあるように見えます (モジュラーオーディオ制作とよく似ています)。キーフレームを通じて「スケジュール」し、Parseq などのツールを使用して描画することも、オーディオや音楽にリンクして、オーディオに合わせて変化する多くのアニメーションを取得することもできます。これで完了です。安定した拡散を使用してダンスを行うことができます。

アドバンテージ：

この形式のメディアに特有の、新しく進化する美学。
従来のアニメーション技術と概念的に類似しています。
最もカスタマイズ可能で、最も実用的で、ガイドが簡単です。
モジュール式の階層化アプローチ。

欠点:

ちらつきの問題がよく発生し、混乱を招くことがあります。
技術面では考慮すべきことがたくさんあり、バランスを取るのが難しいです。マスターになるには、急激な学習曲線を経なければなりません。
高性能なローカルハードウェア（NVIDIA GPU）がなければ、非常に不便です。

無料ツール:

A1111 WebUI で利用可能なツール:

パラメータ補間アニメーション (移動) 用の小さなスクリプト: ステップ、プロンプト、シード。
Deforum——上記の技術のほとんどを統合し、さまざまなアニメーションSDのニーズを満たすことができる最高のスタジオ。
Parseq - Deforum 用の一般的な視覚的パラメータソートツール。
Deforum タイムラインヘルパー - 別のパラメータ視覚化およびスケジュールツール。
Deforumation - Deforum パラメータをリアルタイムで制御するための GUI。反応的な調整と制御を可能にします。
TemporalKit - EBsynth の原理の一部を使用し、SD と組み合わせて使用することで一貫したビデオスタイルを実現できます。
SD-CN アニメーション — これはまだ多少実験的なツールですが、ハイブリッドな様式化されたワークフローをサポートし、興味深いオプティカルフローモーション合成 (ジッタモーションを引き起こす可能性があります) もサポートします。
TemporalNet - ControlNet モデルは、時間的一貫性を向上させることを目的として、Deforum などの他のワークフローで使用できます。 Python ノートブック (Google Colab または Jupyter で実行する必要があります)。
安定した WarpFusion - 高度なビデオスタイル設定とアニメーションの実行を目的とした実験的なコードツールキット。 Deforum と同じ機能が多数あります。

プラグインとアドオン:

Blender 用の夢のテクスチャ
安定性AIブレンダープラグイン
Blender 用の Openpose のようなキャラクタースケルトン - ControlNet は Blender 以外でも使用できます
Unreal Engine 5 向け Unreal Diffusion
After Effects 用 After-Diffusion (現在開発中)
A1111 または TouchDesigner 用の ComfyUI API - 使い方がわかれば、アニメーションなどのさまざまなタスクを実行するために使用できます。

有料ツール:

(通常は SD にも依存しますが、「クラウド」上で実行されるため、より簡単に使用できます):

スタビリティAIのアニメーションAPI
Kaiber の Flipbook パターン - Deforum コードに基づいて説明されているとおり

プラグインとアドオン:

After Effects 用 Diffusae

市場には他にも多くのアプリケーションやツールがありますが、有料ツールの場合、そのほとんどはオープンソースの Deforum コードに基づいています。

注: 最良のシナリオは、これらのツールをローカルで実行するのに十分なハードウェア (GPU など) があることです。そうでない場合は、Google Colab など、リモートコンピューターで実行される機能が制限された無料サービスを試すこともできます。ただし、Google Colab 上のノートブックはローカルハードウェアでも実行できます。

ビデオ生成技術

このタイプのテクノロジーは、モーションビデオでトレーニングされたビデオ生成 AI モデルを使用し、ニューラルネットワークレベルでの時間圧縮を使用して強化できます。

現在、これらのモデルの共通の特徴は、非常に短いビデオクリップ (数秒) しか処理できず、GPU で使用可能なビデオメモリによって制限されることです。しかし、この分野は急速に発展しており、複数の生成結果をつなぎ合わせてより長いビデオを作成する方法もあります。

ビデオ生成モデル

これは、ゼロから構築およびトレーニングされたモデルを使用してビデオを処理することを指します。

現在、このようなモデルによって得られる結果は、非常に不安定で、明らかに AI の痕跡があり、奇妙に見えることがよくあります。昔画像を生成したAIモデルと同じですね。この分野は開発が少し遅れていますが、進歩は急速であり、ビデオ生成ははるかに難しいため、静止画生成で達成された進歩がビデオ生成で同じ割合で再現されることはないと私は個人的に考えています。

Paul Trillo は、Runway の Gen-2 を使用して、画像とテキストプロンプトのみを使用して AI 生成ビデオを作成します。

この点では、アニメーションと従来の映画の境界線は曖昧だと思います。結果が現実と異なる限り、ある程度はアニメーションやビデオアートの奇妙な新しいジャンルであると考えることができます。今のところ、人々はこの種の技術を現実的な映画を作るために使うことは忘れて、それを新しい形の実験的なメディアとして考えるべきだと私は思います。楽しむ！

ワンストップツール（テキストからビデオへ）：テキストプロンプトを使用して新しいビデオクリップを生成します

理論的には、この種のテクノロジーの可能性は無限です。静止画像を生成するのと同じように、それを記述できる限り、パフォーマンスをライブストリーミングしたり、シュールかつ様式化されたコンテンツを生成したりすることができます。しかし、実用的な観点から見ると、ビデオモデルをトレーニングするのに十分な多様で大規模なデータセットを収集することははるかに困難であるため、テキストのみに基づいて生成条件を設定することで、これらのモデルを使用してニッチな美的スタイルを実現することは困難です。

このアプローチを使用すると、創造的な作業は緩やかにしか制御できなくなります。この手法は、画像またはビデオの調整（つまり、モーフィングワークフロー）と組み合わせると、さらに強力になります。

カイル・ウィガーズによるRunwayのGen-2を使用したアニメーション生成テスト

変換: テキストプロンプトを使用し、既存の画像またはビデオに基づいてさらに条件付けする

画像からビデオへの生成

多くのビデオ生成ツールでは、画像に基づいてビデオを生成できます。指定した画像から完全に生成することも、指定した画像を意味情報、構成、色の大まかな参照として使用することもできます。

多くの場合、従来の静的画像モデルを使用して開始画像を生成し、それをビデオモデルに入力します。

ここで生成される各ビデオは、Stable Reelのアルバムカバーを開始画像として使用します。

ビデオからビデオへの生成

画像生成モデルにおける画像から画像へのプロセスと同様に、入力ビデオからの情報をビデオモデルに埋め込み、テキストプロンプトを追加して (ノイズ除去された) 出力を生成することもできます。

正確なプロセスは理解していませんが、このプロセスでは、入力ビデオクリップをフレーム単位で一致させるだけでなく (様式化のための Stable Diffusion と同様に)、全体的およびモーションレベルでも一致させることができるようです。画像から画像への生成プロセスと同様に、このプロセスはノイズ除去の強度によって制御されます。

運が良ければ、適切なプロンプトがあれば、ビデオを入力してモデルに「インスピレーション」を与え、ソースビデオの動きを再考し、まったく異なる形式でレンダリングすることもできます。これは、WebUI txt2vid の Zeroscope と vid2vid モードを使用して実行されました。

アドバンテージ：

このタイプのテクノロジーは最大の可能性を秘めており、時間の経過とともに改善され続けるでしょう。
専門的なアニメーションの知識に関しては、参入障壁はありません。
これらの手法の結果は、フレーム単位の手法よりも滑らかで、通常はより一貫性のあるものになる傾向があります。
これは、フレームごとのアプローチよりも、モーフィングワークフローに対するより直接的なアプローチになります。

欠点:

結果は、静止画像よりもはるかに奇妙で、紛れもなく AI によって生成されたように見えることがよくあります。これは、人物が写っているリアルな画像では特に顕著です。
計算コストが高くなります。画像 AI と比較すると、ローカルハードウェア上で実行するのは困難です。
ビデオの長さが短い、コンテキストが短いなどの制限があります (現時点では)。

無料ツール:

Stable Video (SVD) – StabilityAI のオープンソースビデオ拡散モデル。現在、このモデルを実装するために、多くのホスト型アプリケーションとツールが急速に導入されています。
SVD ComfyUI 実装
SVD 時間制御ネット
MotionCtrl – さまざまなビデオモデルでオブジェクトの動きとカメラの軌道を制御できるように強化されました。
Emu Video - Meta のビデオ生成モデルのプレビューデモ。
A1111 WebUI テキストからビデオへのプラグインは、次のモデルで使用できます (ハードウェアが十分な場合)。
ビデオクラフター
ゼロスコープ

プラグインとアドオン:

Pallaidium for Blender – 画像、ビデオ、さらにはオーディオの領域にわたる生成機能を備えた多目的ツールキット。
さらに、Hugging face スペースで無料のデモもいくつか見つかります。

有料ツール（試用版あり）：

滑走路 Gen2
カイバーのモーションモード
Pika labs (限定ベータ版)

注: 最良のシナリオは、これらのツールをローカルで実行するのに十分なハードウェア (GPU など) があることです。そうでない場合は、Google Colab など、リモートコンピューターで実行される機能が制限された無料サービスを試すこともできますが、ほとんどの無料サービスや試用サービスは機能が制限されています。

モーション圧縮を使用して強化された画像モデル

AnimateDiff の人気が高まるにつれ、ビデオまたは「モーション」圧縮を使用して既存の画像拡散モデルを強化するという新たな分野が生まれています。生成される結果は、フレーム単位の手法を使用して生成される結果よりも、ネイティブビデオモデル (上記で説明) に近いものになります。この手法の利点は、Stable Diffusion、コミュニティによって作成されたチェックポイントモデル、LoRA、ControlNet、その他の条件処理ツールなどの画像モデル用に構築されたツールも使用できることです。

フレームごとのテクニックを使用するなど、ControlNet を通じてビデオ調整を提供することもできます。コミュニティでは、このテクノロジーを現在も積極的に実験中です。利用可能な技術は、静的画像モデル (プロンプトトラバーサルなど) からビデオネイティブモデルまで多岐にわたります。

次のビデオは、いくつかの異なるプロンプトテーマを使用して、ComfyUI の AnimateDiff を使用して完成したアニメーションを示しています。

ビデオリンク: https://www.instagram.com/p/Cx-iecPusza/?utm_source=ig_embed&utm_campaign=embed_video_watch_again

この手法における動き自体は非常に原始的なことが多く、オブジェクトやフローがビデオ映像に緩く挿入され、物事が別のものに変形されることがよくあります。ただし、このテクノロジーは時間の一貫性が優れており、まだ初期段階にあります。この方法は、シーンが抽象的で具体的なオブジェクトがない場合に最良の結果をもたらします。

アドバンテージ：

既存の画像拡散モデルの進歩の恩恵を受けることができます。
ビデオは、ノイズ除去または ControlNet を使用して調整できます。
抽象的で流動的な動きに適しています。

欠点:

人物や珍しい物体に対して複雑で一貫した動きを作り出すことは難しく、代わりに変形の問題が発生することがよくあります。
ビデオネイティブモデルと同様に、計算コストが高くなります。画像 AI と比較すると、ローカルハードウェア上で実行するのは困難です。
現時点では短いコンテキストウィンドウに制限されていますが、解決策を実験している人もいます。

無料ツール:

現在、AnimateDiff (SD v1.5) の実装が先頭を走っています。

AnimateDiff 用 A1111 WebUI プラグイン
ComfyUI での AnimateDiff 実装
VisionCrafter - AnimateDiff実装などのプロジェクト用のGUIツール
SD XL用: Hotshot-XL
多機能実装: Enfugue

有料ツール:

今のところはないようです

音声合成を統合した顔アニメーション

皆さんご存知のとおり、これは人気のミームの背後にあるテクノロジーです。比較的静止したキャラクター（カメラは動いているかもしれませんが）が話しているときに顔だけが動いているのを見たことがあるかもしれません。これはおそらく、AI の顔アニメーションと音声合成ツールの組み合わせによるものです。

これには、いくつかの技術的なステップとコンポーネントが組み合わされています。ソース画像は画像生成AIを使用して作成される可能性が高いですが、人間の顔が写っている画像であればどれでも使用できます。音声はテキストから生成され、選択されたタスクの音色に合わせて調整されました。次に、別のツール (またはツールキット内のモデル) を使用して、オーディオにリップシンクされた顔のアニメーション (通常は画像の顔と頭の部分の動きのみ) を合成します。事前にトレーニングされたデジタルアバターを使用して、体を動かすこともできます。

アドバンテージ：

簡単にミームを作成できます。
……えっと、コメディ効果のためですか？

欠点:

不自然に見えることが多い。これの実際的な用途はまだ思いつきません。
有料アプリが提供するクローズドソースの顔アニメーションツールへの過度の依存。
独自のビデオ映像を使用してデジタルアバターをトレーニングした場合でも、結果が静的すぎてダイナミックな効果が欠けていることがよくあります。

無料ツール:

ElevenLabs - 利用回数に制限がありますが、その数は毎月更新されるようです。
A1111 WebUI 用の Wav2Lip プラグイン - リップシンクアニメーションを生成するツール。口の領域に限定されているように見えます。

インターネットで直接テキスト読み上げサービスを検索することもできます。サービスは無数にありますが、結果は ElevenLabs ほど良くない可能性があります。

フルフェイスアニメーションに関しては、私が知る限り、試用版を提供している有料アプリはいくつかあるだけで、その用途は非常に限られています。

有料ツール（試用版あり）：

顔のアニメーション（通常は音声合成を使用）：

した
ヘイゲン
共感覚

「D-ID の代替」を検索すると、多くのものが見つかります。

3Dキャラクターの動きを生成する

3Dキャラクターの動きを合成する技術を指します。このタイプのテクノロジーは、3D アニメーション映画、ビデオゲーム、その他の 3D インタラクティブアプリケーションに適用できます。画像やビデオと同様に、新しい AI ツールにより、テキストを通じて人の動きを説明できるようになります。さらに、いくつかのツールを使用すると、いくつかの主要なポーズからモーションを構築したり、インタラクティブな環境でリアルタイムにアニメーションを動的に生成したりすることが可能になります。

ニキータの天才メタ AI 映画予告編。AI の運動学習プロセスを面白くて面白い短編映画として紹介します。

この記事の焦点は生成ツールにあるため、AI 駆動のモーショントラッキング、合成、コーディングなどの特定の非クリエイティブタスクを自動化する AI アプリケーションは含まれていません。例としては、Move.ai や Wonder Dynamics などがあります。

アドバンテージ：

既存の 3D アニメーション制作プロセスに統合して反復的なタスクを削減できるため、アニメーションのベテランにとって優れたヘルパーになることが期待されます。
物理と重量を非常にうまく処理します。
将来のビデオゲームにダイナミックなキャラクターアニメーションを実装しますか?

欠点:

人間の形に限定されていると思われる二足歩行の姿。
他のツールも必要です。 3D アニメーションパイプラインのコンポーネントの 1 つにすぎません。次に何をすべきかを知る必要があります。
トレーニングプロセスは通常、人間の動作データに基づいています。つまり、これまでのところ、これらのツールは現実的な物理法則に基づいた動作しか実現できず、様式化された、または漫画のような動作メカニズムは実現できませんでした。

無料ツール（または一部の機能を無料で提供するサービス）：

モーション
オムニアニメーション
Cascadeur - 最小限の入力でスムーズな物理ベースのアニメーションとポーズを作成するアニメーションアシスタント。制御性も高く、将来的にはメインツールになるかもしれません。
ComfyUI での MDM、MotionDiffuse、および ReMoDiffuse の実装。

有料ツール:

無料ツールの有料プランでは、より多くの機能が利用でき、使用制限が少なくなります。

LLM駆動型ツール

理論的には、大規模言語モデル (LLM) は、特に微調整された後はプログラミングタスクで優れたパフォーマンスを発揮するため、アニメーションソフトウェアのプログラミングとスクリプト作成に使用できます。つまり、通常のワークフローに従ってアニメーションを作成しながら、最初から最後まで AI に支援してもらうことができます。極端なケースでは、AI がすべてを実行し、バックエンドプロセスに適切なタスクを割り当てることもできます。

実際に、これをやってみるのもいいでしょう。たとえば、Blender には非常に広範な Python API が付属しており、コードを介してツールを操作できるため、ChatGPT などの補助ツールがすでにいくつか利用可能です。この傾向は避けられません。コードがある限り、LLM の余地はあるでしょう。

アドバンテージ：

潜在的可能性 - クリエイティブな労働者が直面するあらゆる技術的障壁を最終的に突破します。
クリエイティブソフトウェアのアシスタントとして使用でき、面倒で反復的なタスクを排除し、ドキュメントのコンテンツをより深く掘り下げるのに役立ちます。

欠点:

AI があらゆるものを作成できるなら、クリエイティブな仕事をする意味は何でしょうか?
現在、LLM は強力なリモートコンピューター上でのみ実行でき、通常はトークンの数またはサブスクリプションベースで課金されます。

無料ツール:

Blender Chat Companion - (Blender Copilot に類似) 適切なタスクの処理に特化した、Blender の ChatGPT 実装。 ChatGPT API が使用され、料金が必要です。

有料ツール:

「創造的な汎用知能」を約束する Genmo は、チャットインターフェースを通じてすべて制御できる複数のステップから成るプロセスを使用します。
Blender Copilot - (Blender Chat Companion に類似) 適切なタスクの処理に特化した、Blender の ChatGPT 実装。 ChatGPT API が使用され、料金が必要です。

注: また、近々 ChatUSD も登場します。これは、もともとピクサーがアニメーション映画制作における 3D データ交換と並列化を統一および簡素化するために作成した標準である USD を操作および管理できるチャットボットです。現時点ではこれに関するさらなるニュースはありませんが、Nvidia はこの標準を採用し、映画だけでなくあらゆる種類の 3D コンテンツの標準となるよう推進しているようです。

ついに完成しました！コンテンツはたくさんありますが、おそらく何かを見逃していると思います。

<<: OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

>>: