ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

「光るクラゲがゆっくりと海から浮上し、夜空に輝く星座になります」と、Morph Studio で見たいものを入力し続けます。

数分後、Morph Studio は短いビデオを生成します。クラゲは透明でキラキラと輝き、回転しながら上昇し、その揺れる姿は夜空の星々と美しいコントラストをなしています。

光るクラゲが神秘的な海から現れ、夜空に輝く星座に変身する

「ジョーカーシネマティック」と入力すると、かつて世界を席巻したあの顔が戻ってきます。

ジョーカー映画超リアルなホアキン・フェニックスがジョーカーとして映画撮影。ニューヨークの街のネオンの煙

最近、テキストからビデオへの生成技術とコミュニティに重点を置くスタートアップ企業である Morph Studio が、このモデルに重要なアップデートを加えました。これらのビデオは、モデルが更新された後の作品であり、鮮明な画像と鮮明な詳細を備えています。

Morph Studio は、Runway が Gen2 をパブリックテストに公開する前から、パブリックテスト用に無料で利用できるテキストからビデオに変換する製品をリリースした世界初のチームでした。

720P の無料サービスのみを提供する人気のテキスト動画変換製品とは異なり、Morph Studio はデフォルトで 1080P の無料サービスと、最初から最大 7 秒の生成時間を提供します。私たちは、テキストから動画への変換において、解像度の向上、生成時間の延長、意図の表現の向上が最も重要な 3 つの指標であると考えています。Morph は、これら 3 つの指標すべてにおいて業界最高水準の SOTA を達成しています。

ハリウッド映画の 1 ショットの平均長さは 6 秒です。生成される長さを 7 秒に増やすことで、より多くのユーザーのクリエイティブなニーズに応えることができます。

Morph Studio のモデルを試すのは簡単です。Discord にサインアップして無料で使用するだけです。

画面上の赤枠内に「pro」と表示されているモデルがアップデートされたモデルであり、今回の体験対象でもあります。

カメラの動きはビデオ制作の基本的な言語であり、強力なストーリーテリング手段です。 Morph は、ズーム、パン (上、下、左、右)、回転 (時計回りまたは反時計回り)、静止ショットなど、いくつかの一般的なカメラ言語を提供します。

Morph には、ビデオの動きを制御する MOTION 機能 (1 ～ 10) も用意されています。値が大きいほど、動きはより劇的で誇張され、値が小さいほど、動きはより繊細で滑らかになります。

フレームレート (FPS) は 8 ～ 30 の範囲で調整できます。値が高いほど、ビデオは滑らかになり、サイズが大きくなります。たとえば、-FPS 30 では、最もスムーズなビデオが生成されますが、ビデオのサイズも最大になります。デフォルトでは、すべてのビデオは 24 フレーム/秒で作成されます。

デフォルトのビデオの長さは 3 秒です。7 秒のビデオを生成するには、コマンドに -s 7 と入力します。さらに、このモデルでは 5 つのビデオ比率も選択できます。

レンズ、フレームレート、ビデオの長さなどの詳細に関する要件がある場合は、コンテンツプロンプトを入力した後、対応するパラメータを入力し続けてください。 (現在は英語入力のみサポートされています。)

アップデートされたモデルサービスを試してみて、1080Pがもたらす視覚的な衝撃を感じました。

星空の下で散歩するユキヒョウの写真が初めて人類に公開されたのはつい最近のことだ。

星空の下で歩くユキヒョウを撮影した初めての画像。

Morph Studio のモデルでこれらの比較的珍しい動物のビデオを生成できるかどうか疑問に思いました。

同じプロンプトを使用して、Morph Studio が制作した作品をビデオの上部に、Pika が制作した作品をビデオの下部に配置しました。

星空の下を歩くユキヒョウ、映画のようにリアル、超詳細、-モーション 10、-ar 16:9、-ズームイン、-パンアップ、-fps 30、-s 7。ネガティブ:余分な手足、腕と脚の欠損、指と脚の癒着、余分な指、外観の損傷

Morph Studio の解答用紙には、テキストの正確な理解が表示されます。 1080Pの画像では、ユキヒョウの毛皮は細部まで豊かで、本物そっくりです。背景には天の川と星が見えます。しかし、ユキヒョウの動きは明らかではありません。

ピカちゃんの課題では、確かにユキヒョウは歩いているのですが、夜空は大雪が降っている夜と認識されているようでした。 Snow Leopard のスタイル、詳細、画像の鮮明さという点では、まだギャップがあります。

キャラクター生成の効果を見てみましょう。

傑作、最高品質、超詳細なRAWビデオ、1人の少女がソロで踊るデジタルペインティング、21歳の美しいサイボーグの少女、長くウェーブした赤い髪、青い目、繊細な青白い肌、完璧なボディ、ポスト黙示録の夜明けの不気味な光の中で歌う

Morph Studio が制作した作品では、高解像度により、顔の輪郭や微細な表情が非常に繊細に表現され、夜明けの光の下で髪の毛の細部まではっきりと見えます。

解像度、色、および光レベルの不足により、Pika によって生成される画像は全体的に青みがかっており、キャラクターの顔の細部は満足のいくものではありません。

キャラクターや動物を体験したところで、次は建物（人工物）の生成効果を見てみましょう。

ラ・トーレ・アイフェル星月夜ゴッホ壮大スタイリッシュファインアート複雑深みのある色彩流れるような動く雲

より絵画的な質感を持つピカの作品と比較すると、モーフスタジオの作品はゴッホの要素と写実的な要素のバランスがより優れています。光のレベルは非常に豊かで、特に雲海の流れるようなディテールが際立っています。ピカの作品の空はほとんど静止しています。

最後に、自然の景観づくりを体験します。

ある早朝、太陽がゆっくりと海面から昇り、波が静かに浜辺に打ち寄せました。

Morph Studio の作品は、人間の写真家が自然環境で撮影した本物の映像なのだろうかと疑問に思う人もいるかもしれません。

Pika で生成されたビデオには繊細な光と影のレイヤーがないため、波とビーチは平坦に見え、ビーチに打ち寄せる波の動きはかなりぎこちなく見えます。

高解像度がもたらす衝撃的な体験に加えて、同じプロンプト（動物、建物、人物、自然風景のテーマなど）でビデオを生成する場合、対戦相手は多かれ少なかれ、いくつかの生成タスクで「失敗」します。Morph Studioのパフォーマンスは比較的安定しており、コーナーケースが比較的少なく、ユーザーの意図をより正確に予測できます。

当初から、このスタートアップは、Vincent Video について、ビデオはユーザー入力を非常に正確に説明できる必要があると理解しており、すべての最適化作業はこの方向に進んでいました。 Morph Studio のモデル構造は、テキストの意図を深く理解しています。このアップデートでは、いくつかの構造的な変更が加えられ、一部のデータに対してより詳細な注釈も付けられました。

比較的良好なテキスト理解能力に加え、高解像度出力でも画像の細部処理に支障はありません。実際、モデルが更新された後は画面のモーションコンテンツがより豊かになり、それは Morph Studio で生成した作品にも反映されました。

『真珠の耳飾りの少女』の頭が動くと、耳飾りもわずかに揺れ、馬に乗るなどのより複雑な動作を伴うシーンもより滑らかで、より一貫性があり、論理的で、手の動きの出力も良好です。

1080P は、モデルがより多くのピクセルを処理する必要があることを意味し、詳細の生成に大きな課題をもたらします。ただし、結果から判断すると、画像は台無しにならないだけでなく、豊富な階層化された詳細により表現力が増しています。

これは、壮大な巨大な波や火山の噴火から花の繊細なクローズアップまで、モデルを使用して生成した自然の風景のセットです。

高解像度の出力はユーザーに優れた視覚的楽しみをもたらしますが、モデルの出力時間も長くなり、ユーザー体験にも影響を及ぼします。

Morph Studio は現在、1080p ビデオを 3.5 分で生成します。これは、Pika が 720p ビデオを生成するのと同じ速度です。スタートアップ企業であるMorph Studioにとって、コンピューティングリソースは限られているため、SOTAを維持することは容易ではありません。

さらに、ビデオスタイルに関しては、映画のリアリズムに加えて、Morph Studio モデルはコミックや 3D アニメーションなどの一般的なスタイルもサポートします。

Morph Studioが注力するテキストからビデオへの変換技術は、AI業界の競争における次の段階として見られています。

「インスタントビデオはAIの新たな飛躍を意味するかもしれない」とニューヨーク・タイムズ紙は技術記事の見出しで述べ、ウェブブラウザやiPhoneと同じくらい重要になると主張した。

2022年9月、Metaの機械学習エンジニアチームは、ユーザーがシーンの大まかな説明を入力すると、システムが対応する短いビデオを生成する「Make-A-Video」という新しいシステムを立ち上げました。

2022年11月には、清華大学と北京人工知能研究院（BAAI）の研究者もCogVideoをリリースした。

当時、これらのモデルによって生成されたビデオはぼやけているだけでなく (たとえば、CogVideo によって生成されたビデオの解像度は 480 x 480 しかありませんでした)、画像も歪んでおり、技術的な制限も数多くありました。しかし、これらは AI コンテンツ生成の分野における重要な進歩を表しています。

表面的には、ビデオは、動きがあるように見せるためにまとめられた一連のフレーム (静止画像) にすぎません。しかし、一連の画像の時間的および空間的な一貫性を確保することは、はるかに困難です。

普及モデルの出現により、テクノロジーの進化が加速しました。研究者たちは拡散モデルを他の分野（オーディオ、3D、ビデオなど）に一般化しようと試み、その結果、ビデオ合成技術が大きく進歩しました。

拡散モデルベースのテクノロジーは主に、ニューラルネットワークが大量の画像、ビデオ、テキストの説明を調べて、いくつかのパターンを自動的に学習できるようにします。コンテンツ要件を入力すると、ニューラルネットワークは、画像の作成に使用される可能性があると考えられるすべての特徴 (猫の耳の輪郭、携帯電話の端) のリストを生成します。

2 番目のニューラルネットワークである拡散モデルは、画像を作成し、これらの機能に必要なピクセルを生成し、ピクセルを一貫した画像に変換する役割を担います。

AI は何千ものビデオを分析することで、多くの静止画像を同様に一貫した方法でつなぎ合わせることを学習できます。重要なのは、各フレーム間の関係性と一貫性を真に理解できるモデルをトレーニングすることです。

「これは過去100年間に我々が開発した最も素晴らしい技術の一つだ」とランウェイのCEO、クリストバル・バレンズエラ氏はかつてメディアに語った。「人々に実際に使ってもらう必要がある」

業界の一部では、2023 年はビデオ合成にとって画期的な年になるとみられています。 1 月にはテキストからビデオへのプロトタイプは公開されていませんでしたが、年末までに同様の製品が数十個登場し、ユーザー数は数百万人に達しました。

a16zのパートナーであるジャスティン・ムーアは、ソーシャルプラットフォーム上でヴィンセントのビデオモデルのタイムラインを共有しました。そこから、大企業のほかに多くのスタートアップ企業があることがわかります。また、技術の反復速度も非常に速いです。

現在の AI ビデオ生成は、LLM のような統一された明確な技術的パラダイムを形成していません。業界は、安定したビデオを生成する方法についてまだ模索段階にあります。しかし研究者たちは、より多くのデータを使ってシステムを訓練すれば、これらの欠陥は解決できると信じている。最終的には、この技術により、ビデオの作成が文章を書くのと同じくらい簡単になるでしょう。

国内のAI業界のベテラン投資家は、ヴィンセントビデオ技術に関する最も重要な論文のいくつかが2022年7月から8月に発表されると語った。ヴィンセント画像の産業化プロセスと同様に、この技術の産業化のノードは1年後、つまり2023年7月から8月に現れるだろう。

ビデオ技術全体は非常に急速に発展しており、技術はますます成熟しつつあります。投資家は、GAN分野におけるこれまでの投資経験に基づき、今後6か月から1年はテキストからビデオへの技術の製品化期間になると予測していると述べました。

Morph チームは、ビデオ生成分野の優秀な若手研究者を集めたチームです。過去 1 年間、昼夜を問わず集中的な研究開発を経て、創設者の Xu Huaizhe 氏と共同創設者の Li Feng 氏、Yin Zixin 氏、Zhao Shihao 氏、Liu Shaoteng 氏などのコア技術バックボーンが AI ビデオ生成の困難を克服しました。

技術チームに加え、Morph Studio は最近製品チームも強化しました。Maoyan Films の契約プロデューサーであり、上海国際映画祭の審査員であり、シリコンバレーの大手 AIGC 社の元中核メンバーである Hai Xin 氏も最近 Morph Studio に加わりました。

海欣氏は、Morph Studioは業界全体の技術研究において主導的な地位を占めており、チームはフラットで、コミュニケーションの効率と実行力が特に高く、メンバー全員が業界に対して情熱を持っていると述べた。彼女の最大の夢はアニメ会社に入ることだった。 AI時代の到来後、彼女はすぐにアニメ業界が将来的に変化を遂げることを認識しました。過去数十年間のアニメの基礎は3Dエンジンでしたが、まもなく新しいAIエンジン時代を迎えるでしょう。未来のピクサーはAI企業から誕生するだろう。そして彼女が選んだのはモーフでした。

創業者の徐懐哲氏は、MorphはAIビデオの道を積極的に開拓しており、AIビデオ時代のスーパーアプリとなり、ユーザーの夢の実現を支援すると語りました。

2024年には、このトラックに独自のミッドジャーニーの瞬間が訪れるだろうと彼は付け加えた。

PS: 本物の無料 1080P ビデオ生成の楽しさを体験するには、次のサイトにアクセスしてください:

https://discord.com/invite/VVqS8QnBkA

<<: LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

>>: ChatGPT-4、Bard、Claude-2、Copilot空間タスクの正確性の比較