安定的な動画拡散をリリースしました！ 3D合成機能が注目を集める、ネットユーザー「進歩が速すぎる」

安定拡散当局はついにこのビデオに対して行動を起こした――

生成ビデオモデルStable Video Diffusion (SVD)をリリースしました。

Stability AI の公式ブログによると、新しい SVD はテキストからビデオへの生成と画像からビデオへの生成をサポートしているそうです。

また、オブジェクトを単一の視点から複数の視点に変換する、つまり3D 合成もサポートしています。

外部の評価によると、SVDはRunwayやPikaの動画生成AIよりもユーザーに人気があると公式は主張している。

現時点では基本モデルのみが公開されているが、担当者は「今後も拡大を続け、Stable Diffusionと同様のエコシステムを構築する計画がある」と明かした。

紙のコード重量がオンラインになりました。

最近、動画生成の分野では新しい遊び方が次々と登場しています。今回はStable Diffusionの番です。ネットユーザーの第一反応は「速い」で、進歩が速すぎるほどです。

しかし、デモの影響だけから判断すると、あまり驚かないというネットユーザーの方が多かった。

私は SD が大好きで、これらのデモは素晴らしいのですが... いくつか欠陥があり、照明がオフで、全体的に途切れ途切れの要素(ビデオフレーム間のちらつき)があります。

全体として、これはまだ始まりに過ぎず、ネットユーザーは SVD の 3D 合成機能について非常に楽観的です。

すぐにもっと良いものが登場するでしょう。説明するだけで完全な 3D シーンが得られるのです。

SDビデオ正式版が登場

上記に加えて、公式ではさらに多くのデモもリリースされています。まずはそれらを見てみましょう。

宇宙遊泳も計画されています。

背景を静止したまま、2羽の鳥だけを動かすこともできます。

SVDに関する研究論文も公開されています。SVDはStable Diffusion 2.1をベースにしており、約6億サンプルのビデオデータセットで基本モデルを事前トレーニングしたと報告されています。

マルチビューデータセットを微調整することで、単一の画像からマルチビューを合成するなど、さまざまな下流タスクに簡単に適応できます。

微調整の後、公式発表では、3～30 fps のカスタムフレームレートで 14 fps (SVD) および 25 fps (SVD-XT) のビデオを生成できる 2 つの画像からビデオへのモデルが発表されました。

その後、SVD-MV と呼ばれるマルチビュービデオ生成モデルを微調整しました。

テスト結果によると、GSO データセットでは、SVD-MV はマルチビュー生成モデル Zero123、Zero123XL、SyncDreamer よりも優れたスコアを獲得しました。

なお、Stability AI は、SVD は現在研究に限定されており、実用的または商業的なアプリケーションには適していないと述べています。 SVD はまだすべての人が利用できるわけではありませんが、ユーザー待機リストへの登録は開始されています。

ビデオ世代の爆発的増加

最近、ビデオ生成の分野ではちょっとした無差別競争が起きています。

以前は、 PikaLabsによって開発された Vincent Video AI がありました。

その後、史上最強の動画生成AIと言われるMoonvalleyが発売されました。

最近、Gen-2 の「モーションブラシ」機能が正式にリリースされ、指した場所に何でも描画できるようになりました。

現在ではSVDが再び登場し、再び3Dビデオを生成できるようになりました。

しかし、テキストから3D生成に関してはあまり進歩がないようで、ネットユーザーもこの現象に困惑している。

データは開発を妨げるボトルネックであると考える人もいます。

一部のネットユーザーは、強化学習が十分に強力ではないことが理由だと述べた。

家族はこの件に関する最新の動向を知っていますか?コメント欄でのシェアを歓迎します〜

論文リンク: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

<<: 大規模モデルの観点から見た因果推論

>>: ChatGPTの最強のライバルのアップデート！コンテキストの長さは 2 倍になり、API 価格は 30% 近く下がりました。

ブログ

安定的な動画拡散をリリースしました！ 3D合成機能が注目を集める、ネットユーザー「進歩が速すぎる」

SDビデオ正式版が登場

ビデオ世代の爆発的増加

AI企業の成人式：自由が996と衝突し、技術的理想が地上戦争と衝突する

スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

北京交通大学が中国初の大規模交通モデルTransGPTのソースを公開、商用利用は無料

2020年中国インテリジェントIoT（AIoT）白書

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

テキスト生成画像は非常に人気があり、これらの技術の進化を理解する必要があります

人工知能分野における新たな投資・資金調達ブームの恩恵を受けている企業はどこでしょうか?

推薦する

メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長：現実世界のデータトレーニングは不要

あるプログラマーは仕事を辞めて人工知能に転職した。4か月後に後悔し、多くの挫折を経験した。

PHP 再帰アルゴリズムとアプリケーションの紹介

エヌビディアのCEOが主権的AIインフラの必要性を訴える

四足歩行ロボットが二足歩行で階段を降りることを学びます。脚型システムより83%効率が高い

コーヒーショップの監視ビデオが流出し、何百万人もの人々が視聴していた。マスク氏は「ひどい！」と叫んだ。 AIはあなたがコーヒーをどれくらい飲んだかを正確に把握しています

QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

ロボットコーチ＋模擬運転、焦作全通自動車学校が運転訓練の先駆者

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

無人配送はJD.com、Alibaba、SF Expressの「新たなお気に入り」となっているが、全国的に普及するには10年かかるかもしれない！

人工知能がデジタル時代の教師の変革を促進