監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。

最近、国内ではミャオヤカメラがインターネット上で大流行しており、サーバーが羊が屠殺されるかのように何度も過負荷状態になった。

写真をアップロードするだけで、数分で AI 写真のセットが手に入るため、海馬が失業するのではないかと叫ぶ人も多い。

一方、海外ではスタートアップのRunwayが、Gen-2がテキストなし、画像だけの動画を生成できると発表したばかりだ。

写真

最も重要なことは、Web バージョンは無料で使用でき、iOS はまもなくリリースされることです。

写真

つまり、大ヒット映画を作るのに必要なのは映像だけであり、誰でもハリウッドの監督になれるのだ。

すでに一部のネットユーザーは、Gen-2をPSフォト編集、MusicGen、AudioLDMなどの吹き替えツールと組み合わせて「ウォーリー」のリメイク版を制作している。

シーンやキャラクターの写真を数枚用意するだけで、映画のコンテンツが完成します。必要なのは手だけです!

また、山や海を越えて旅する龍の恋、大好きです!

誰かが Midjourney と Gen-2 をミックスしたのですが、ビデオの高品質な質感にはただ驚くばかりです。

写真

ネットユーザーによると、これはまさに地獄の聖王であり、Midjourney 5.2+Gen-2は爆発力が強すぎるとのこと。これは、私がしばらく迷い込むことになる、とても深いウサギの穴です。

次は体験の波を続けて見てみましょう。

楽しくてやめられない!

Gen-2 を一言でまとめると、楽しくてやめられないゲームです!

写真

誰かが、手がかりも何もなく、ただイメージだけを使って、「Fire Journey」の予告編を 4 時間かけて作ったんです!

写真

Gen-2で『ライオンキング』をリメイクするなんて、絶対に想像できない!

写真

アノマリーZ(シーズン1)予告編。

写真

Gen2 には本当に驚きました。動きがとても自然でした。

写真

テキストプロンプト生成と画像プロンプト生成の比較。

写真

一部のネットユーザーは、Gen-2 でより長いビデオを出力する方法を見つけました。

このアプローチでは、Midjourney によって生成された画像を初期画像として使用し、次に Gen-2 によって出力された最後のフレームを次の画像プロンプトとして使用します。

写真

通行人の視点から、通りから建物まで歩いていきます。

写真

手の細部を見てください。少し不完全ではありますが、すでに非常に印象的です。

写真

機械的な効果の波がやって来ます。

写真

写真

透き通った深海水の泡。

写真

Q版アイアンマンは未だに叔父さん気質のままだ。

写真

Stability AI の SDXL は画像を生成し、その後 Gen-2 を使用してビデオを生成します。

写真

AIマルチバースがここにあります。

いくつかの小さなバグ。 Gen2 の奇妙なカメオ出演や手足の欠損が好きな人は他にもいますか?

写真

かわいいジャイアントパンダ。

写真

ステップバイステップのチュートリアル

こんなにかっこいいエフェクトなら、誰もが試してみたくなるはずなので、実際に試してみます。

まず、ウェブサイト https://research.runwayml.com/gen2 から Runway アカウントを登録してログインし、Runway 編集インターフェイスに入ります。

左側の「ビデオの生成」をクリックします。

次に、画面中央の「Gen-2: Text to Video」をクリックして Gen-2 に入ります。

左側の領域に写真をアップロードします。私はMidjourneyによって生成されたロボットの写真を使用しています。

ヒント: 人間の友達から自分の惑星を救いたいと願う優しいロボットの未来的な機械、映画風、デジタルイラスト、様式化、深い被写界深度、高解像度、--ar 16:9 --v 5.2

その後はプロンプトを入力する必要はなく、写真をアップロードした後で「生成」をクリックするだけです。約1分後、4秒間のビデオが生成されました。

写真

写真のロボットが一瞬で動き始めました!

編集者は、最近人気の MiaoYa カメラを使用して、地球のインターネット セレブである Boss Ma の「美化された ID 写真」を生成し、その後、Gen-2 の画像からビデオへのモードを使用して彼のビデオを撮影しました。

写真

女性上司マのダイナミックな効果を見てみましょう

さらに、編集者は使用中に、画像自体にダイナミック効果の要素が含まれている場合、生成されたビデオのダイナミック効果がより顕著になることを発見しました。

写真

元の画像が静止画像の場合、または明らかな動的効果がない場合は、生成されたビデオはほとんど動きません。たとえば、下の画像の猫は動かずにただそこに座っているだけです。

写真

写真の雲だけがダイナミックな効果を持ち、他のシーンは静止したままです。

写真

写真に基づいてビデオを作成する機能はプロンプトワードと組み合わせることができないため、アニメーションのダイナミックな効果は写真に含まれるコンテンツに基づいてのみ生成できます。

開発者の設定は、生成された動的効果が画像コンテンツの物理的な設定に準拠し、さまざまな奇妙な動的効果が生成されないようにする必要があります。

ただし、これにより、ビデオを生成するために使用される元の画像にいくつかの要件が課せられます。明らかに静止画像またはシーンの場合、明らかな動的効果はほとんどありません。

写真

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

Gen-2 で生成されたビデオ エフェクトを使用すると、エフェクト トランジションも実現できます。

ビデオのスタイルをゴッホ、モアナ、彫刻などのスタイルに変換できる新しい TokenFlow モデルをお勧めします。

写真

現在、最先端のビデオ モデルは、視覚的な品質と生成されたコンテンツに対するユーザー制御の点で、画像モデルにまだ遅れをとっています。

そこで研究者たちは、テキストグラフモデルをテキスト編集ビデオに拡張するというアイデアを思いつき、新しいフレームワーク「TokenFlow」を作成しました。

具体的には、ソース ビデオとターゲット テキスト プロンプトが与えられると、研究者の方法は、入力ビデオの空間レイアウトと動的効果を維持しながら、ターゲット テキストと一致する高品質のビデオを生成できます。

主なアプローチは、拡散特徴空間の一貫性を強制することによって、編集されたビデオの一貫性を得ることです。

この目標は、モデル内ですぐに利用できるフレーム間の対応に基づいて伝播拡散を明示的に特徴付けることによって達成されます。したがって、新しいフレームワークではトレーニングや微調整は必要なく、市販のテキストから画像への編集方法と直接組み合わせることができるため、半分の労力で 2 倍の結果を達成できます。

写真

同時に、チームは、ビデオの時間的一貫性のレベルがその特徴表現の時間的一貫性と密接に関連していることも観察しました。これは、以下の特徴視覚化図で確認できます。

自然なビデオの特徴は、共有された時間的一貫性ですが、ビデオをフレームごとに編集すると、この一貫性が崩れます。新しい方法により、編集されたビデオが元のビデオと同じ機能の一貫性を持つことが保証されます。

写真

編集プロセスでは、フレーム間で内部拡散機能の一貫性を強制することにより、時間的に一貫した編集を実現できます。

これを実現するために、研究者らは元のビデオ機能間の対応関係を利用して、編集された機能の小さなサブセットをフレーム間で伝播させました。

つまり、入力ビデオ I が与えられると、研究者は各フレームを反転し、ラベルを抽出し、最近傍 (NN) 検索を使用してフレーム間の特徴の対応を抽出します。

各ノイズ除去ステップでは、ノイズの多いビデオ J_t からキー フレームをサンプリングし、拡張アテンション モジュールを使用してそれらを共同編集します。編集されたタグセットはT_baseです。

その後、編集されたマーカーは、元のビデオの特徴との事前計算された対応に基づいて、ビデオ全体に拡散されます。

J_t のノイズを除去するために、研究者は各フレームをネットワークに入力し、生成されたタグを 2 番目のステップで取得したタグに置き換えました。

写真

以下に、その他の定性的な比較をいくつか示します。

RGB 伝播では、オプティカルフローなどの低レベルのキューしか取得できないため、複雑なコンテンツの表示やダイナミクスを持つビデオでは視覚的なアーティファクトが発生します。

一方、Text2LIVE は CLIP に基づいており、拡散モデルの生成事前確率を活用していないため、視覚的な品質の点でより制限があります。

もちろん、このフレームワークにもいくつかの制限があります。

研究者のアプローチは、元のビデオの特徴の対応に基づいてビデオを編集するため、構造的なバイアスを必要とする編集を処理することができません。

写真

素晴らしいアヒルカメラ

昨日、AI生成写真アプリケーション「Miaoya Camera」がインターネット上で人気を博しました。

まず、WeChatでミニプログラム「Miaoya Camera」を検索します。これは、個人の写真を使用して、デジタル(mei)番号(yan)ポイント(zhao)番号(pian)をすばやく生成するアプリケーションです。

入場後、必要に応じて個人写真をアップロードする必要があります。テストに合格すると、突然個人写真20枚のアップロードが求められます。

ストレートの男性である私は、携帯電話を手に入れて以来、おそらく自分の自撮り写真を20枚も保存したことがありません。そのため、テストモデルを務める責任は、当然ながら、インターネットの有名人であるボス・マーに課されました。

10元を費やして1時間以上待った後、馬社長の「Miaoya Camera Digital Clone」がオンラインになりました!

写真

このデジタル アバターを開発者が提供するいくつかのテンプレートと組み合わせて使用​​することで、次のようなさまざまな背景やスタイルの写真を生成できます。

マスクの10代のかわいいバージョン

民族衣装 婦人服 馬老板

マスク氏、仕事探し中

ご家族の皆さん、何を待っていますか? 今すぐお試しください。

<<:  アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

>>:  5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

ブログ    

推薦する

機械学習プロジェクトにおけるデータの前処理とデータ ラングリング

要点一般的な機械学習/ディープラーニング プロジェクトでは、データ準備が分析パイプライン全体の 60...

仮想通貨取引ロボットが手動取引に取って代わり、システム開発が進む

定量取引は高頻度取引の一種です。毎日無数の取引ペアが生成されます。手動で行う場合、多くの市場機会が不...

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

サイバーセキュリティの専門家は、悪意のあるAIが広がり始めると述べている

調査レポートによると、26%の人が、既知のサイバーセキュリティ対策のほとんどを回避できる悪意のあるA...

アルゴリズムを拒否することができます

[[419044]] 「ブラックミラー」には、新婚の夫を亡くした女性が、その悲しみを和らげるために企...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトで...

人工知能が学習と発達に及ぼす7つの影響

急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...

...

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

昨日、OpenAI は初のテキスト生成ビデオ モデル Sora をリリースし、コミュニティに衝撃を与...

...

...

...

デジタルコンテンツ制作のためのDIY AI

背景今年、chatgpt に代表される大型モデルの驚異的なパフォーマンスは、AICG の分野に完全に...

ディープラーニングの成果は収穫されようとしているのでしょうか? 11人の専門家がAIの現在(2018年)と未来(2019年)について語る

KDnuggets は、学界と産業界のさまざまな分野の機械学習と AI の専門家 11 名に相談し、...