監督が消えた！ Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ：10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。

最近、国内ではミャオヤカメラがインターネット上で大流行しており、サーバーが羊が屠殺されるかのように何度も過負荷状態になった。

写真をアップロードするだけで、数分で AI 写真のセットが手に入るため、海馬が失業するのではないかと叫ぶ人も多い。

一方、海外ではスタートアップのRunwayが、Gen-2がテキストなし、画像だけの動画を生成できると発表したばかりだ。

写真

最も重要なことは、Web バージョンは無料で使用でき、iOS はまもなくリリースされることです。

写真

つまり、大ヒット映画を作るのに必要なのは映像だけであり、誰でもハリウッドの監督になれるのだ。

すでに一部のネットユーザーは、Gen-2をPSフォト編集、MusicGen、AudioLDMなどの吹き替えツールと組み合わせて「ウォーリー」のリメイク版を制作している。

シーンやキャラクターの写真を数枚用意するだけで、映画のコンテンツが完成します。必要なのは手だけです！

また、山や海を越えて旅する龍の恋、大好きです！

誰かが Midjourney と Gen-2 をミックスしたのですが、ビデオの高品質な質感にはただ驚くばかりです。

写真

ネットユーザーによると、これはまさに地獄の聖王であり、Midjourney 5.2+Gen-2は爆発力が強すぎるとのこと。これは、私がしばらく迷い込むことになる、とても深いウサギの穴です。

次は体験の波を続けて見てみましょう。

楽しくてやめられない！

Gen-2 を一言でまとめると、楽しくてやめられないゲームです!

写真

誰かが、手がかりも何もなく、ただイメージだけを使って、「Fire Journey」の予告編を 4 時間かけて作ったんです!

写真

Gen-2で『ライオンキング』をリメイクするなんて、絶対に想像できない！

写真

アノマリーZ（シーズン1）予告編。

写真

Gen2 には本当に驚きました。動きがとても自然でした。

写真

テキストプロンプト生成と画像プロンプト生成の比較。

写真

一部のネットユーザーは、Gen-2 でより長いビデオを出力する方法を見つけました。

このアプローチでは、Midjourney によって生成された画像を初期画像として使用し、次に Gen-2 によって出力された最後のフレームを次の画像プロンプトとして使用します。

写真

通行人の視点から、通りから建物まで歩いていきます。

写真

手の細部を見てください。少し不完全ではありますが、すでに非常に印象的です。

写真

機械的な効果の波がやって来ます。

写真

透き通った深海水の泡。

写真

Q版アイアンマンは未だに叔父さん気質のままだ。

写真

Stability AI の SDXL は画像を生成し、その後 Gen-2 を使用してビデオを生成します。

写真

AIマルチバースがここにあります。

いくつかの小さなバグ。 Gen2 の奇妙なカメオ出演や手足の欠損が好きな人は他にもいますか?

写真

かわいいジャイアントパンダ。

写真

ステップバイステップのチュートリアル

こんなにかっこいいエフェクトなら、誰もが試してみたくなるはずなので、実際に試してみます。

まず、ウェブサイト https://research.runwayml.com/gen2 から Runway アカウントを登録してログインし、Runway 編集インターフェイスに入ります。

左側の「ビデオの生成」をクリックします。

次に、画面中央の「Gen-2: Text to Video」をクリックして Gen-2 に入ります。

左側の領域に写真をアップロードします。私はMidjourneyによって生成されたロボットの写真を使用しています。

ヒント: 人間の友達から自分の惑星を救いたいと願う優しいロボットの未来的な機械、映画風、デジタルイラスト、様式化、深い被写界深度、高解像度、--ar 16:9 --v 5.2

その後はプロンプトを入力する必要はなく、写真をアップロードした後で「生成」をクリックするだけです。約1分後、4秒間のビデオが生成されました。

写真

写真のロボットが一瞬で動き始めました！

編集者は、最近人気の MiaoYa カメラを使用して、地球のインターネットセレブである Boss Ma の「美化された ID 写真」を生成し、その後、Gen-2 の画像からビデオへのモードを使用して彼のビデオを撮影しました。

写真

女性上司マのダイナミックな効果を見てみましょう

さらに、編集者は使用中に、画像自体にダイナミック効果の要素が含まれている場合、生成されたビデオのダイナミック効果がより顕著になることを発見しました。

写真

元の画像が静止画像の場合、または明らかな動的効果がない場合は、生成されたビデオはほとんど動きません。たとえば、下の画像の猫は動かずにただそこに座っているだけです。

写真

写真の雲だけがダイナミックな効果を持ち、他のシーンは静止したままです。

写真

写真に基づいてビデオを作成する機能はプロンプトワードと組み合わせることができないため、アニメーションのダイナミックな効果は写真に含まれるコンテンツに基づいてのみ生成できます。

開発者の設定は、生成された動的効果が画像コンテンツの物理的な設定に準拠し、さまざまな奇妙な動的効果が生成されないようにする必要があります。

ただし、これにより、ビデオを生成するために使用される元の画像にいくつかの要件が課せられます。明らかに静止画像またはシーンの場合、明らかな動的効果はほとんどありません。

写真

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

Gen-2 で生成されたビデオエフェクトを使用すると、エフェクトトランジションも実現できます。

ビデオのスタイルをゴッホ、モアナ、彫刻などのスタイルに変換できる新しい TokenFlow モデルをお勧めします。

写真

現在、最先端のビデオモデルは、視覚的な品質と生成されたコンテンツに対するユーザー制御の点で、画像モデルにまだ遅れをとっています。

そこで研究者たちは、テキストグラフモデルをテキスト編集ビデオに拡張するというアイデアを思いつき、新しいフレームワーク「TokenFlow」を作成しました。

具体的には、ソースビデオとターゲットテキストプロンプトが与えられると、研究者の方法は、入力ビデオの空間レイアウトと動的効果を維持しながら、ターゲットテキストと一致する高品質のビデオを生成できます。

主なアプローチは、拡散特徴空間の一貫性を強制することによって、編集されたビデオの一貫性を得ることです。

この目標は、モデル内ですぐに利用できるフレーム間の対応に基づいて伝播拡散を明示的に特徴付けることによって達成されます。したがって、新しいフレームワークではトレーニングや微調整は必要なく、市販のテキストから画像への編集方法と直接組み合わせることができるため、半分の労力で 2 倍の結果を達成できます。

写真

同時に、チームは、ビデオの時間的一貫性のレベルがその特徴表現の時間的一貫性と密接に関連していることも観察しました。これは、以下の特徴視覚化図で確認できます。

自然なビデオの特徴は、共有された時間的一貫性ですが、ビデオをフレームごとに編集すると、この一貫性が崩れます。新しい方法により、編集されたビデオが元のビデオと同じ機能の一貫性を持つことが保証されます。

写真

編集プロセスでは、フレーム間で内部拡散機能の一貫性を強制することにより、時間的に一貫した編集を実現できます。

これを実現するために、研究者らは元のビデオ機能間の対応関係を利用して、編集された機能の小さなサブセットをフレーム間で伝播させました。

つまり、入力ビデオ I が与えられると、研究者は各フレームを反転し、ラベルを抽出し、最近傍 (NN) 検索を使用してフレーム間の特徴の対応を抽出します。

各ノイズ除去ステップでは、ノイズの多いビデオ J_t からキーフレームをサンプリングし、拡張アテンションモジュールを使用してそれらを共同編集します。編集されたタグセットはT_baseです。

その後、編集されたマーカーは、元のビデオの特徴との事前計算された対応に基づいて、ビデオ全体に拡散されます。

J_t のノイズを除去するために、研究者は各フレームをネットワークに入力し、生成されたタグを 2 番目のステップで取得したタグに置き換えました。

写真

以下に、その他の定性的な比較をいくつか示します。

RGB 伝播では、オプティカルフローなどの低レベルのキューしか取得できないため、複雑なコンテンツの表示やダイナミクスを持つビデオでは視覚的なアーティファクトが発生します。

一方、Text2LIVE は CLIP に基づいており、拡散モデルの生成事前確率を活用していないため、視覚的な品質の点でより制限があります。

もちろん、このフレームワークにもいくつかの制限があります。

研究者のアプローチは、元のビデオの特徴の対応に基づいてビデオを編集するため、構造的なバイアスを必要とする編集を処理することができません。

写真

素晴らしいアヒルカメラ

昨日、AI生成写真アプリケーション「Miaoya Camera」がインターネット上で人気を博しました。

まず、WeChatでミニプログラム「Miaoya Camera」を検索します。これは、個人の写真を使用して、デジタル（mei）番号（yan）ポイント（zhao）番号（pian）をすばやく生成するアプリケーションです。

入場後、必要に応じて個人写真をアップロードする必要があります。テストに合格すると、突然個人写真20枚のアップロードが求められます。

ストレートの男性である私は、携帯電話を手に入れて以来、おそらく自分の自撮り写真を20枚も保存したことがありません。そのため、テストモデルを務める責任は、当然ながら、インターネットの有名人であるボス・マーに課されました。

10元を費やして1時間以上待った後、馬社長の「Miaoya Camera Digital Clone」がオンラインになりました！

写真

このデジタルアバターを開発者が提供するいくつかのテンプレートと組み合わせて使用することで、次のようなさまざまな背景やスタイルの写真を生成できます。

マスクの10代のかわいいバージョン

民族衣装婦人服馬老板

マスク氏、仕事探し中

ご家族の皆さん、何を待っていますか? 今すぐお試しください。

<<: アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

>>: 5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

ブログ

監督が消えた！ Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ：10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

楽しくてやめられない！

ステップバイステップのチュートリアル

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

素晴らしいアヒルカメラ

自動化を推進するAIテストツール

GPT-3オープンソースのPutianバージョン：事前学習済みモデルGPT Neoと同等の再現

AIがサイバーセキュリティに革命を起こす: フィッシング攻撃の防止

いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラックテクノロジーになりました。

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

Google Cloud、パンデミック対策のAIモデル構築に向けCOVID-19データセットをリリース

GPT-4 はグラフィカル推論を実行できないのですか? 「手放す」後も、正解率は33％にとどまる

コンピュータビジョンのための 9 つのオープンソースデータセット

ViT以外にも、美団、浙江大学などが、視覚タスクのための統合アーキテクチャであるVisionLLAMAを提案した。

推薦する

自動運転：最も安全ではないが、より安全

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

合成データは AI をより良くすることができるでしょうか?

構築は簡単だが、維持は難しい! Googleの機械学習システムの苦い教訓

人工知能：この冷たい水はちょうどいいタイミングで注がれます！

Llama 2 の精度を 80.3% まで高めるヒントは何でしょうか? Metaは、モデルの幻覚を大幅に削減する新しい注意メカニズムS2Aを提案している。

MITが提案：医療モニタリングのためのベイジアンディープラーニングの導入

オープンソース「AI史上最も重要な非公開会議」！マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

AI、機械学習、ディープラーニングはOEMにとって重要な市場です

2021年にAIスマートカメラがもたらす新たな市場

人工知能に関してどのような基礎教育が必要でしょうか?

ディープラーニングプラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

2024年に誰もが備えるべき5つのテクノロジートレンド

AIカーゴのロープロファイルバージョン？ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース