Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が正式にリリースされてから、内部テストの資格を得たネットユーザーは大いに楽しんでいます。

誰かがこれを使って、赤毛の女の子と彼女の赤毛の猫の短いビデオを生成しました。

従来、一貫性の問題により、AI 動画を使用して優れたアニメーション作品を作成することは困難でした。しかし、Pika 1.0 は本当に嬉しい驚きです!

さらに衝撃的なのは、作者が、これは 100% テキストからビデオへの変換機能を使用して生成されたと述べていることです。

半月前、スタンフォード AI ラボの博士が設立したスタートアップ企業 Pika が、最初の製品をリリースした後、瞬く間にトップクラスの製品になったことを今でも覚えています。

3D アニメーション、アニメ、漫画、映画を生成できるだけでなく、スタイル変換や画面拡張などの重要な機能も実現できます。

今では多くのネットユーザーが試してみて、みんながすごいと思っているようです。

同時に、ピカの公式アカウントでは最新の研究結果を発表しました。同社がPika 1.0のリリース以来、技術的な詳細を公開するのは今回が初めてだ。

最新の研究では、テキストから 3D への生成速度を 4.7 倍に高めることができる DreamPropeller 方式が提案されました。

ネットユーザーによってテストされ、すべてが古典的である

次に、ネットユーザーの創造性を見てみましょう。

Runway の Gen-2 と比較すると、Pika 1.0 はキャラクターのアニメーション化において非常に一貫性があります。

映画レベルの効果、アニメ界の「宮崎駿」とも言える

Pika 1.0 はアニメ風の動物を描くのが得意です。さまざまなシーンのこれらのワシを見てください。

宮崎駿の画風がとても強いことがわかります。

マーベル風のフィギュアもあり、動くと本当に「アベンジャーズ」のように見えます。

キラキラ光る湖で遊んだ後、まるで家に帰る道を探しているかのように岸に向かって泳いでいく孤独な白鳥もいます。

アメリカ版『ウォーリー』アニメのSFスタイルも鮮やかに表現されています。

咲きかけの花のつぼみ。

以下の例は、ピカ自身が作ったジャングルのウサギの兵士の映画レベルのエフェクトであり、ヒントが示されています(内部テスト資格を取得したネットユーザーは試すことができます)

1. ジャングルにいるウサギの兵士の映画のような超クローズアップ、3Dレンダリング

2. ジャングルで巨大なニンジンを探索するウサギの兵士の映画のようなバックビューロングショット、3Dレンダリング

ズートピア、ライオンキング、パンダベアのマッシュアップ。

ネットユーザーは映画の予告編を作成し、そのタイトルまで考えた。「ゴジラ キングコング:新帝国」

アインシュタインと彼の実験。

実在の人物が変身、タイタニックはパロディー

「AIレベルの監督」を自称する人物による実演もあり、ただただ驚かされるばかりです。

帽子とダウンジャケットを羽織ると、違和感なく体にぴったりフィットする組み合わせです。

周りのものを松やヒノキに変えたり、自分をシロクマに変身させたりもできる。とってもかわいい。

「タイタニック」のリメイク版もあり、ヒロインのローズがそのままパンダに変身したり、主人公のジャックと手をつなぐスタイルがとても面白いです...

リアルな人物変身、そして二次元妹の変身効果を見てみましょう。

AI魔法の杖、ワンクリック交換

AIの「領域変更」機能を使うことで、背景や被写体の服装までもを一貫したクリスマススタイルに変更できます。

一部のネットユーザーもこの置き換え機能を試し、ビーチのビールを一瞬にしてコーラに変えました。

特定の効果を実現するために、Chase Lean は 3 つのステップのみで完了するチュートリアルを提供しています。

まず、ビデオを生成する必要があります。Midjourney にビーチでコロナビールを飲む写真を生成させ、それをビデオにします。

手順 2: [編集] をクリックし、[ゾーンの変更] をクリックします。

ステップ 3: コカコーラなど、何に置き換えたいかを Pika に伝えます。

広がるキャンバス、並外れた想像力

画像キャンバス拡張機能は、MidjourneyAI などの多くの画像生成ツールに実際に実装されています。

Pika 1.0 は想像力を広げるだけでなく、絵を動かすこともできます。

アテネのパルテノン神殿を見てください。外側に描かれた風景は、この建物の壮大さをさらに際立たせています。

オリーブの木や、さまざまな驚きが隠されている古代の建物を訪れることもできます。

ビデオを録画すると、ピカが背景を直接想像することができます。

以下のユーザーは、テキスト プロンプトを使用して最初のビデオを作成し、キャンバスを数回拡張して 2 番目のビデオを取得しました。

最初のプロンプトは、城壁に立つ美しい王女の3Dアニメーションです。

コンサートレベルのミュージックビデオを制作したネットユーザーもいるが、まだ欠点があることは認めざるを得ない。

Pika 1.0 の背後にあるテクノロジー

これほど多くの驚くべき効果を見ると、おそらく多くの人が Pika 1.0 によって生成される技術的な詳細についてもっと知りたいと思うでしょう。

先ほど、当局はスタンフォード大学とPika Labsが共同で作成した論文を発表しました。

これまで、DreamFusion、ProlificDreamer などのモデルによる分留法によるテキストから 3D への生成の品質は高かったものの、実行時間は 10 時間にも及ぶことがありました。

最新の論文では、研究者らは分留法に基づく加速法「DreamPropeller」を提案しており、これにより既存の方法の速度を4.7倍に高めることができるという。

論文アドレス: https://arxiv.org/pdf/2311.17082.pdf

DreamPropeller の全体的なアーキテクチャを下図に示します。

各反復(k 回)の開始時に、3D 形状(緑色で表示)で構成されるウィンドウが初期化されます。次に、これらの形状は並列計算のために p 個の GPU に分散され、形状の SDS/VSD 勾配が GPU 上で並列に計算されます。

これらの勾配は式(9)の規則に従って収集され、形状を更新するために使用される。

ウィンドウは、その時間ステップでの誤差がしきい値 e 以上になるまで前方にスライドします。しきい値 e は、ウィンドウの平均/中央誤差に基づいて適応的に更新されます。

さらに、VSD の場合、研究者はすべての GPU に LoRA 拡散の個別のコピーを保持し、追加の通信を必要とせずに独立して更新します。

以下は DreamPropeller アプリケーションの代表的な例です。

最新のフレームワークは並列コンピューティングを速度と交換します。DreamGaussian と ProlificDreamer に適用すると、生成の品質を維持しながら速度が 4 倍以上向上します。

DreamPropeller が完成した時点で、ベースライン バージョンの外観と形状は明らかに劣っていました。

以下は他のモデルとの視覚的な比較です。 DreamPropeller アプローチは、より短い実行時間で同じ高品質を実現します。

DreamFusion ギャラリーからの 30 個のキューの定量的評価。実行時間は秒単位です。最新の研究手法により、4倍以上のスピードで競争力のある品質を実現します。

次の動画はトップストリームを生み出す

Pika 1.0 の誕生はインターネット全体に興奮を呼び起こし、次世代のトップビデオ世代になるかもしれません。

誰かが Discord 上の最大の AI 製品と、それらがプラットフォーム上でどれだけ大きいかを数えました。

以下は招待ページのトラフィックでランク付けされた上位 10 の AI アプリケーションです。Midjourney が 1 位、Pika が 2 位です。

上位 10 位のアプリのうち、4 位は画像生成アプリ、3 位は音声/歌生成アプリ、2 位はビデオ生成アプリです。

トラフィックの面では、画像がトップ 10 トラフィックの 74% を占め、次いでビデオが 8%、音声/音楽が 6% でした。

<<:  1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

>>: 

ブログ    

推薦する

画像やテキストが無限の3D世界を生み出します!スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

スタンフォード大学の呉嘉軍チームが『不思議の国のアリス』の傑作のAI版を制作!たった 1 つの画像ま...

モノのインターネットにおける機械学習の役割は何ですか?

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

人工知能は転移学習を利用して、自然画像から抽出した特徴を利用してイラスト分類の精度を向上させます (...

...

...

ルカン氏の論文は「盗作」と非難されたのか? LSTMの父は怒りの投稿を投稿しました:私をコピーした人はオリジナルにもマークを付けてください

チューリング賞を受賞したヤン・ルカンは、AI分野の三大巨頭の一人です。当然ながら、彼が発表した論文は...

マイクロソフト、AIアシスタントCopilotを搭載したWindows 11のメジャーアップデートをリリース

11月1日(米国時間火曜日)、ソフトウェア大手マイクロソフトは、パソコン用OS「Windows 11...

人工知能業界の給与が明らかに、転職の時期が来た

人工知能は、現在最もホットな産業であると言っても過言ではありません。最先端のテクノロジー企業から革新...

興味深い微表情とAI技術

イギリスの企業が、人が正直に話しているかどうかを識別できるシステムを発明したと言われています。また、...

...

アマゾンのドローン配送部門の主要メンバーが目標未達成で辞任

アマゾンのドローン配送部門プライムエアで安全、飛行運用、規制業務を担当していたショーン・キャシディ氏...

AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知...

プログラマーがマスターになるためのプログラミングアルゴリズムトップ10

アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall によって開発された...

Caffeine ソースコード解釈 - キャッシュ有効期限の削除に関連するアルゴリズム

[[410588]]この記事はWeChatの公開アカウント「Muscular Coder」から転載し...

効率的なコーディングのための 5 つの IntelliJ IDEA プラグイン

人工知能(AI)は現在、将来のトレンドと発展の方向性として広く認識されています。 AI がすべての仕...