Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が正式にリリースされてから、内部テストの資格を得たネットユーザーは大いに楽しんでいます。

誰かがこれを使って、赤毛の女の子と彼女の赤毛の猫の短いビデオを生成しました。

従来、一貫性の問題により、AI 動画を使用して優れたアニメーション作品を作成することは困難でした。しかし、Pika 1.0 は本当に嬉しい驚きです!

さらに衝撃的なのは、作者が、これは 100% テキストからビデオへの変換機能を使用して生成されたと述べていることです。

半月前、スタンフォード AI ラボの博士が設立したスタートアップ企業 Pika が、最初の製品をリリースした後、瞬く間にトップクラスの製品になったことを今でも覚えています。

3D アニメーション、アニメ、漫画、映画を生成できるだけでなく、スタイル変換や画面拡張などの重要な機能も実現できます。

今では多くのネットユーザーが試してみて、みんながすごいと思っているようです。

同時に、ピカの公式アカウントでは最新の研究結果を発表しました。同社がPika 1.0のリリース以来、技術的な詳細を公開するのは今回が初めてだ。

最新の研究では、テキストから 3D への生成速度を 4.7 倍に高めることができる DreamPropeller 方式が提案されました。

ネットユーザーによってテストされ、すべてが古典的である

次に、ネットユーザーの創造性を見てみましょう。

Runway の Gen-2 と比較すると、Pika 1.0 はキャラクターのアニメーション化において非常に一貫性があります。

映画レベルの効果、アニメ界の「宮崎駿」とも言える

Pika 1.0 はアニメ風の動物を描くのが得意です。さまざまなシーンのこれらのワシを見てください。

宮崎駿の画風がとても強いことがわかります。

マーベル風のフィギュアもあり、動くと本当に「アベンジャーズ」のように見えます。

キラキラ光る湖で遊んだ後、まるで家に帰る道を探しているかのように岸に向かって泳いでいく孤独な白鳥もいます。

アメリカ版『ウォーリー』アニメのSFスタイルも鮮やかに表現されています。

咲きかけの花のつぼみ。

以下の例は、ピカ自身が作ったジャングルのウサギの兵士の映画レベルのエフェクトであり、ヒントが示されています(内部テスト資格を取得したネットユーザーは試すことができます)

1. ジャングルにいるウサギの兵士の映画のような超クローズアップ、3Dレンダリング

2. ジャングルで巨大なニンジンを探索するウサギの兵士の映画のようなバックビューロングショット、3Dレンダリング

ズートピア、ライオンキング、パンダベアのマッシュアップ。

ネットユーザーは映画の予告編を作成し、そのタイトルまで考えた。「ゴジラ キングコング:新帝国」

アインシュタインと彼の実験。

実在の人物が変身、タイタニックはパロディー

「AIレベルの監督」を自称する人物による実演もあり、ただただ驚かされるばかりです。

帽子とダウンジャケットを羽織ると、違和感なく体にぴったりフィットする組み合わせです。

周りのものを松やヒノキに変えたり、自分をシロクマに変身させたりもできる。とってもかわいい。

「タイタニック」のリメイク版もあり、ヒロインのローズがそのままパンダに変身したり、主人公のジャックと手をつなぐスタイルがとても面白いです...

リアルな人物変身、そして二次元妹の変身効果を見てみましょう。

AI魔法の杖、ワンクリック交換

AIの「領域変更」機能を使うことで、背景や被写体の服装までもを一貫したクリスマススタイルに変更できます。

一部のネットユーザーもこの置き換え機能を試し、ビーチのビールを一瞬にしてコーラに変えました。

特定の効果を実現するために、Chase Lean は 3 つのステップのみで完了するチュートリアルを提供しています。

まず、ビデオを生成する必要があります。Midjourney にビーチでコロナビールを飲む写真を生成させ、それをビデオにします。

手順 2: [編集] をクリックし、[ゾーンの変更] をクリックします。

ステップ 3: コカコーラなど、何に置き換えたいかを Pika に伝えます。

広がるキャンバス、並外れた想像力

画像キャンバス拡張機能は、MidjourneyAI などの多くの画像生成ツールに実際に実装されています。

Pika 1.0 は想像力を広げるだけでなく、絵を動かすこともできます。

アテネのパルテノン神殿を見てください。外側に描かれた風景は、この建物の壮大さをさらに際立たせています。

オリーブの木や、さまざまな驚きが隠されている古代の建物を訪れることもできます。

ビデオを録画すると、ピカが背景を直接想像することができます。

以下のユーザーは、テキスト プロンプトを使用して最初のビデオを作成し、キャンバスを数回拡張して 2 番目のビデオを取得しました。

最初のプロンプトは、城壁に立つ美しい王女の3Dアニメーションです。

コンサートレベルのミュージックビデオを制作したネットユーザーもいるが、まだ欠点があることは認めざるを得ない。

Pika 1.0 の背後にあるテクノロジー

これほど多くの驚くべき効果を見ると、おそらく多くの人が Pika 1.0 によって生成される技術的な詳細についてもっと知りたいと思うでしょう。

先ほど、当局はスタンフォード大学とPika Labsが共同で作成した論文を発表しました。

これまで、DreamFusion、ProlificDreamer などのモデルによる分留法によるテキストから 3D への生成の品質は高かったものの、実行時間は 10 時間にも及ぶことがありました。

最新の論文では、研究者らは分留法に基づく加速法「DreamPropeller」を提案しており、これにより既存の方法の速度を4.7倍に高めることができるという。

論文アドレス: https://arxiv.org/pdf/2311.17082.pdf

DreamPropeller の全体的なアーキテクチャを下図に示します。

各反復(k 回)の開始時に、3D 形状(緑色で表示)で構成されるウィンドウが初期化されます。次に、これらの形状は並列計算のために p 個の GPU に分散され、形状の SDS/VSD 勾配が GPU 上で並列に計算されます。

これらの勾配は式(9)の規則に従って収集され、形状を更新するために使用される。

ウィンドウは、その時間ステップでの誤差がしきい値 e 以上になるまで前方にスライドします。しきい値 e は、ウィンドウの平均/中央誤差に基づいて適応的に更新されます。

さらに、VSD の場合、研究者はすべての GPU に LoRA 拡散の個別のコピーを保持し、追加の通信を必要とせずに独立して更新します。

以下は DreamPropeller アプリケーションの代表的な例です。

最新のフレームワークは並列コンピューティングを速度と交換します。DreamGaussian と ProlificDreamer に適用すると、生成の品質を維持しながら速度が 4 倍以上向上します。

DreamPropeller が完成した時点で、ベースライン バージョンの外観と形状は明らかに劣っていました。

以下は他のモデルとの視覚的な比較です。 DreamPropeller アプローチは、より短い実行時間で同じ高品質を実現します。

DreamFusion ギャラリーからの 30 個のキューの定量的評価。実行時間は秒単位です。最新の研究手法により、4倍以上のスピードで競争力のある品質を実現します。

次の動画はトップストリームを生み出す

Pika 1.0 の誕生はインターネット全体に興奮を呼び起こし、次世代のトップビデオ世代になるかもしれません。

誰かが Discord 上の最大の AI 製品と、それらがプラットフォーム上でどれだけ大きいかを数えました。

以下は招待ページのトラフィックでランク付けされた上位 10 の AI アプリケーションです。Midjourney が 1 位、Pika が 2 位です。

上位 10 位のアプリのうち、4 位は画像生成アプリ、3 位は音声/歌生成アプリ、2 位はビデオ生成アプリです。

トラフィックの面では、画像がトップ 10 トラフィックの 74% を占め、次いでビデオが 8%、音声/音楽が 6% でした。

<<:  1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

>>: 

ブログ    
ブログ    

推薦する

スウェット物流からスマート物流へ、物流業界はよりスマートになっている

2020年は異例の年です。新型コロナウイルスの世界的な蔓延は人々の生活や仕事に多くの不便をもたらし、...

ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

ロボットが人間の「仲間」となり、人間と機械の関係が変化する。これは良いことなのか、悪いことなのか?

最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...

...

10の古典的なソートアルゴリズム

[[432257]]ソースコードはこちら GitHub: https://github.com/na...

人工知能応用シナリオのレビューと展望

2020 年は特別で忘れられない年であり、人工知能にとっても同じことが言えます。 [[374502]...

自律的で制御可能なAIフレームワークは信頼性が高いが、すべてのAIコンピューティングセンターが同等というわけではない

現在、人工知能の発展レベルは、都市の競争力と将来の発展の可能性を測る新たな指標となっている。その結果...

AI は世界を変える。e コマースのビジネス シナリオで顔認識をどのように活用するのでしょうか?

【51CTO.comオリジナル記事】 1. 概要今日、コンピュータービジョンとディープラーニングの...

...

人工知能の時代、どう生き残るのか?

[[355352]] 1 この時代、誰もがまだ新人ですが、世界が3つの部分に分かれていることはすで...

アンビエントコンピューティングが次の大きなトレンドになる理由

アンビエント コンピューティングとは、テクノロジーが環境にシームレスに溶け込み、日常生活に浸透する世...

自分に最適なオープンソース フレームワークを選択するにはどうすればよいでしょうか?

多くのニューラル ネットワーク フレームワークは長年にわたってオープン ソース化されており、機械学習...