スタンフォード大学の美容博士の起業プロジェクトは大成功！ AIビデオ生成がトップストリーマーとしてデビュー

スタンフォード大学の中国人博士が休学して起業したところ、AI界でたちまち人気に！

この新製品はAIによる動画生成をターゲットにしており、発売直後から業界のトッププレーヤーとなり、多くの著名人が視聴し、コメントを寄せている。

OpenAI の専門家 Andrej Karpathy 氏がこれを転送し、情熱を込めた長い記事を添付しました。

誰もが、映画『インセプション』の夢の創造者のように、マルチモーダルな夢のディレクターになることができます。

Stability AI の創設者も賛同しました。

この新製品は「Pika 1.0」と呼ばれ、その背後にある会社であるPikaは今年4月に設立されました。

5年前に設立されたRunwayなど、この分野にはすでに多くの製品が存在していることを知っておく必要があります。

AIによる動画生成が「目まぐるしい」時代に、この新製品はどのようにしてその輪から一気に抜け出し、これほどの注目を集めたのでしょうか。

公開されたデモ効果から判断すると、Pika 1.0 はテキストと画像に基づいてビデオをスムーズに生成できるだけでなく、動きと静止を瞬時に変換することもできます。

また、編集性も非常に高く、たった 1 つの文でビデオ内のあらゆる要素の外観をすばやく変更できます。

その結果、同社製品のユーザーは設立からわずか半年で52万人を突破した。

また、同社はQuaraの創設者アダム・ダンジェロ氏、PerplexityのCEOアラヴィンド・スリニヴァス氏、GitHubの元CEOナット・フリードマン氏など多くの有名個人投資家から5,500万ドルの新たな資金も調達した。

それで、Pika は見た目ほど便利なのでしょうか?私たちも早速試してみました。

新しいトップ AI ビデオストリームはどのようなものですか?

今回好評を博したPika 1.0は、Pika社がリリースした初の正式版製品となります。

Discord コミュニティによる 4 か月以上のテストを経て、Pika はこのメジャーアップグレードを開始する時期が来たと考えています。

Pika がテキストまたは画像を使用してビデオを生成することしかできなかった以前のバージョンと比較して、現在の Pika 1.0 にはより多くの機能があります。

テキスト、画像、ビデオスタイルに基づいてビデオを生成できるだけでなく、ビデオの一部を編集することもできます。

どの程度編集可能ですか?

画面サイズを任意に拡大できるだけでなく、5:2、1:1キャンバスから9:16、16:9の超大画面まで、4つのオプションをシームレスに変換できます。

3D、アニメーション、映画などのさまざまなスタイルのフィルターは言うまでもありません。

最も重要なのは、公式バージョン 1.0 ではよりユーザーフレンドリーなWeb バージョンがリリースされたため、Discord でロボットに何度もタグを付けることなく、直接プレイを開始できることです。

（ただし、待ち行列が必要なので、辛抱強く待つ必要があります。）

もちろん、Discord コミュニティに参加して、まずは体験してみることもできます。

まだウェブ版と同様にPika 1.0にアップデートされていませんが、テキストと画像から動画を生成する効果もテストしており、かなり良好です。

コミュニティに参加したら、すぐに「Creations」に進み、以下の 10 個のスポーンエリアのいずれかを選択してプレイを開始します。

入力ボックスに「/」と入力し、最も単純な「/create」コマンドを選択します。

ここでは、 「雨の中で踊るロボット、日没、4k、-gs 8」というプロンプトを入力し、ロボットに与えます。

ビデオは約30 秒で公開されました。これはかなり速いです。

効果としては、雨はあまり目立ちませんが、ロボットの手足の動きは本当に強力です。

少し長めのプロンプトを見てみましょう:

10代の若者が街を歩き、さまざまな場所の写真を撮る

まだ超高速ですが、結果は次のとおりです。

わあ、今回は本当に満足です。写真は期待通りで、想像していたよりもさらに良かったです。

プレーンテキストに加えて、作成用の参照画像をアップロードし、「/animate」コマンドを使用することもできます。

ディンディン、静的な絵文字パッケージがアニメーション化されます。

一般的に、Pika が提供するビデオの長さは 3 秒です(したがって、長すぎるプロンプトワードを使用するのは無駄で、後で無視されます) 。また、毎回満足のいく結果が得られることを保証するものではありませんが、一般的に、数回試すと良い結果が得られます。

自己テストに加えて、ネットユーザーの作品も見ていきますが、その中には驚くべき結果が出ているものもあります。

たとえば、誰かが作ったこの小さなモンスターは、とてもかわいくて、思わず触りたくなります。

2 人の少女が音楽を演奏しているこのクリップもあります。それを見た後、本当に美しい声が聞こえてくるような気がしました。

最も素晴らしいシーンは、短い髪の美女の周りを白い鳩が飛んでいるところです。

雰囲気がありすぎる。

上記の結果を見た後、この会社の背景を見てみましょう。

スタンフォード大学の中国人博士2人によって設立

Pika にはDemi Guo 氏と Chenlin Meng 氏の2 人の創設者がおり、どちらもスタンフォード大学の博士号を取得しています。

The Informationによると、郭文静氏は今年4月にPikaを設立し、その後陳林孟氏が共同設立者として加わった。2人は協力してこのテキスト生成ビデオモデルを開発した。

彼らの学術的経験から判断すると、彼らはそれぞれ NLP とコンピュータービジョンの 2 つの方向で AI 研究に重点を置いており、両者とも生成 AI に関する学術的経験を持っています。

共同創設者兼 CEO のWenjing Guo は、スタンフォード大学 AI ラボ(NLP およびグラフィックス)で博士号を取得しています。

彼女はアメリカで生まれ、杭州で育ちました。中学時代は杭州外国語学校に通っていました。幼少期からプログラミングに触れ、IOI銀メダルを獲得し、学部生として留学を始めました。ハーバード大学に前期入学しました。

この起業に関して、彼女のLinkedInのホームページには彼女が休暇中であることが示されています。これはおそらく、彼女がまず起業活動に集中する予定であることを意味しているのでしょう。

郭文静氏はスタンフォード大学で博士号を取得する前に、ハーバード大学でコンピューターサイエンスの修士号と数学の学士号を取得しました。

彼女は学部在学中にギャップイヤーを取り、Facebook AI Research で研究エンジニアとしてフルタイムで働きました。

在職中、彼女はTransformerを使用して2億5000万のタンパク質配列を分析する研究に参加しました。現在、この論文は、後に人気を博したAlphaFold2を含め、 1,200回以上引用されています。

さらに、彼女はEpic Games、Google、Microsoftなどいくつかの企業でインターンシップを経験しています。

郭文静氏の指導者であるクリストファー・D・マニング氏も、この起業に多大な支援を提供した。

Christopher D Manning 氏は、NLP の研究でよく知られており、Google Scholar で 230,000 件を超える引用があります。彼は Pika の学術アドバイザーの 1 人にもなります。

共同創設者兼 CTO のChenlin Meng 氏は、スタンフォード大学でコンピューターサイエンスの博士号も取得しています。

それ以前は、2020年にスタンフォード大学で数学の学士号を取得しました。

Guo Wenjing のNLP 分野での研究経験と比較すると、彼女はコンピュータービジョンと 3D ビジョンの分野でより多くの学術的経験を持っています。彼女が参加したノイズ除去拡散暗黙モデル(DDIM)の論文は、現在 1,700 回以上引用されています。

さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文を多数発表しており、その多くが口頭発表に選ばれています。

もちろん、Pika 1.0 が人気を博すにつれ、Pika は技術、製品から運用までさまざまな要望に応じて、さらなる採用計画も開始しました。

1か月で5つの製品を発売

急速に拡大しているのはナキウサギだけではないことは特筆に値します。

AIビデオ業界に関して言えば、近年全体として「爆発的な成長」の時期を迎えています。

不完全な統計によると、11月から現在までのわずか1か月間で、5つのAIビデオ生成製品がリリースまたは更新されました。

まず、 11月3日にRunwayのGen-2が画期的なアップデートをリリースし、 4Kの超リアルな鮮明な作品をサポートしました。

その後、11月16日にMetaはEmu Videoをリリースし、ユーザーレビューではGen-2、Pikaなどよりも優れていると評価されました。結果は次のとおりです。

エミューをはじめ、みんながお互いに競争しているようで、みんな一位を争っていました。

わずか2日後の11月18日、ByteDanceはPixelDanceをリリースしました。この作品の躍動感は前例のないもので、画像内の要素は大きく動き、変形していないため、目を引くものです。

わずか3日後の11月21日、AIGC分野のリーダーであるStable AIがついに独自のビデオツール「Stable Video Diffusion」をリリースしました。

効果としては、かなり効きます。

同日、Gen-2 は再び休止状態にはならず、「中断」して、ユーザーが好きな場所にペイントしたり移動したりできるモーションペンの斬新な機能を起動し、生成モデルの制御性における重要なマイルストーンを直接マークしました。

ついに本日11月29日、スタートアップ企業のPikaがウェブ版で正式版1.0を直接リリースし、 「兄貴分」のRunwayに挑戦した。

また、これほど多くの異なる特徴や背景を持つ製品が、どの段階でもデビューを競い合うのは見たことがありません。

これもまた、ため息をつく理由になります。

AIビデオは爆発寸前か？

<<:

>>: マイクロソフトがクロスプラットフォームフレームワーク ML.NET 3.0 を発表: ディープラーニング機能を強化し、AI コンピューティングの効率を向上