効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。

DALL·E 3 の画質とコマンド追従能力を完璧に継承し、最長 1 分間の高解像度ビデオを生成できます。

AI の想像の中では、辰年の春節は赤い旗がはためき、大勢の人で賑わっています。

龍舞チームの後を興味深そうに見上げながらついていく子どもたちや、携帯電話を取り出して後を追ったり写真を撮ったりする人がたくさんいました。キャラクターの数も多く、それぞれに個性的な振る舞いをしていました。

雨上がりの東京の街中、濡れた地面に映るネオンの光はRTX ONに匹敵します。

走行中の電車の窓が時折塞がれ、車内の人々の姿が一瞬映り込み、とても印象的でした。

ハリウッド大作のような質感の映画予告編もご覧いただけます。

縦画面の超クローズアップ視点で見ると、このトカゲは細部までよくわかります。

ネットユーザーたちは、ゲームオーバーであり、職を失うことになるだろうと叫んだ。

業界全体を「悼む」人々もいる。

AIは物理的な世界の動きを理解する

OpenAIは、現実世界でのやり取りを必要とする問題を人々が解決できるようモデルを訓練することを目指し、動いている物理世界を理解しシミュレートすることをAIに教えていると述べている。

テキストプロンプトに基づいてビデオを生成することは、計画全体のほんの 1 つのステップにすぎません。

現在、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成できます。プロンプトでユーザーが提示した要件を理解できるだけでなく、これらのオブジェクトが物理世界にどのように存在するかを理解することもできます。

Sora は、1 つのビデオで複数のショットを作成することもできます。また、言語に対する深い理解力を活かして、キャラクターとビジュアル スタイルを維持しながら、ヒントを正確に解釈します。

美しい雪景色の東京は活気に満ちています。カメラは賑やかな街の通りを移動し、美しい雪の日を楽しみ、近くの屋台で買い物をする人々を追います。華やかな桜の花びらが雪の結晶とともに風に舞います。

OpenAI は、Sora の現在の弱点についても隠さず、複雑なシナリオの物理を正確にシミュレートすることが困難であり、因果関係を理解できない可能性があると指摘しています。

たとえば、「5 匹の灰色オオカミの子が人里離れた砂利道で遊び、追いかけ合っている」というシーンでは、オオカミの数が変わり、何匹かは突然現れたり消えたりします。

また、モデルは、左と右を混同するなど、手がかりの空間的な詳細を不明瞭にしたり、特定のカメラの軌跡をたどるなど、時間の経過に伴うイベントを正確に記述することが困難になる場合があります。

「バスケットボールがフープを通過して爆発する」というプロンプトのように、バスケットボールはフープによって適切にブロックされていません。

技術面では、OpenAI は現時点ではあまり明らかにしていませんが、簡単に紹介すると次のようになります。

Sora は、ノイズから始まり、一度にビデオ全体を生成したり、ビデオの長さを延長したりできる拡散モデルです。

重要なのは、一度に複数のフレームの予測を生成し、画像の主題が一時的に視野から外れても変更されないことを保証することです。

GPT モデルと同様に、Sora は Transformer アーキテクチャを使用し、強力なスケーラビリティを備えています。

データに関して言えば、OpenAI はビデオや画像を GPT のトークンと同様にパッチとして表現します。

この統一されたデータ表現により、さまざまな期間、解像度、アスペクト比をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。

Sora は、DALL·E モデルと GPT モデルに関する過去の研究を基に構築されています。 DALL·E 3 の言い換え技術を使用して、視覚的なトレーニング データに対して非常に説明的な注釈を生成するため、ユーザーのテキスト指示に忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成することもでき、画像の内容を正確にアニメーション化し、細部に注意を払います。

このモデルは既存のビデオを取得して拡張したり、欠落しているフレームを埋めたりすることもできます。詳細については技術論文を参照してください(後日公開予定)

Sora は現実世界を理解してシミュレートできるモデルの基盤であり、OpenAI はこれが AGI を実現するための重要なマイルストーンになると考えています。

ウルトラマンオンライン注文

すでに多くのビジュアルアーティスト、デザイナー、映画製作者(および OpenAI の従業員)にSora へのアクセス権が与えられています。

新作も続々と掲載され、ウルトラマンもネットでの受注を開始した。

キューワード @sama を含めると、生成されたビデオ応答が返される可能性があります。


<<:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

>>: 

ブログ    
ブログ    
ブログ    

推薦する

2021年にAIが農業を改善する可能性のある10の方法

PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...

良いプロンプトを書くときは、これらの 6 つのポイントを覚えておいてください。覚えていますか?

効果的なプロンプトを書くことは、AI とのやり取りを成功させるための鍵となります。優れたプロンプトは...

AIはデータセキュリティをどう変えるのか

サイバーセキュリティにおける人工知能 (AI) は、データセキュリティにとって良いものでしょうか、そ...

Weibo ディープラーニング プラットフォームのアーキテクチャと実践

人工ニューラル ネットワーク アルゴリズムの成熟と GPU コンピューティング能力の向上により、ディ...

...

機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ?OpenAI Ilya Super Alignmentチームの最初の論文が発表される

たった今、OpenAI のチーフサイエンティスト Ilya が率いるスーパーアライメントチームが設立...

...

...

...