効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。

DALL·E 3 の画質とコマンド追従能力を完璧に継承し、最長 1 分間の高解像度ビデオを生成できます。

AI の想像の中では、辰年の春節は赤い旗がはためき、大勢の人で賑わっています。

龍舞チームの後を興味深そうに見上げながらついていく子どもたちや、携帯電話を取り出して後を追ったり写真を撮ったりする人がたくさんいました。キャラクターの数も多く、それぞれに個性的な振る舞いをしていました。

雨上がりの東京の街中、濡れた地面に映るネオンの光はRTX ONに匹敵します。

走行中の電車の窓が時折塞がれ、車内の人々の姿が一瞬映り込み、とても印象的でした。

ハリウッド大作のような質感の映画予告編もご覧いただけます。

縦画面の超クローズアップ視点で見ると、このトカゲは細部までよくわかります。

ネットユーザーたちは、ゲームオーバーであり、職を失うことになるだろうと叫んだ。

業界全体を「悼む」人々もいる。

AIは物理的な世界の動きを理解する

OpenAIは、現実世界でのやり取りを必要とする問題を人々が解決できるようモデルを訓練することを目指し、動いている物理世界を理解しシミュレートすることをAIに教えていると述べている。

テキストプロンプトに基づいてビデオを生成することは、計画全体のほんの 1 つのステップにすぎません。

現在、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成できます。プロンプトでユーザーが提示した要件を理解できるだけでなく、これらのオブジェクトが物理世界にどのように存在するかを理解することもできます。

Sora は、1 つのビデオで複数のショットを作成することもできます。また、言語に対する深い理解力を活かして、キャラクターとビジュアル スタイルを維持しながら、ヒントを正確に解釈します。

美しい雪景色の東京は活気に満ちています。カメラは賑やかな街の通りを移動し、美しい雪の日を楽しみ、近くの屋台で買い物をする人々を追います。華やかな桜の花びらが雪の結晶とともに風に舞います。

OpenAI は、Sora の現在の弱点についても隠さず、複雑なシナリオの物理を正確にシミュレートすることが困難であり、因果関係を理解できない可能性があると指摘しています。

たとえば、「5 匹の灰色オオカミの子が人里離れた砂利道で遊び、追いかけ合っている」というシーンでは、オオカミの数が変わり、何匹かは突然現れたり消えたりします。

また、モデルは、左と右を混同するなど、手がかりの空間的な詳細を不明瞭にしたり、特定のカメラの軌跡をたどるなど、時間の経過に伴うイベントを正確に記述することが困難になる場合があります。

「バスケットボールがフープを通過して爆発する」というプロンプトのように、バスケットボールはフープによって適切にブロックされていません。

技術面では、OpenAI は現時点ではあまり明らかにしていませんが、簡単に紹介すると次のようになります。

Sora は、ノイズから始まり、一度にビデオ全体を生成したり、ビデオの長さを延長したりできる拡散モデルです。

重要なのは、一度に複数のフレームの予測を生成し、画像の主題が一時的に視野から外れても変更されないことを保証することです。

GPT モデルと同様に、Sora は Transformer アーキテクチャを使用し、強力なスケーラビリティを備えています。

データに関して言えば、OpenAI はビデオや画像を GPT のトークンと同様にパッチとして表現します。

この統一されたデータ表現により、さまざまな期間、解像度、アスペクト比をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。

Sora は、DALL·E モデルと GPT モデルに関する過去の研究を基に構築されています。 DALL·E 3 の言い換え技術を使用して、視覚的なトレーニング データに対して非常に説明的な注釈を生成するため、ユーザーのテキスト指示に忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成することもでき、画像の内容を正確にアニメーション化し、細部に注意を払います。

このモデルは既存のビデオを取得して拡張したり、欠落しているフレームを埋めたりすることもできます。詳細については技術論文を参照してください(後日公開予定)

Sora は現実世界を理解してシミュレートできるモデルの基盤であり、OpenAI はこれが AGI を実現するための重要なマイルストーンになると考えています。

ウルトラマンオンライン注文

すでに多くのビジュアルアーティスト、デザイナー、映画製作者(および OpenAI の従業員)にSora へのアクセス権が与えられています。

新作も続々と掲載され、ウルトラマンもネットでの受注を開始した。

キューワード @sama を含めると、生成されたビデオ応答が返される可能性があります。


<<:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

>>: 

ブログ    
ブログ    

推薦する

人工知能技術の発展の概要

[[352219]]人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956...

誇張ではなく、絶対にそうはならない

[[280896]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

[51CTO.comからのオリジナル記事] 「インターネット+」から「インテリジェンス+」まで、革新...

マスク氏の Grok 大型モデルがプレイ可能になりました!彼の口は彼自身と同じくらい悪い。

友達に大きなサプライズ!マスク氏は突然、Grokの大型モデルを大量の有料ユーザーに開放すると発表した...

...

インターネットの理解からユーザーの理解へ、Google は今回何に賭けているのでしょうか?

Google I/O カンファレンスは予定通り開催されます。北京時間5月12日午前1時、Googl...

...

ハッカーはAIの顔を変える技術を使って就職活動を行っている。人工知能のセキュリティ問題は無視できない

米国での流行後、多くの企業が「在宅勤務」(WFH)モデルを採用しました。 FBIの刑事告訴センターは...

機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...

業界丨2020年のインテリジェントウェーブを理解するには、BaiduとGoogleのAIの足跡から始める

2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...

李開復氏:反復労働の代替として、農村地域はAIロボットの着陸に最適な場所

人工知能技術は農業にどのような力を与えるのでしょうか?将来、農業に変化をもたらす最も重要な技術は何で...

スマートテクノロジーは小売業界にどのような影響を与えるでしょうか?

過去数年間、小売業界はテクノロジーによって革命を起こしてきました。店舗の日々の運営方法から、消費者の...

四足歩行ロボットが二足歩行で階段を降りることを学びます。脚型システムより83%効率が高い

テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...

iCubヒューマノイドロボットは目を動かしたり、話したり、人を抱きしめたりすることができ、今回は遠隔操作も可能だ

2011 年には、子供のような iCub ヒューマノイド ロボットについて耳にしていました。これは次...