効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。

DALL·E 3 の画質とコマンド追従能力を完璧に継承し、最長 1 分間の高解像度ビデオを生成できます。

AI の想像の中では、辰年の春節は赤い旗がはためき、大勢の人で賑わっています。

龍舞チームの後を興味深そうに見上げながらついていく子どもたちや、携帯電話を取り出して後を追ったり写真を撮ったりする人がたくさんいました。キャラクターの数も多く、それぞれに個性的な振る舞いをしていました。

雨上がりの東京の街中、濡れた地面に映るネオンの光はRTX ONに匹敵します。

走行中の電車の窓が時折塞がれ、車内の人々の姿が一瞬映り込み、とても印象的でした。

ハリウッド大作のような質感の映画予告編もご覧いただけます。

縦画面の超クローズアップ視点で見ると、このトカゲは細部までよくわかります。

ネットユーザーたちは、ゲームオーバーであり、職を失うことになるだろうと叫んだ。

業界全体を「悼む」人々もいる。

AIは物理的な世界の動きを理解する

OpenAIは、現実世界でのやり取りを必要とする問題を人々が解決できるようモデルを訓練することを目指し、動いている物理世界を理解しシミュレートすることをAIに教えていると述べている。

テキストプロンプトに基づいてビデオを生成することは、計画全体のほんの 1 つのステップにすぎません。

現在、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成できます。プロンプトでユーザーが提示した要件を理解できるだけでなく、これらのオブジェクトが物理世界にどのように存在するかを理解することもできます。

Sora は、1 つのビデオで複数のショットを作成することもできます。また、言語に対する深い理解力を活かして、キャラクターとビジュアル スタイルを維持しながら、ヒントを正確に解釈します。

美しい雪景色の東京は活気に満ちています。カメラは賑やかな街の通りを移動し、美しい雪の日を楽しみ、近くの屋台で買い物をする人々を追います。華やかな桜の花びらが雪の結晶とともに風に舞います。

OpenAI は、Sora の現在の弱点についても隠さず、複雑なシナリオの物理を正確にシミュレートすることが困難であり、因果関係を理解できない可能性があると指摘しています。

たとえば、「5 匹の灰色オオカミの子が人里離れた砂利道で遊び、追いかけ合っている」というシーンでは、オオカミの数が変わり、何匹かは突然現れたり消えたりします。

また、モデルは、左と右を混同するなど、手がかりの空間的な詳細を不明瞭にしたり、特定のカメラの軌跡をたどるなど、時間の経過に伴うイベントを正確に記述することが困難になる場合があります。

「バスケットボールがフープを通過して爆発する」というプロンプトのように、バスケットボールはフープによって適切にブロックされていません。

技術面では、OpenAI は現時点ではあまり明らかにしていませんが、簡単に紹介すると次のようになります。

Sora は、ノイズから始まり、一度にビデオ全体を生成したり、ビデオの長さを延長したりできる拡散モデルです。

重要なのは、一度に複数のフレームの予測を生成し、画像の主題が一時的に視野から外れても変更されないことを保証することです。

GPT モデルと同様に、Sora は Transformer アーキテクチャを使用し、強力なスケーラビリティを備えています。

データに関して言えば、OpenAI はビデオや画像を GPT のトークンと同様にパッチとして表現します。

この統一されたデータ表現により、さまざまな期間、解像度、アスペクト比をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。

Sora は、DALL·E モデルと GPT モデルに関する過去の研究を基に構築されています。 DALL·E 3 の言い換え技術を使用して、視覚的なトレーニング データに対して非常に説明的な注釈を生成するため、ユーザーのテキスト指示に忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成することもでき、画像の内容を正確にアニメーション化し、細部に注意を払います。

このモデルは既存のビデオを取得して拡張したり、欠落しているフレームを埋めたりすることもできます。詳細については技術論文を参照してください(後日公開予定)

Sora は現実世界を理解してシミュレートできるモデルの基盤であり、OpenAI はこれが AGI を実現するための重要なマイルストーンになると考えています。

ウルトラマンオンライン注文

すでに多くのビジュアルアーティスト、デザイナー、映画製作者(および OpenAI の従業員)にSora へのアクセス権が与えられています。

新作も続々と掲載され、ウルトラマンもネットでの受注を開始した。

キューワード @sama を含めると、生成されたビデオ応答が返される可能性があります。


<<:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

>>: 

ブログ    
ブログ    
ブログ    

推薦する

無駄な文化に抵抗しましょう!チューリング賞受賞者のジューディア・パール氏と21人の学者が共同で公開書簡を発表

2020年末、チューリング賞受賞者のジュディア・パール氏、機械学習の専門家ペドロ・ドミンゴス氏、量子...

...

...

コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

コンピューター ビジョンの GPT の瞬間が到来しました。最近、カリフォルニア大学バークレー校のコン...

...

Android Things と TensorFlow を使用して IoT に機械学習を適用する方法

Android Things を Tensorflow と統合する方法と、機械学習を IoT システ...

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表:AI、ブロックチェーンなど

Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...

肖像ラベルシステムの構築と運用実践

1. ポートレートラベルシステムQunarは、事業開発プロセスごとに独立したポートレートラベリングシ...

...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」

この問題はネットワークフロー理論において非常に基本的なものです。 「新しいアルゴリズムは驚くほど高速...

人間を超えた最初の専門家! OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。ちょうど昨夜、Goog...

ディープラーニングは物理システムのシミュレーションを変え、速度を最大20億倍に高めている。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能は意識のギャップを埋めることができるか?

諺にもあるように、千人の読者には千のハムレットがあり、私たちにとって人工知能 (AI) も同じことが...

...