OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

概要:ほんの数日前、ビッグアイヴァンが携帯電話でソーシャルメディアをちょっとチェックしたとき、信じられないというあまり飲み物を吹き出してしまいそうなほどのニュースに驚愕しました。昨年の画期的なChatGPTを開発したアメリカの有名なAIスタートアップOpenAIが、最新の驚異であるVincentビデオモデルSoraを発表しました。彼らはソラを紹介しただけでなく、AI が生成した驚くべきビデオも世界に公開しました。 OpenAIによると、このビデオには3つの注目すべき特徴がある。最長60秒の長さ、1つのビデオで複数の角度が提供、そして世界モデルが含まれていることだ。本質的に、OpenAI はビデオ生成パフォーマンスにおいて飛躍的な進歩を達成し、Sora を従来のものと一線を画すものにしました。では、ChatGPTに貢献したOpenAIは、

ほんの数日前、ビッグ・アイヴァンがソーシャルメディアをちょっとチェックしようと携帯電話をチラッと見た時、信じられないというあまり飲み物を吹き出してしまいそうなほどのニュースに驚愕したのです。昨年の画期的なChatGPTを開発したアメリカの有名なAIスタートアップOpenAIが、最新の驚異であるVincentビデオモデルSoraを発表しました。

彼らはソラを紹介しただけでなく、AI が生成した驚くべきビデオも世界に公開しました。 OpenAIによると、このビデオには3つの注目すべき特徴がある。最長60秒の長さ、1つのビデオで複数の角度が提供、そして世界モデルが含まれていることだ。

本質的に、OpenAI はビデオ生成パフォーマンスにおいて飛躍的な進歩を達成し、Sora を従来のものと一線を画すものにしました。

では、ChatGPTに貢献したOpenAIは、今回どのようにしてAIによる動画生成を実現し、ほぼ実現したのでしょうか？この AI ビデオ生成の技術的な利点は何でしょうか。また、それは私たちの生活、さらには人間社会にどのような影響を与えるでしょうか。

ソラのテクノロジー

まずは最初の質問に取り組みましょう。現在、OpenAI は、大規模な AI シーケンシャルビデオモデルの内部動作とアルゴリズムについて、かなり秘密主義を保っています。

彼らはソーシャルメディア上で、OpenAIが「モデルにマルチフレーム予測を提供する」という画期的な成果を上げたと単にほのめかしただけだった。

ビッグアイヴァンの個人的な解釈によれば、これはソラが独学によって人間が発する普遍的な命令言語を深く感情的に理解し構築する能力を獲得したことを意味するようです。

もちろん、必要な単語と絵文字を追加し、わかりやすくするためにフォーマットし直した改訂版がこちらにあります。

「ユニバーサル言語」：OpenAI のデモモードでは、Sora のビデオ生成方法は非常にシンプルです。必要なのは、目的のシーンを説明する英語（または他の言語）だけであり、従来の 3D ビデオ生成の複雑さを完全に回避します。

「奥深い」：ソラが人間の言語を理解し、その理解に基づいてビデオを構築する能力は、実に奥深いです。ビデオ生成に必要な詳細さと深さは、テキストによる説明をはるかに超えます。 ChatGPT がテキストを通じて詳細の一部を実現できる場合、これらの説明はビデオに完全に反映され、指数関数的な複雑さと深さを示す必要があります。

「感情」：AI が生成した画像や動画は、これまで人間の感情を伝えるのに苦労してきました。たとえば、現在 AI が生成した肖像画には感情の深みが欠け、様式化された笑顔しか描かれていないことが多く、批評家からは「生気がない」と評されることもあります。しかし、ソラモデルは、周囲の環境にシームレスに適応する、信じられないほど自然で論理的かつ繊細な感情を表現するキャラクターを表現しています。

プロメテウスのセリフを借りれば、彼らは「魂を持ったビデオの俳優」のようなもので、実在の人間というよりは、生身の個人に近い。

もちろん、これらの機能の中で、OpenAI の「世界モデル」の概念で強調されているように、「構築」が最も重要な側面であると Big Ivan は考えています。

私たちは皆、現実世界が特定の物理法則に従って動いていることを認識しています。物体は重力に従い、風は髪をなびかせ、壊れやすい物体は落とすと当然砕け散ります。

従来の 3D モデリングや AI モデルはこの分野で苦戦しており、現実世界の物理現象を忠実に再現しようとすると問題が発生することがよくあります。現実を構築することは大きな課題であり、この分野で正確さを達成することは依然として困難な作業です。 ️

この点において、ソラは現実とほぼ同等の並外れた能力を発揮します。 ❄️️

例えば、同社は、雪の中で戯れるゴールデンレトリバーの子犬、キャンドルで遊ぶ気まぐれな生き物、日本の桜の季節にのんびり散歩する人々などを映した AI 搭載の動画を公開しました。ビデオは物理法則に厳密に従い、原因と結果に完全に一致するシームレスな遷移と論理的なシーケンスを紹介しています。

さらに、OpenAIによれば、Soraの「構築」機能は現実世界と同様の無限の詳細を実現できるという。フレームレートによって制限される従来の 3D モデリングとは異なり、Sora は詳細を無限に複製できます。ほぼ現実的な知覚と聴覚能力と組み合わせると、この世界構築能力は本当に畏敬の念を抱かせるものです。

ソラの影響

したがって、ChatGPTと同様に、Soraは間違いなく私たちの日常生活に大きな影響を与えるでしょう。前者が私たちの日常生活に与える影響は、単にテキストを出力したり、日常会話に参加したりするだけにとどまりません。一部の企業ではすでに ChatGPT を活用して計画を策定し、多くの時間を節約し、運用効率を向上させています。

Soraと比較すると、ChatGPTが社会に与える影響はごくわずかです。 Sora の登場により、幅広い採用が進み、時間の経過とともにコストが急速に低下するでしょう。 Sora は実際の人間を必要とせずにほぼ無料でビデオを作成できるため、短編ビデオの作成者は最初の衝撃を感じるでしょう。

Sora の機能が改善され、中～長編ビデオのクリエイターに影響を与える可能性があります。機能が 1 時間以上に拡張されれば、Sora を使用して映画やテレビシリーズを制作することも可能になるかもしれません。 ️

多くの人は、ソラは仮想世界とキャラクターしか作れないと考え、その能力を疑うかもしれません。しかし、これは真実からかけ離れています。 Sora は、ビデオ制作において物理世界と仮想世界をシームレスにつなぎます。 AI ビデオプラットフォームはまだ初期段階ではありますが、実際の人々からデータを取り込んで AI レンダリングされた画像を生成することができます。データのブラックボックスとして機能する Sora は、このタスクを難なく処理しました。

たとえば、アイドルの画像を Sora に入力して、自己学習の反復を実行できます。提供するデータが多いほど、アバターはアイドルに似たものになります。次に、動きを説明すると、画面上でアイドルが生き生きと動き出すのを見ることができます。

たとえば、現在のテクノロジーでは、身体データを正確にキャプチャして洗練された機能を実現できます。これを Sora に入力して反復処理することで、アイドルがシームレスにパフォーマンスできるようになります。

この観点から見ると、Sora は ChatGPT よりも速く、より深く私たちの生活の変化を促進し、人間社会を再構築するでしょう。さらに、最も重要な変革はまだ起こっていません。

都市や道路の建設、空港ターミナル、その他の大規模なインフラプロジェクトを視覚的にイメージしながら、計画がグラフィック表現で急速に進化していく様子を想像してみてください。軍事戦略家にとって、AI の助けを借りて戦闘計画を視覚化できれば非常に貴重なことではないでしょうか?

Sora を使えば、これは簡単になります。データを入力するだけで、Sora がそれを直感的に表現します。提供するデータが多いほど、表現はより複雑かつ詳細になります。 ️️

もちろん、この進歩はコンピューティング能力とストレージ容量に大きく依存します。膨大な計算能力により、私たちはやがて、人間社会全体が SORA の形で私たちの目の前のスーパーコンピューター上にグラフィック表示されるという驚くべき光景を目にすることになるかもしれません。

すると、現実世界と仮想世界の違いは何なのかという疑問が湧いてきます。これらの領域のうちどれが現実のものであり、どれがシミュレートされたものなのでしょうか?さらに、私たちの現実は、別の文明によって作り上げられた単なるシミュレーションなのだろうか?

ソラの領域では、私たちの認知は自律的なものなのでしょうか、それとも私たちはソラに従属する一連のアルゴリズムと電気信号にすぎないのでしょうか?これらの疑問は畏敬の念を抱かせると同時に恐ろしくもあり、深い思考を呼び起こします。

しかし、ここで少し立ち止まってみましょう。 2024年までに、Sora に似た AI ビデオ生成ツールが数多く登場し、誰もが観察し、推測できるようになると予想されます。 ️

<<: AIシミュレーターが物理シミュレーションで新たなSOTAを達成！

>>: AIチップ帝国が戦争状態！アルトマン氏は米国政府と密かに会談し、孫正義氏は大きな賭けに向け1000億ドルを緊急調達

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

ブログ

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

ソラのテクノロジー

ソラの影響

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

人工知能の最前線：ブレークスルーの機会と希望

JavaScript アルゴリズムを使用するための 6 つの実用的なヒント

情報フローシナリオにおけるAIGCの実践

推薦する

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる

フォーカス | 機械学習に役立つ 7 つのクラウドコンピューティングサービス

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

Java プログラミングスキル - データ構造とアルゴリズム「ヒープソート」

ロボティックプロセスオートメーションとスマートデータセンターの未来

5月にGitHubで最も人気のある機械学習プロジェクトはこちら

人工知能とモノのインターネット: インターネット通信の未来

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

記憶は人工知能開発の重要な側面を示している