非常に遅いことを理解していませんが、スタートアップはすでに衰退しています。

この機能はまだ正式にはオープンしていませんが、海外メディアはすでに先行体験する機会を得ています！

結果は、ソラは失敗しました！

最近、外の世界がソラを賞賛する中、一部の冷静な海外メディアが疑問を表明し始めた。

ブルームバーグ：SORA は素晴らしいが、まだプライムタイムには準備ができていない。

その理由は、ソラの現在の身体部位の理解と物理学の複雑な原理がまだ完全には理解されておらず、リクエストの処理にかかる時間が長すぎるからです。

作者のピーブルズ氏によれば、Sora は非常に遅いので、ビデオが生成されるのを待っている間に軽食を食べに行くこともできるそうです。

ソラは失敗しました。オウムとサルは区別がつかず、また非常に遅かったです。

Sora はまだレッドチームテスト中であるため、直接アクセスすることはできません。選ばれたアーティスト、映画製作者、デザイナーのみがこのシステムにアクセスできるようになります。

伝説のビデオキングモデルの真の強さを垣間見るために、ブルームバーグの記者は OpenAI の研究者に次のようなプロンプトを送りました。

「コスタリカの緑豊かなジャングルを飛び回り、木の枝に止まって猿の群れと一緒に果物を食べているオウムの上空からの眺め。ゴールデンアワー、35mmフィルム。」

要点は、色鮮やかなオウムがコスタリカの緑豊かなジャングルの中を飛び回り、最終的に木の幹に着陸し、一群のサルと甘い果物を分け合うというものです。それは一日で最も素晴らしい黄金の時間で、太陽の光が木の梢を通り抜け、葉や猿の白い毛に輝き、金色の光で輝いていました。

Sora によって生成されたビデオは次のようになります。

良さそうですよね？

しかし、よく見てみると、多くの問題が見つかります。

たとえば、オウムがサルの上を飛ぶとき、翼がねじれることがあります。

プロンプトではオウムが 1 羽だけ要求されましたが、Sora は複数のオウムを生成しました。

さらに、果実自体も、そしてその果実に生えている予測不能な爪も、不思議な雰囲気を醸し出しています...

最も面白いのは、オウムの1羽の首が突然「死んだ」かのように傾いただけでなく、その隣の猿も瞬時に「未知の生き物」に変身し、オウムの尻尾が生えたことだ。

この点について、Sora の作者であり OpenAI の科学者でもあるビル・ピーブルズ氏は次のように説明しています。「確かに、Sora は特定のクリップのさまざまな段階で奇妙な動きをします。しかし、このような複雑なシーンをモデル化する Sora の能力は、そのビデオ生成機能が質的に飛躍したことを示しています。」

ソラはいつ来ますか？急がない

Sora はいつから利用できるようになるのでしょうか? 現時点では、まだかなり先の話だということは分かっています。

OpenAIの広報担当者ナタリー・サマーズ氏は、選挙関連のセキュリティリスクを軽減したいため、Soraのリリース時期は決まっていないと述べた。

結局のところ、AI ディープフェイクは何度もブラックリストに載せられており、この時期に新しい AI ビデオツールをリリースすると、OpenAI が疑わしい存在とみなされることになるだろう。

安全性の問題はさておき、ソラが本格的に稼働するまでにはまだまだ長い道のりが残っています。

OpenAI自身も技術レポートの中で、Soraには身体部位に関する問題や物理学の理解の混乱など、まだ改善の余地が大いにあることを認めている。

もちろん、この問題に遭遇するのはソラだけではありません。これは、Runway や Pika などの AI ビデオが直面する一般的な問題です。

写真

ランウェイのウィル・スミスが麺を食べる

さらに、Sora はビデオごとにより多くの計算能力を消費し、より長い待機時間を必要とします。

今回は、DALL-E 3 が単一の画像を生成するほど単純ではありません。

Sora が各リクエストを処理するのにどれくらいの時間がかかりますか?

OpenAIは明確には回答しなかったが、ピーブルズ氏は「モデルの実行を待っている間に軽食を食べに行くこともできる」ため「決して即時ではない」と述べた。

このプロセスは非常に長くなる可能性があります。なぜなら、ブルームバーグの記者は OpenAI に 4 つのプロンプトを与えましたが、提供されたビデオは 2 つだけで、残りの 2 つを作成する時間がなかったためです。

商標登録情報からSoraの真の能力が明らかに: Gemini 1.5 Proをターゲットにしたのは当然

つい最近、OpenAIが申請したSora商標登録の記述も公開されました！

ソラの能力の紹介は以下の通りです。

ビデオと画像を生成します。

自然言語の手がかり、視覚的な手がかり、テキスト、音声に基づいてビデオや画像を作成、生成、編集します。

ビデオおよび画像の認識、処理、分析、理解、生成。

ビデオ、画像、オーディオビジュアル素材を編集、整理、変更、送信、アップロード、ダウンロード、共有する。

テキストからビデオ、テキストから画像へのコンテンツを作成および生成します。

文書が公開された後、AI研究者たちはさらに驚きました。

では、Sora はビデオを生成できるだけでなく、ビデオや画像を理解する機能も備えているのですか?

Google の Gemini 1.5 Pro は 1 時間のビデオを分析できますが、Sora も同様の機能を備えており、まさに次元削減攻撃と言えます。

誰もが遅ればせながらそれに気づきました。Gemini 1.5 Pro のリリース直後、OpenAI は Sora を使って狙いを定めましたが、それは合理的に思えました。

OpenAI のモデル発売計画から判断すると、Sora は現在「評価と反復開発」段階にあるはずです。

次のステップは、プライベートベータ、テストケース、さらなるセキュリティテストを含む段階的な展開フェーズになります。

手をこすってみてください。1年以内には待てると思います。

新しいソラのデモが登場しました!

同時に、TikTokではOpenAIのアカウントが一夜にして人気となり、数日間で18万人のフォロワーを獲得し、100万件近くのいいねを獲得した。

最近、ソラのTikTokアカウントで新しい動画が公開されました。

たとえば、キッチンにいるシェフとキッチン用品のこのビデオは、DALL-E 3 によって生成された画像に基づいて Sora によって生成されました。

まず、DALL-E3はこのような静止画像を生成します。

そして、ソラはこの静止画を元に以下のような動画を生成しました。

コメント欄には、ソラがこれまで存在しなかった生き物を作り出すのを見たい、というメッセージが残されていました。

さて、ソラも論文を提出しに来ました。 Prompt の「これまでに存在したことのないリアルな動物を、自然なドキュメンタリー風に作成」によると、生成されるビデオは次のようになります。

出典：小湖

一見すると、パラスが三次元に来たように見えます。（手動犬頭）

OpenAIは他のスタートアップ企業を全て倒し、投資家たちは大喜び。幸いにも私は投資しなかった。

最近、あらゆる VC ミーティングで Sora について話題になっています。

OpenAI のあらゆる技術的進歩は、資本界の AI に対する想像力を広げます。その代償として、ほとんどのスタートアップ企業の前途は閉ざされてしまった。

半月前、サム・アルトマンがAI技術SORAで制作した超リアルな映画ビデオを公開したとき、テクノロジー業界とハリウッドの両方が警鐘を鳴らしていたことに誰もが気づいた。

海外メディア「The Information」は、AIビデオジェネレーターの開発で長年追跡してきた少なくとも7つの企業がすでに恐怖を感じていることを発見した。

5億5000万ドル以上を投資した投資家たちも恐怖を感じている。

ソラの動画がインターネット全体に熱狂を引き起こした後、ある投資家は非公式にこう語った。「人気のAI動画スタートアップ企業への最近の資金調達ラウンドを逃したのは本当に幸運だった。」

AIビデオの新興企業に資金提供した別の投資家は、もしそうなったとしても、その新興企業の強力なリーダーシップのおかげで買収対象として適しているだろうと安心していると語った。

ソラのビデオのハイライトは、不完全ではあるものの、現実世界の物理法則をシミュレートしている点です。

しかし、AI ビデオの進歩のペースは驚異的で、成熟した映画を制作できるようになる日も近いだろうと信じざるを得ません。

ベンチャーキャピタリストのマット・ターケ氏はXの投稿で、おそらく2025年までにソラが今夜放送されるブラッド・ピット、ミスター・ビースト、トラヴィス・ケルシー主演のナルコスのエピソードを制作するかもしれないと半ば冗談交じりに示唆した。

世界はランウェイに注目している

アルトマンがソラを追い出した後、全員の目がランウェイに向けられた。

これまで、Runway は AI ビデオ分野のリーダーの 1 つとみなされていました。

同社は製品に AI 機能を追加し、ビデオストリップをゼロから作成する機能も備えています。

Runway の AI ビデオジェネレーターは、Runway 自身が開発した潜在的な普及モデルを使用しているため、この小さなスタートアップが追いつく可能性があると市場が信じるのは不合理ではありません。

もちろん、現在のランウェイビデオはソラに匹敵することはできません。

解像度が非常に低いため、不気味の谷効果が生じざるを得ません。

もうひとつの大きな違いは、Runway ユーザーは一度に最大 16 秒のビデオしか生成できないのに対し、Sora は 1 分間のビデオを作成できることです。

Runway の CEO である Cristóbal Valenzuela 氏は次のように語っています。「ビデオモデルはクリエイティブ産業の将来にとって最も重要なテクノロジーの一部です。そのため、この問題について考える人が増えれば増えるほど良いのです... まだ道のりは長いです。」

他の競合他社の開発を過小評価すべきではありません。たとえば、Meta、Stable Diffusion、Pika などは最近、同様の AI ビデオ製品を発売しました。

AI生成画像で知られるAIスタートアップ企業Midjourneyは現在、独自のビデオ製品も準備している。

誰もが抱く共通の疑問: どうすれば利益をあげられるのか?

AI ビデオはドル箱になるか?

大きな疑問は、AI ビデオが AI 写真のように発展するかどうかです。

それはおそらく素晴らしい偉業だろうが、必ずしも金のなる木になるわけではない。

唯一の例外は、2億ドル以上の収益を上げた『ミッドジャーニー』だった。

しかし、他の AI 画像ジェネレーター、OpenAI の DALL-E 3 でさえ、あまり収益を上げていません。

Meta は、広告ビジネスが盛んであるにもかかわらず、そうしようとはしていない。

Sora の他の競合製品である Pika、Stable Diffusion なども、同様のことは行っていません。

業界は揺れている、スタートアップ企業はどこへ向かうのか？

AI ビデオのスタートアップにとって朗報は、OpenAI が Sora を無料で使用できるようにする可能性は低いということだ。その理由の一部は、この技術の運用コストが高いことです。

これは、他の企業が自社製品に料金を請求できることを意味します。

今、彼らにはまだチャンスがあります！ Sora は数か月間使用できなくなる可能性があるためです。

まだ解明されていない謎が 1 つあります。ソラのトレーニングデータはどこから来たのでしょうか?

MetaのAIリーダーの1人であるSoumith Chintala氏など、一部の業界観測者は、このデータの一部はゲームエンジンによって生成された合成データであると推測している。

ゲームエンジンは視覚効果をレンダリングできます。この機能は、以前は主にビデオゲームの開発に使用されていました。

さて、OpenAI が合成データを使用できるとすれば、YouTube やハリウッド映画ライブラリなどの独自のデータセットは、ほとんどの研究者がこれまで考えていたほど AI ビデオモデルの開発には重要ではないということを意味する可能性があります。

つまり、AI 開発者が良質な合成データを生成できれば、収益を得ることができるということです。

長期的に見ると、AI はすでに人間のテキストをすべて学習しており、次のステップはビデオです。ビデオ教材の学習を終えたらどうすればいいですか?

人間界には日々学ぶべきことがたくさんあるので、その頃には大型モデルにカメラが搭載されているかもしれないと言う人もいます。

サム・アルトマンが7兆ドルを要求したということは、OpenAIが本当に、来たるAGIのような素晴らしいものを開発したのかもしれない。

計算能力とデータ、これらのリソースを持っている人が最初の AGI を手に入れるでしょう。

<<: Appleの10年にわたる自動車製造の夢は打ち砕かれた！ 2,000人が解雇またはAIに異動し、100億ドル近くが燃え尽き、マスク氏は大喜び

>>: 農産物産業における人工知能の応用と影響

海外メディアが最初にソラをテストしたが、ビデオはひどい失敗だった？彼らは物理学/動物の変化/非常に遅いことを理解していませんが、スタートアップはすでに衰退しています。

ソラは失敗しました。オウムとサルは区別がつかず、また非常に遅かったです。

ソラはいつ来ますか？急がない

商標登録情報からSoraの真の能力が明らかに: Gemini 1.5 Proをターゲットにしたのは当然

新しいソラのデモが登場しました!

世界はランウェイに注目している

誰もが抱く共通の疑問: どうすれば利益をあげられるのか?

業界は揺れている、スタートアップ企業はどこへ向かうのか？

第4世代移動ロボット：凌東科技V-AMRのグローバル発売と投資促進

OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

携帯電話の通話は安全ではない、GSM暗号化アルゴリズムが破られた

IoTの未来が機械学習に依存する理由

Google、AIアシスタント「Gemini」の修正を加速、拒否率を半減

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

一般的な MapReduce データマイニングアルゴリズム: 平均と分散

高精度なCVモデルを取得するには？ Baidu EasyDLの超大規模ビジュアル事前トレーニングモデルをぜひお試しください

私の国の最新のトップ10のブラックテクノロジーが発表され、あなたの想像力を覆します

推薦する

機械学習は2021年にこれらの5つの業界を変革するだろう

AIが監督者になる。それでも仕事をサボれるのか？

欧州が世界クラスの人工知能研究機関を建設へ

李開復氏はAIバブルが年末までに崩壊すると予測、ルクン氏：それは本当だ

AIとDevOps: 効率的なソフトウェア配信のための完璧な組み合わせ

Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

iPhoneXの顔認識はどのようなデータセキュリティの考え方を誘発するのでしょうか?

2024年のテクノロジートレンド: AI、5G、IoT、ブロックチェーンの影響

中国人工知能ソフトウェア市場ガイド