北京大学がソラを再現するプロジェクトを立ち上げ、体制が整った! Yuan LiとTian Yonghongがチームを率い、AnimateDiffの専門家が対応した。

北京大学がソラを再現するプロジェクトを立ち上げ、体制が整った! Yuan LiとTian Yonghongがチームを率い、AnimateDiffの専門家が対応した。

重要:

北京大学のチームとTuzhanは共同でSoraの再生計画「 Open Sora」を立ち上げました。

フレームワークと実装の詳細が公開されました。

最初のチームは 13 人で構成されていました。

チームは、北京大学情報工学学院の助教授兼博士課程の指導者であるユアン・リー氏と、北京大学コンピュータサイエンス学院の教授兼博士課程の指導者であるティアン・ヨンホン氏が率いた。

この取り組みはなぜ開始されたのですか?

リソースが限られているため、チームはオープンソース コミュニティの力を結集して、可能な限り再現を実現したいと考えています。

このニュースが報じられるとすぐに、北京大学の卒業生や AnimateDiff の寄稿者らがすぐに反応した。

他にも、高品質のデータセットを提供できると示唆する人たちがいます。

さあ、「国産版ソラ」の新たな挑戦者はここにいる?

プロジェクトの詳細、3つの予備機能が完了しました

まず、これまでに公開された技術的な詳細、つまりチームがどのようにソラを再現する予定かを見てみましょう。

全体的な枠組みとしては、次の 3 つの部分から構成されます。

  • ビデオ VQ-VAE
  • ノイズ除去拡散トランスフォーマー
  • コンディションエンコーダ

これは基本的にSoraの技術レポートの内容と同じです。

Sora ビデオの可変アスペクト比については、チームは上海 AI ラボが提案したばかりの FiT (Flexible Vision Transformer for Diffusion Model、「DiT のアップグレード版」)を参考にして動的マスク戦略を実装し、並列バッチ トレーニング中に柔軟なアスペクト比を維持できるようにしました。

具体的には、高解像度のビデオをアスペクト比を維持しながら最長辺で 256 ピクセルにダウンサンプリングし、右側と下部にゼロを埋め込んで一貫した 256 x 256 解像度にします。これにより、videovae がビデオをバッチでエンコードしやすくなり、拡散モデルがアテンション マスクを使用してバッチ潜在変数のノイズを除去することが容易になります。

可変解像度に関しては、チームは推論中に、トレーニングは固定の 256x256 解像度で実行されたが、可変解像度のサンプリングを実現するために位置補間が使用されたと述べています。

具体的には:

可変解像度ノイズ潜在変数の位置インデックスを[0, seq_length-1]から[0, 255]にダウンスケールして、事前トレーニングの範囲に合わせます。この調整により、注意ベースの拡散モデルはより高解像度のシーケンスを処理できるようになります。可変期間の場合、この機能をサポートするために、VideoGPT の Video VQ-VAE を使用してビデオを潜在空間に圧縮します。

同時に、可変長ビデオの処理を実現するためには、拡張された空間位置を時空間次元に補間することも必要です。

ここでは、ホームページには、解像度がそれぞれ 256x256 と 196x196 の 10 秒ビデオ再構築と 18 秒再構築の 2 つのデモも掲載されています。

これら3つの機能は予備的に実現されています。

関連するトレーニング コードも、対応するリポジトリにオンラインで公開されています。

メンバーは、現在のトレーニングは 8 つの A100-80G (明らかに十分とは言えない) 、入力サイズ 8 フレーム128 x 128 で実行されており、ucf (ビデオ データセット)と同様の効果を生成するのに約 1 週間かかると紹介しました。

現在リストされている 9 つの ToDo 項目から判断すると、可変アスペクト比、可変解像度、可変期間に加えて、動的マスク入力と埋め込みに対するクラス条件の追加の 2 つのタスクも完了しています。

今後の作業には以下が含まれます。

  • サンプリング スクリプト
  • 位置補間の追加
  • 高解像度でのビデオVQVAEの微調整
  • SiTをマージ
  • より多くの条件を組み込む
  • そして最も重要なのは、トレーニングにより多くのデータとGPUを使用することです。

袁里と田永紅が率いる

厳密に言えば、Open Sora プロジェクトは北京大学と TuZhan AIGC の共同研究室によって共同で開始されました。

リーダーの一人であるユアン・リー氏は、北京大学情報工学部の助教授であり、博士課程の指導者でもある。昨年、同氏はフォーブス誌の「アジアの30歳未満の傑出した人々」リストに選ばれた。

彼は中国科学技術大学とシンガポール国立大学でそれぞれ学士号と博士号を取得しました。

彼の研究対象には、ディープ ビジュアル ニューラル ネットワークの設計とマルチモーダル機械学習が含まれます。彼の代表的な筆頭著者論文の 1 つである T2T-ViT は、1,000 回以上引用されています。

2人目のリーダーは、北京大学の博雅特別教授、博士課程の指導教員、IEEE、ACMなどのフェローであり、同時に彭成実験室(深圳)人工知能研究センターの副所長を務める田永紅氏です。同氏は、以前は中国科学院計算技術研究所の助手研究員、ミネソタ大学の客員教授を務めていました。

現在公開されているチームリストから判断すると、残りのメンバーのほとんどは修士課程の学生です。

これには、北京大学版マルチモーダル MoE モデルである MoE-LLaVA、Video-LLaVA、およびマルチモーダル アライメント フレームワーク LanguageBind (ICLR 2024 に選出) に何度も第一著者または共同第一著者として参加してきた Yuan Li の研究グループの Lin Bin が含まれます。

Tuzhan 側では、Tuzhan Intelligence の創設者、会長兼 CEO である Dong Shaoling 氏(北京大学の卒業生でもある)と CTO の Zhou Xing 氏が参加者として参加しています。

全リスト:

ソラの中国語版を最初にリリースできるのは誰でしょうか?

ChatGPTと比較すると、Vincentのビデオトラックに火をつけたSoraの開発は明らかに困難です。

中国版SORAの最初の公開権を誰が獲得するかは、現在、一般の人々にとって大きな疑問符となっている。

その中でも、 ByteDanceに関する噂が最も多い。

今年2月上旬、張楠氏は抖音グループのCEOを辞任し、盈盈の経営を引き継ぎ、外部から憶測を呼んだ。

やがて、「Boximator」と呼ばれるビデオ生成モデルが登場しました。

これは、PixelDance と ModelScope という 2 つの以前の結果に基づいてトレーニングされています。

しかし、ByteDanceは、これは「ByteDance版Sora」ではないという噂をすぐに否定した。

その効果はSoraにはまだ遠く、まだ実装の準備ができていません。誰もがテストできるデモが開始されるまでには、少なくとも2〜3か月かかります。

しかし噂は消えなかった。

昨年11月、ByteDanceは「Dreamina」と呼ばれるAIペイントツールをひっそりとリリースし、好評を博した。

現在、次のようなニュースがあります:

Dreamina では、近々 Sora と同様の動画生成機能をリリースする予定です(現在、社内テスト中)

これがByteDanceの大きな動きであるかどうかは分かりません。

Open Sora プロジェクトのホームページ: https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html https://github.com/PKU-YuanGroup/Open-Sora-Plan

<<:  UniVision: BEV 検出と Occ、デュアル SOTA の統合フレームワーク!

>>:  清華大学とハルビン工業大学は大規模なモデルを 1 ビットに圧縮し、携帯電話で大規模なモデルを実行するという夢が実現しつつあります。

ブログ    
ブログ    

推薦する

OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます

ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...

...

世界トップジャーナルPNASに掲載されました!科学者たちは理論上のコンピューターに基づく意識モデル「意識のあるチューリングマシン」を提案した。

5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...

自動運転の利点は明らかだ。政治協商会議委員の李延宏氏:大規模な商業利用には政策革新が必要

[[385597]]中国時報(www.chinatimes.net.cn)記者の翟延安が北京から報告...

中国の新世代人工知能の新たなハイライトは何ですか?

[[255971]] 「インターネット+」から「AI+」まで、人工知能技術は経済と社会の発展に大き...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました!

[[220982]]人工知能とロボットはどちらも破壊的であり、人類社会の発展の新たな時代を導くでし...

アースデイ 2021: AI、ブロックチェーン、ライフスタイルの選択、IoT が地球を救う方法

昨日、私たちは地球の最大の課題に取り組む絶好の機会であるアースデーを祝いました。 COVID-19パ...

2021 年の自然言語処理 (NLP) のトレンド トップ 10

2020 年は、ディープラーニングベースの自然言語処理 (NLP) 研究にとって忙しい年でした。最...

解説: ジェネレーティブ AI の仕組みとその違い

ChatGPT のような強力な生成 AI システムはどのように機能し、他の種類の人工知能とどう違うの...

[文字列処理アルゴリズム] 最長連続文字とその出現回数のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、文字列内で連続する最長の文字と、その文字が連続して出現する回数を検索...

機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...