人気のSoraはDiTを最前線に押し上げ、GitHubのホットリストにも載りました。新しいバージョンのSiTに進化しました。

人気のSoraはDiTを最前線に押し上げ、GitHubのホットリストにも載りました。新しいバージョンのSiTに進化しました。

リリースされてから1週間近く経ちますが、OpenAIの動画生成モデルSoraの衝撃はまだまだ続きます!

中でも、Sora の研究開発リーダーの 1 人である Bill Peebles 氏とニューヨーク大学の助教授である Xie Saining 氏が執筆した DiT (Diffusion Transformer) 論文「Scalable Diffusion Models with Transformers」は、Sora を支える重要な技術基盤の 1 つと考えられています。この論文はICCV 2023に採択されました。


  • 論文アドレス: https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub アドレス: https://github.com/facebookresearch/DiT

ここ2日間で、DiT論文やGitHubプロジェクトの人気が高まり、再び大きな注目を集めています。

この論文は PapersWithCode のトレンド リサーチ リストに掲載され、約 2,700 個のスターが付けられました。また、GitHub のトレンド リストにも掲載され、スターの数は毎日数百個ずつ増加し、スターの総数は 3,000 を超えました。

出典: https://paperswithcode.com/

出典: https://github.com/facebookresearch/DiT

この論文の初版は2022年12月であり、第2版は2023年3月に更新されました。当時、拡散モデルは画像生成において驚くべき成果を達成しており、そのほとんどすべてが畳み込み U-Net をバックボーンとして使用していました。

したがって、本論文の目的は、拡散モデルにおけるアーキテクチャ選択の重要性を探り、将来の生成モデル研究のための実証的なベースラインを提供することです。この研究は、U-Net 誘導バイアスが拡散モデルのパフォーマンスにとって重要ではなく、トランスフォーマーなどの標準設計に簡単に置き換えることができることを示しています。

具体的には、研究者らはトランスフォーマーアーキテクチャに基づく新しい拡散モデル DiT を提案し、潜在拡散モデルをトレーニングして、一般的に使用されている U-Net バックボーンネットワークを潜在パッチで動作するトランスフォーマーに置き換えました。彼らは、フォワードパスの複雑度を GFLOP 単位で測定することにより、Diffusion Transformer (DiT) のスケーラビリティを分析しました。

研究者たちは、モデルの深さと幅が異なる 4 つの構成 (DiT-S、DiT-B、DiT-L、DiT-XL) で実験を行いました。

トランスフォーマーの深さ/幅を増やすか、入力トークンの数を増やすと、GFLOP が高い DiT では一貫して FID が低くなることを発見しました。

DiT-XL/2 モデルは、優れたスケーラビリティに加えて、クラス条件付き ImageNet 512×512 および 256×256 ベンチマークでこれまでのすべての拡散モデルを上回り、後者で FID SOTA 2.27 を達成しました。

より優れた品質、スピード、柔軟性を備えたSiT

さらに、DiTも今年1月にアップグレードされました! Xie Saining 氏と彼のチームは、同じバックボーンでより優れた品質、速度、柔軟性を実現する SiT (Scalable Interpolant Transformer) を立ち上げました。

Xie Saining 氏は、SiT は標準的な拡散を超え、補間を通じてより広い設計空間を探索すると述べました。

この論文のタイトルは「SiT: スケーラブルな補間トランスフォーマーによるフローおよび拡散ベースの生成モデルの調査」です。


  • 論文アドレス: https://arxiv.org/pdf/2401.08740.pdf
  • GitHub アドレス: https://github.com/willisma/SiT

簡単に言えば、SiT は柔軟な補間フレームワークを DiT に統合し、画像生成における動的トランスポートの微妙な探索を可能にします。 SiT は ImageNet 256 で FID 2.06 を達成し、補間ベースのモデルを新たなレベルに押し上げました。

論文の第一著者であるニューヨーク大学の学部生ナンイエ・マー氏が論文を解釈した。この論文では、確率的補間が拡散とフローの統一されたフレームワークを提供すると主張しています。ただし、DDPM (ノイズ除去拡散確率モデル) に基づく DiT と新しい補間ベースのモデルとの間にはパフォーマンスの違いがあることに注意してください。したがって、研究者はパフォーマンスの向上がどこから来るのかを探求したいと考えています。

彼らは、設計空間における一連の直交ステップを経て、DiT モデルから SiT モデルへと徐々に移行することで、この質問に答えます。拡散モデルからの各移行によるパフォーマンスへの影響は慎重に評価されます。

研究者たちは、補間とサンプラーがパフォーマンスに最も大きな影響を与えることを発見しました。補間(つまり、分布パス)を分散保存型から線形に切り替え、サンプラーを決定論型から確率論型に切り替えると、劇的な改善が見られました。

ランダムサンプリングの場合、拡散係数はトレーニングとサンプリングの間で結び付けられる必要はなく、推論時間に関して多くの選択肢が可能であることを示します。決定論的サンプラーとランダムサンプラーはどちらも、異なる計算予算の下ではそれぞれ独自の利点を持っています。

最後に、研究者らは、SiT を連続的、レート予測可能、線形スケジュール可能、SDE サンプリング モデルとして説明しています。拡散モデルと同様に、SiT はパフォーマンスの向上を実現し、DiT よりも優れたパフォーマンスを発揮します。

DiT と SiT の詳細については、元の論文を参照してください。

<<:  20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

>>:  なぜSoraはOpenAIから生まれたのでしょうか?最前線で働く従業員の勤務と休息のタイムラインの秘密:私たちは

ブログ    
ブログ    

推薦する

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

再現可能なロボット合成のために化学者とロボットが理解できる汎用化学プログラミング言語

化学合成に関する文献の量は急速に増加していますが、新しいプロセスを研究室間で共有し評価するには長い時...

ICDM の選択: データ マイニングの代表的なアルゴリズム トップ 10

2006 年 12 月、国際的に有名な学術組織である IEEE 国際データマイニング会議 (ICD...

...

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...

形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある

トランスフォーマー モデルは多くのタスクで非常に効果的ですが、一見単純な形式言語ではうまく機能しませ...

人工知能が科学を変える4つの方法

新たな医学研究から宇宙の新たな理解まで、新しいモデルは科学界に衝撃を与えました。世界中のほとんどの人...

ディープラーニング:新興技術の限界を押し広げる

ビッグデータや人工知能などの新興技術は猛烈な勢いで発展しており、その一因はディープラーニングの驚異的...

プロジェクトの失敗を促しますか? MITとスタンフォードでは、大きなモデルが積極的に質問し、あなたが何を望んでいるかを把握できるようにしています

予想通り、リマインダーエンジニアリングは消えつつあり、この新しい研究はその理由を説明しています。何百...

2024年の通信市場における主要トレンドを探る

1. 通信事業者は注文処理とサービスの有効化の簡素化に注力する効率性と俊敏性は、通信業界で成功するた...

MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

MITの研究者らが発表した2つの新しい論文は、現在の機械学習モデルがフェイクニュース報道を区別する能...

ソフトバンクの孫正義社長:AIの知能は10年以内に人間を超えると予想

ロイター通信は10月4日、ソフトバンクグループの創業者兼CEOの孫正義氏が本日、汎用人工知能(AGI...

...

2024年のテクノロジートレンド

2024年を見据えて、多くの技術リーダーや観察者は、AIが依然として会話や企業計画の中心となるだろう...

...