OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 AI テクノロジー企業である Stability AI も大きな動きを見せ、Stable Diffusion 3 をリリースしました。同社によれば、これはこれまでで最も強力な Vincent モデルだという。 以前のバージョンと比較して、Stable Diffusion 3 で生成されるグラフィックスは、品質の大幅な向上、複数のテーマ プロンプトのサポート、およびテキスト書き込み効果の向上を実現しました。以下に公式の例をいくつか示します。 ヒント: 夜の山頂にいる魔法使いが、カラフルなエネルギーでできた「安定した拡散 3」と書かれた暗い空に宇宙の呪文を唱える壮大なアニメアート作品 ヒント: 教室のテーブルの上に赤いリンゴが置かれた映画のような写真。黒板にはチョークで「大胆に挑戦するか、家に帰るか」という言葉が書かれている。 ヒント: チュチュを着てピンクの傘を持った豚に乗っている宇宙飛行士の絵。豚の隣の地面にはシルクハットをかぶったロビンの鳥がいて、隅には「安定拡散」という言葉があります。 ヒント: 黒い背景のカメレオンのスタジオ写真のクローズアップ さらに、Stability AI メディア ディレクターは、生成された結果の一部も示しました。 Stability AI によると、Stable Diffusion 3 は、パラメータ数が 800M から 80B の範囲にあるモデル ファミリです。この数のパラメータは、多くのポータブル デバイスで直接実行できることを意味し、大規模な AI モデルを使用するハードルが大幅に下がります。 さらに、Stability AI は、Sora と同様に、新しいモデルに拡散トランスフォーマー アーキテクチャを使用していることも明らかにし、ブログで William (Bill) Peebles 氏と Xie Saining 氏が共同執筆した DiT 論文へのリンクを貼りました。この論文の現在の引用数は 201 で、今年は大幅に増加すると予想されています。 ただし、Stable Diffusion 3 はまだ完全には利用できず、重みも発表されていません。チームは、犯罪者による悪用を防ぐためにいくつかのセキュリティ対策を講じていると述べました。 試してみたいユーザーは、次のリンクをクリックして申請してください: https://stability.ai/stablediffusion3 同社のCEO、エマド・モスタケ氏は、Xプラットフォームの投稿で、フィードバックを得て改良を加えた後、モデルをオープンソース化すると述べた。 Stable Diffusion 3 が DALL・E 3 や Midjourney とどう違うのか気になる人も多いのではないでしょうか。テストを行った人もいますが、明らかな違いはないようです。しかし、Stable Diffusion 3 はオープンソースの世界にとっての希望です。 注目すべきは、Stable Diffusion 3のリリースと同時期に、Stability AI傘下の画像生成アプリケーション企業であるClipdropが買収されたことも海外メディアで報じられていることだ。 2020年7月に設立されたパリを拠点とするClipdropは、オープンソースのAIモデルを使用して、ユーザーが写真を生成および編集できるようにしています。同社はエア・ストリート・キャピタルからシード投資を調達し、2023年3月にスタビリティーAIに非公開の金額で売却した。当時、Clipdrop は 1,500 万人以上のユーザーがいると発表していました。しかし、わずか1年後、Stability AIはそれをアメリカのライティングアシスタントのスタートアップ企業Jasperに売却した。 一部の人々は、Stable Diffusion 3 のリリースはニュースを隠蔽するためのものだとコメントしました。多くの AI スタートアップ企業と同様に、Stability AI は、収益化への明確な道筋がないまま、驚くべき速度で資金を燃やしてしまうというジレンマに直面しています。昨年末には、同社のCEOが投資家によって解任される可能性があり、同社自体が売却を検討している可能性があるとの報道があった。このような背景から、Stability AI は早急に投資家の信頼を高める必要があります。 ロイター通信は、この取引はスタビリティーAIの戦略の転換を示すものだとコメントした。エマド・モスタケ氏は電子メールによる声明で、今回の契約により同社は引き続き「最先端のオープンモデル」の開発に注力できるようになると述べた。同社はまた、Stable Diffusion 3に関するブログ投稿で、「生成AIがオープンで安全、そして普遍的にアクセス可能であることを保証するという当社の取り組みは揺るぎないものである」と強調した。現時点では、Stability AIの将来は不透明である。 安定拡散3の背後にある技術拡散変圧器+フローマッチングブログで、Stability AI は Stable Diffusion 3 を構築するための 2 つの主要テクノロジー、Diffusion Transformer と Flow Matching を発表しました。 拡散変圧器 Stable Diffusion 3 は OpenAI Sora に似た Diffusion Transformer フレームワークを使用しますが、以前の世代の Stable Diffusion モデルは拡散アーキテクチャのみに依存していました。 Diffusion Transformerは、SoraのR&Dリーダーの1人であるBill Peebles氏とニューヨーク大学の助教授Xie Saining氏によって2022年末に最初に公開された研究であり、2023年3月に第2版が更新されました。 この論文では、拡散モデルにおけるアーキテクチャの選択の重要性について検討し、U-Net の誘導バイアスは拡散モデルのパフォーマンスにとって重要ではなく、Transformer などの標準設計に簡単に置き換えることができることを示しています。 論文タイトル: トランスフォーマーを用いたスケーラブルな拡散モデル 論文リンク: https://arxiv.org/pdf/2212.09748.pdf 具体的には、この論文では、Transformer アーキテクチャに基づく新しい拡散モデル DiT を提案し、潜在拡散モデルをトレーニングして、一般的に使用されている U-Net バックボーン ネットワークを潜在パッチで動作する Transformer に置き換えます。彼らは、フォワードパスの複雑さを GFLOP 単位で測定することによって Diffusion Transformer (DiT) のスケーラビリティを分析し、DiT のすべてのモデルで良好な結果を達成しました。 周知のとおり、拡散モデルの成功は、そのスケーラビリティ、トレーニングの安定性、および生成されたサンプルの多様性に起因します。拡散モデルの範囲内では、CNN ベース、Transformer ベース、CNN と Transformer のハイブリッド、さらには状態空間モデルなど、使用されるバックボーン アーキテクチャにはさまざまなバリエーションがあります。 これらのモデルを拡張して高解像度の画像合成をサポートするために使用される方法もさまざまです。既存の方法では、トレーニングの複雑さが増すか、追加のモデルが必要になるか、品質が犠牲になります。潜在拡散は高解像度の画像合成を実現するための主な方法ですが、実際には細かい詳細を表現できないため、サンプリング品質に影響し、画像編集などのアプリケーションでの実用性が制限されます。高解像度画像合成の他のアプローチとしては、カスケード型超解像度、マルチスケール損失、マルチ解像度の入力と出力の追加、または完全に新しいアーキテクチャスキームへの自己調整と適応の活用などがあります。 DiT に触発されて、Stability AI はさらに Hourglass Diffusion Transformer (HDiT) を提案しました。これは、ピクセル数に応じてスケーリングされ、ピクセル空間で直接高解像度 (例: 1024 × 1024) のトレーニングをサポートする生成画像モデルです。 この研究では、バックボーン ネットワークを改善することで高解像度合成の問題に対処します。 HDiT は、数十億のパラメータに拡張可能な Transformer アーキテクチャを基盤として、畳み込み U-Net の効率性と Transformer のスケーラビリティのギャップを埋め、一般的な高解像度トレーニング手法を使用せずに正常にトレーニングできます。 論文タイトル: 砂時計拡散変換器によるスケーラブルな高解像度ピクセル空間画像合成 論文リンク: https://arxiv.org/pdf/2401.11605.pdf 研究者らは「純粋なトランスフォーマー」アーキテクチャを導入し、標準的な拡散設定でメガピクセルレベルの高品質画像を生成できるバックボーン構造を実現しました。このアーキテクチャは、128 × 128 などの低い空間解像度でも、DiT (図 2) などの一般的な拡散トランスフォーマー バックボーン ネットワークよりもはるかに効率的であり、生成品質の面でも競争力があります。一方、畳み込み U-Net と比較すると、HDiT はピクセル空間での高解像度画像合成の計算複雑さの点でも競争力があります。 フローマッチング フローマッチング技術を使用する意義は、サンプリング効率を向上させることです。 深層生成モデルは、未知のデータ分布を推定し、サンプリングすることができます。ただし、単純な拡散プロセスに制限されると、サンプリングされた確率パスの空間がかなり制限され、トレーニング時間が長くなり、効率的なサンプリングには特殊な方法が必要になります。この研究では、連続正規化フローの一般的な決定論的フレームワークを確立する方法を検討します。 この研究では、連続正規化フロー (CNF) に基づく生成モデリングの新しいパラダイムを導入し、これまでにない規模で CNF をトレーニングできるようにします。 論文タイトル: 生成モデリングのためのフローマッチング 論文リンク: https://arxiv.org/pdf/2210.02747.pdf 具体的には、この論文では、固定条件付き確率パスベクトル場回帰に基づいて CNF をトレーニングするためのシミュレーション不要の方法である「フロー マッチング」の概念を提案しています。フロー マッチングは、ノイズとデータ サンプル間の変換のためのガウス確率パスの一般的なファミリと互換性があります (一般的なファミリは、既存の拡散パスを特定のインスタンスに一般化します)。 研究者らは、拡散パスでフロー マッチングを使用すると、拡散モデルのトレーニングに、より堅牢で安定した代替手段を提供できることを発見しました。 さらに、フロー マッチングにより、他の非拡散確率パスを使用して CNF をトレーニングすることも可能になります。特に注目すべき例の 1 つは、条件付き確率パスを定義するために最適輸送 (OT) 変位補間を使用することです。これらの経路は拡散経路よりも効率的で、トレーニングとサンプリングが速く、一般化も優れています。 ImageNet の Flow Matching を使用してトレーニングされた CNF は、尤度とサンプリング品質の点で他の拡散ベースの方法よりも一貫して優れており、既製の数値 ODE ソルバーを使用してサンプルを迅速かつ確実に生成できます。 |
<<: ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む
バッチ正規化は、ディープラーニング分野における大きな進歩の 1 つであり、近年研究者によって議論され...
タイミングの悪い信号は貴重な時間を無駄にするだけではありません。 Google の最高サステナビリテ...
研究テクノロジーは、現代のビジネス環境に人工知能と機械学習を適用するための優れた方法を提供します。 ...
1. AI開発の現状1.1 コンセプトWikipedia によると、人工知能とは、人間や他の動物の...
[[209263]]ビッグデータは人類の歴史のどの時代にも存在していましたが、テクノロジーが一定の...
人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...
この記事では、主にニューラル ネットワークの普遍近似理論を紹介し、PyTorch を使用して 2 つ...
1 月 10 日、マイクロソフトとパシフィック・ノースウエスト国立研究所 (PNNL) は AI の...
人工知能 (AI) は指数関数的な成長によりさらに進歩していますが、この最新技術には依然として限界が...
動物を正確に識別できる技術は、迷子になった動物を飼い主と再会させたり、農家が家畜を監視したり、研究者...
[51CTO.comからのオリジナル記事] 2018年、人工知能の発展は消費者向け人工知能から企業向...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...