OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい

ついにOpenAIの画像処理AIツール「DALL-Eシリーズ」が最新バージョン「DALL・E 3」に到達した。前バージョンの「DALL・E 2」は昨年4月に発売された。

OpenAIは「DALL・E 3は以前のシステムよりもニュアンスや詳細を理解し、ユーザーが自分のアイデアを高精度の画像に変換しやすくなった」と述べた。

本当にOpenAIが言った通りでしょうか？百聞は一見にしかず。以下はDALL・E 3とDALL・E 2で生成された効果の比較です。同じプロンプト「バスケットボール選手がダンクシュートを決める油絵と爆発する星雲」に対して、DALL・E 2の左の画像は、ディテール、鮮明度、明るさなどの点でDALL・E 3の右の画像よりも明らかに劣っています。

爆発的な生画像エフェクトに加えて、DALL・E 3 の最大の特徴は ChatGPT との統合です。ChatGPT 上にネイティブに構築されており、ChatGPT を使用してプロンプトを作成、拡張、最適化します。こうすることで、ユーザーはプロンプトに多くの時間を費やす必要がなくなります。

具体的には、ChatGPT を使用すると、ユーザーは DALL·E 3 をガイドするための詳細なプロンプトを苦労して考え出す必要がなくなります。アイデアが入力されると、ChatGPT は DALL・E 3 に合わせてカスタマイズされた詳細なプロンプトを自動的に生成します。ユーザーは独自のプロンプトを使用することもできます。

ChatGPT を統合した後の効果は何ですか? OpenAIのCEO、サム・アルトマン氏は、完全な「長編映画」とも言えるDALL E 3の連続生成結果を興奮気味に実演した。

スーパーサンフラワーヘッジホッグはどんな見た目ですか?

このハリネズミは「ラリー」と呼ばれており、この種類のハリネズミは他にもたくさんいます。

ラリーの両親はこんな感じです。

ラリーはとても親切です。

ラリーはついに安らかに眠りについた。

ChatGPT の統合は DALL・E 3 の唯一の新機能ではありません。プロンプトの内容をもっと正確に反映する、より高品質の画像も生成します。 DALL·E はテキストプロンプトを画像に変換します。 DALL・E 2でも、特定の文言が見落とされ、エラーが発生することがよくあります。しかし、OpenAIの研究者らは、最新バージョンでは文脈をより良く理解し、より長いプロンプトをより適切に処理できると述べている。また、テキストや人間の手など、従来は画像生成モデルが問題となっていたコンテンツも、より適切に処理できるようになります。

プロンプト: このイラストは、荒れ狂う波の真ん中の台座の上に立っている半透明のガラスでできた人間の心臓を描いています。一筋の太陽の光が雲を突き抜け、心を照らし、その内側にある小さな宇宙を明らかにします。地平線には、「あなたの中に宇宙を見つけてください」という目を引く一行の言葉が刻まれています。

プロンプトのすべての詳細が上の画像に表示されていることがわかります。半透明の質感、画面下部にうねる波、太陽の光と厚い雲、ハートの宇宙的な情景、そして多くの画像生成モデルを困惑させたテキスト表示、DALL・E 3はこれらの課題を無事にクリアしました。

果たして、DALL・E 3はミッドジャーニーの「キラー」になれるのか？ Twitterユーザーの@MattGarciaEthは、2つの画像が生成した画像を数多く比較しています。どちらが良いと思いますか？

プロンプトは「セラピストの椅子に座ったアボカドが『心がとても空っぽな気がする』と言っている。真ん中に種ほどの穴が開いている。セラピスト、スプーン、走り書きのメモ。」です。

プロンプトは「このイラストは、嵐の波の真ん中の台座の上に立っている半透明のガラスでできた人間の心臓を描いています。一筋の太陽の光が雲を突き抜け、心臓を照らし、その中にある小宇宙を明らかにしています。目を引く一行の「あなたの中に宇宙を見つけてください」という言葉が地平線に刻まれています。」です。

テーマは「中年のアジア人女性の黒髪に銀色の縞模様が入り、壊れた磁器の破片に断片的に複雑に埋め込まれているように見える。磁器は飛び散った絵の具の模様でキラキラと輝き、光沢のある青、緑、オレンジ、赤が調和して絡み合い、動きと静寂が並置されたシュールなダンスを描いている。彼女の肌は磁器と同じ明るい色で、彼女の表情に神秘的な雰囲気を加えている。」です。（Twitter @nickfloats、上の画像はDALL・E 3で生成された結果、下の画像はMidjourneyで生成された結果）

現在、DALL・E 3は研究プレビュー版です。 OpenAIは、DALL・E 3のリリースを段階的に行う予定で、まず10月にChatGPT PlusおよびChatGPT Enterpriseのユーザー向けにリリースし、その後秋に研究室とそのAPIサービス向けにリリースする予定です。しかし同社は、無料の一般向けバージョンをいつリリースする予定か、あるいはリリースする予定があるかどうかについては明らかにしなかった。

DALL・Eシリーズ研究

ここでは、OpenAI のテキストから画像への生成に関する研究である DALL・E シリーズについて簡単に紹介します。これにより、読者は DALL・E シリーズの背後にあるテクノロジーを理解することもできます。

2021年1月6日、OpenAIブログは、テキストと画像を結び付ける2つのニューラルネットワーク、DALL.EとCLIPをリリースしました。 DALL・Eはテキストに基づいて直接画像を生成でき、CLIPは画像とテキストのカテゴリを一致させることができます。これら 2 つの研究の発表はコミュニティから大きな注目を集めました。

ブログによると、DALL・Eは自然言語で表現された膨大な概念を適切な画像に変換できるとのこと。GPT-3の120億パラメータ版ともいえるもので、テキスト記述を元に画像を生成することもできるとのこと。

DALL・Eの例。「アボカド型の椅子」という文章を与えると、さまざまな形の緑色のアボカド型の椅子の画像が得られます。

2か月後、DALL・Eの論文とコードが公開されました。

プロジェクトアドレス: https://github.com/openai/DALL-E
論文アドレス: https://arxiv.org/abs/2102.12092

2022年4月7日頃、DALL・Eはアップグレード版となるDALL・E 2を発表しました。 DALL·E と比較すると、DALL·E 2 はユーザー記述画像を生成する際の解像度が高く、待ち時間も短くなります。さらに、新バージョンでは、オリジナル画像の編集などの新機能もいくつか追加されています。

OpenAIはDALL・E 2の研究論文「CLIP Latentsによる階層的テキスト条件付き画像生成」も公開した。

論文アドレス: https://cdn.openai.com/papers/dall-e-2.pdf

残念ながら。 OpenAIは、これまでのようにDALL・E 3の技術的な詳細を公開しない可能性があります。

セキュリティと著作権の問題に注意する

OpenAIは、「有害な」画像の作成を防ぐための強力な安全対策の開発を含め、DALL・E 3に多大な労力を費やしたと述べた。 OpenAIは、外部の「レッドチーム」（セキュリティをテストするために故意にシステムを破壊しようとするグループ）のメンバーと協力し、入力分類器（明示的または総当たり的なプロンプトを回避するために特定の単語を無視するように言語モデルを教える方法）に依存したと述べた。 DALL・E 3 では、著名人の画像を生成することもできません。

オープンAIの研究者サンディニ・アガルワル氏は、DALL・E 3の安全対策に「高い信頼」を寄せており、モデルは継続的に改善されていると述べた。 OpenAIはまた、DALL.E 3は現存する芸術家のスタイルで画像を生成することを拒否しており、これはDALL.E 2とは異なると電子メールで述べた。

アーティストたちは、DALL・Eの競合企業であるStability AIとMidjourney、そしてアートサイトDeviantArtを、著作権で保護された作品がテキストから画像への変換モデルのトレーニングに使用されたとして訴えた。おそらく訴訟を避けるため、OpenAI はアーティストがテキストから画像に変換する AI モデルの将来のバージョンから自分の作品を削除し、トレーニングに使用しないことを許可するだろう。クリエイターは、著作権を所有する画像を提出し、サイト上のフォームに記入して削除をリクエストすることができます。

この方法により、DALL·E の将来のバージョンでは、アーティストのイメージやスタイルに類似した結果をマスクできるようになります。

<<:

>>: アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に