旅の途中を突破せよ！ OpenAIが秘密裏に新プラットフォームをテスト

著者: 徐潔成

校正：Yun Zhao

「使ってみて、もうMidjourneyには興味がなくなった」。これらの「虎の言葉」は、OpenAIの新しい画像生成プラットフォームの内部テストユーザーから出たものだ。明らかに、OpenAI は再び形勢を逆転させる準備ができており、今回は AI 画像生成の分野をターゲットにしています。

YouTubeブロガーのMattVidProによると、彼のファンの一人が最近、OpenAIの新しい画像生成プラットフォームの内部テスト資格を取得し、新しいプラットフォームを使用して生成された多数の作品を彼にひそかに公開したという。 MattVidPro もこれらのコンテンツを基にビデオプログラムを作成し、冒頭の一言は「今日は、AI 生成画像の未来を垣間見てみましょう!」でした。

画像出典: Youtube

1. Mjに対する2つの大きな利点

MattVidPro 氏は動画の中で、このファンによると OpenAI は新しい画像生成プラットフォームを秘密裏にテストしており、これは OpenAI が以前リリースした Dell-E 2 グラフィックツールのアップグレード版になる可能性が高いと述べています。このテストは非常に秘密厳守で、ユーザーは400人しか収容できないOpenAI専用テストサーバーでプラットフォームにアクセスする必要があります。

しばらく試してみた後、ファンは、新しいプラットフォームが、髪の毛、照明、広告文などの詳細な特徴を備えたリアルな画像を作成できるだけでなく、一貫した詳細を生成し、プロンプトの言葉に従う強力な能力も備えていることを発見しました。多くのタスクのパフォーマンスの点では、現在最も有名な AI 生成画像処理ツールである Midjourney を上回ることさえあります。

まず、一貫した詳細について言えば、AI 画像生成モデルに精通している人は、現在のモデルのほとんどが、生成された画像内のテキストコンテンツを正確に処理できないことを知っているかもしれません。 Midjourney にもこの欠陥があります。インターネットからの例: 「「welcome」というテキストが印刷された赤い鉛筆を生成します。」 Midjourney は赤い鉛筆の生成を完了しましたが、テキストの表示は混乱していました。

画像出典: インターネット

しかし、どうやら OpenAI はこの問題を解決する方法を見つけたようです。MattVidPro が示した写真では、同様のタスクを処理する際の新しいプラットフォームのパフォーマンスは非常に爆発的であると言えます。ブロガーのIDでポスターを生成する場合でも、「GTA5」のゲームボックスを生成する場合でも、すべて簡単で、画像内のメインテキストコンテンツは完全に正確です。

画像出典: Youtube

さらに、より複雑なプロンプトワードに直面した場合、OpenAI の新しいプラットフォームによって生成された画像コンテンツは、Midjourney よりもプロンプトワードの説明に明らかに近くなります。ここでの典型的な例は、次のプロンプトに基づいて画像を生成することです。「ピンクのピエロが自転車レース中にパンダとハイタッチしています。自転車はチーズでできており、地面は泥だらけです。彼らは霧の森の中を走っており、パンダは怒っています。」

Midjourneyが提供した4つの作品のうち、1匹のパンダは自転車に乗っておらず、他の3匹は自転車ではなく、チーズ要素のないバイクに乗っています。4つの写真にはピエロのキャラクターは登場せず、パンダの表情もまったく怒っているようには見えません。

画像出典: Youtube

同じタスクにおける OpenAI プラットフォームのパフォーマンスは明白であり、生成された作品にはプロンプトの詳細がほぼすべて含まれています。

画像出典: Youtube

上記の事例を読んで、OpenAI の新しいプラットフォームで生成された画像は、リアリティや画像の詳細の点で優れているようには見えず、むしろ「Q バージョン」の画像に頼って巧妙に作られているようにさえ思える人もいるかもしれません。しかし、これは実際にはプロンプトで画像スタイルが指定されていないためです。リアルな画像を生成するという点では、新しいプラットフォームの機能は、現在主流のグラフィックツールに劣りません。

画像出典: Youtube

上記2つの事例では、油絵風の画像「雄牛」の質感や筆遣いの細部にせよ、写実風の画像「水の中の少女」の照明効果や少女の顔の水染みにせよ、2つの画像のリアリティと細部処理が業界トップレベルに達していることは容易に分かる。

2. あるいは新しい生成モデルを採用する

OpenAIがテストしている新しい画像生成プラットフォームについては、画像以外にはオンラインでほとんど何も公開されていない。しかし、OpenAIが3月に発表した論文によると、多くの専門家は、このプラットフォームは業界で現在主流となっている「拡散モデル」ではなく、新しい「一貫性モデル」を採用する可能性が高いと推測している。

画像出典: OpenAI

OpenAI は、「一貫性モデル」と題されたこの論文の中で、一貫性モデルはトレーニング速度の点で拡散モデルを上回り、「1 ステップで生成」でき、単純なタスクを拡散モデルよりも速く達成でき、使用する計算能力は 10 ～ 2000 倍少ないと述べています。さらに、一貫性モデルでは、計算とサンプル品質を交換する「マルチステップサンプリング」も可能になります。したがって、反復的なプロセスがなくても、一貫性のあるモデルは高品質の結果を生成し、リアルタイムのタスクに迅速に適応できます。

画像出典: OpenAI

拡散モデルと同様に、一貫性モデルもゼロショットデータ編集をサポートします。たとえば、インペインティング、カラー化、または超解像度のタスクでは、一貫性モデルは事前トレーニング済みの拡散モデルから抽出することも、個別にトレーニングすることもできます。 OpenAI によれば、一貫性モデルは、すべての非敵対的なシングルステップ生成タスクにおいて拡散モデルよりも優れています。

画像出典: OpenAI

そして、上記の 2 つのトレーニング方法から「敵対的トレーニング」が削除されました。これは、敵対的トレーニングプロセスがより複雑であるためです。敵対的トレーニング方法を使用すると、強力なニューラルネットワークを簡単に作成できますが、モデル予測の精度も低下します。業界関係者の中には、これが OpenAI の新しいプラットフォームが一貫したタスクの処理やプロンプトのフォローにおいて優れたパフォーマンスを発揮できる主な理由だと考える人もいる。

それ以外にも、根拠のない推測ではあるが、OpenAI は Dall-E 2 のリリースの数か月前に拡散モデルに関する論文をいくつか発表していた。時間の側面から推測すると、新しいプラットフォームでは完全に新しい一貫性モデルが使用される可能性があります。もちろん、上記は業界内の一般的な憶測に過ぎません。OpenAIが公式に発言するまでは、プラットフォームの技術的な詳細についてさらに知ることは難しいと予想されます。

3. まだ準備ができていない

OpenAIがなぜこのプラットフォームを秘密裏にテストしているのかについては、ブロガーのMattVidProといくつかの関連写真によると、プラットフォームはまだすべての開発作業を完了しておらず、いくつかの詳細をさらに改善する必要があるようです。

1 つ目は、生成モデルを常に悩ませてきた「手描き」の問題です。ほとんどの場合、パフォーマンスは良好ですが、新しいプラットフォームでは、キャラクターの手の詳細を生成するときに時々間違いが発生します。たとえば、この「くしゃみをするピンク髪の少女」の絵では、登場人物の指が 6 本として描かれていることがはっきりとわかります。

画像出典: Youtube

さらに、ファンによると、このプラットフォームには現在セキュリティ制限がなく、流血や暴力、ポルノなどのセンシティブな要素を含む画像を生成できるとのこと。時には、プロンプトなしでセンシティブな画像がポップアップ表示されることもある。動画の中で、MattVidProは比較的控えめに生成された画像を共有し、一部の「少々過激な作品」は公開するには不向きだと述べた。

完璧さを追求することで知られる OpenAI にとって、プラットフォームの機能とセキュリティの一部が最終的に期待するレベルにまだ達していないことは明らかです。これは、OpenAI が比較的秘密裏にテストを実施し、外部に対して公の声明を出さなかった理由も説明しています。

4. 勝者がすべてを手に入れる：OpenAIの次のステップ

多くのネットユーザーも、OpenAIの次の計画についてYouTubeに意見を残した。 GPT4 には現在マルチモーダル情報処理機能があるため、OpenAI は新しいプラットフォームに基づいて、強力な AI 生成グラフ機能を ChatGPT の次期バージョンに統合する可能性が高いと考える人もいます。

また、OpenAI は新しいプラットフォームに基づいて新しい AI 生成グラフ製品 (または Dall E-3) を開発し、Midjourney、Stable Diffusion などの製品と競合して残りの市場を分割し、会社の収益性をさらに高める可能性があると考える人もいます。結局、ChatGPTのユーザー成長率は一時的なボトルネックに達しました。

つまり、OpenAIの新しいAI生成画像プラットフォームには、まだ微調整とセキュリティ機能の導入が必要であるように思われますが、プラットフォームによって明らかにされた情報はすでに業界で好意的な反応を引き起こし、現在主流の文化画像製品よりも高い評価を受けています。一部の専門家は、このプラットフォームが今年末までに正式にユーザーに公開される可能性があると予測している。

画像出典: Youtube

今日のテクノロジー大手が人工知能の追求において単純な言語モデルに満足せず、より広い分野にその範囲を広げていることは容易に理解できます。 OpenAI がテストしている新しい AI 生成グラフプラットフォームであれ、Meta が最近オープンソース化した Vincent 音楽モデル Audiocraft であれ、どちらも人工知能の未来がより豊かな様式で繁栄することを示しています。