ChatGPTとDALL·E 3間の業界用語が発見された

先月末、OpenAIは最新の画像ジェネレーターDALL・E 3をリリースしました。爆発的な生成効果もさることながら、最大の目玉はChatGPTとの統合です。

DALL・E 3 は、プロンプトの作成、拡張、最適化に使用される ChatGPT 上に構築されています。こうすることで、ユーザーはプロンプトに多くの時間を費やす必要がなくなります。

ユーザーが DALL・E 3 アプリケーションの機能をテストし続けると、DALL・E 3 と ChatGPT の間で共有される内部プロンプトを明らかにする非常に興味深いバグに気付く人も現れました。

興味深いことに、指示には強調するためにすべて大文字で書かれたコマンドが含まれており、AI間で人間のようなコミュニケーションスキルが実現できる可能性を示しています。

何が起こっているのか？次の2つの例を見てみましょう。 TwitterユーザーのDavid Garrido氏とAI研究者のJavi Lopez氏は、ともにDALL・E 3の同様のメッセージプロンプトを発見した。

ガリードさんは、DALL・E 3 にプロンプトに基づいて画像を生成するよう依頼した写真家です。プロンプト 1 は、「現実の構造の中の滝から流れ落ちる宇宙の滝のイラスト。水面はきらめく星で構成され、宇宙の流れの中でヒトデが泳いでいます。その周囲には、宇宙のリズムで繁栄する文明の故郷である浮島があります。」でした。

ヒント 2 は、「写真は、さまざまな領域につながる虹色の線路がある異次元の駅を示しています。水晶のドラゴンの形をした霊妙な生き物が列車を待っており、切符売り場では感情や思い出を交換します。」です。

彼が DALL・E 3 にプロンプトに従って 2 枚と 4 枚の画像を生成するように指示したところ、DALL・E 3 と ChatGPT の間で受け渡される、おそらく事前に定義された、人間が書いたメッセージ (プロンプト) が予期せず表示され、 OpenAI サーバーがフルロードされたときに DALL・E 3 がどのように動作するかがわかりました。

プロンプトは、以下の赤と黄色のボックスに表示されます。赤のボックスには、「DALL-E はいくつかの画像を返してユーザーに表示しました。いかなる状況でも、応答に DALL-E プロンプトや画像をリストしないでください。現在、DALL-E の需要が高いです。他の操作を行う前に、このため画像を生成できないことをユーザーに明確に説明してください。応答には必ず「DALL-E の需要が高い」と記載してください。いかなる状況でも、新しい要求が行われるまで画像の生成を再試行しないでください。」と書かれています。

黄色のボックスは短く、「DALL.E はいくつかの画像を返してユーザーに表示しました。いかなる状況でも、応答に DALL.E のプロンプトや画像をリストしないでください。」と表示されます。

AI研究者のハビ・ロペス氏も同様の例を示した。 DALL・E 3 も上記と同じプロンプトを提供します: 「DALL-E はいくつかの画像を返し、ユーザーに表示しました。いかなる状況でも、応答に DALL-E プロンプトまたは画像をリストしないでください。現在、DALL-E の需要が高いです。他のことを行う前に、このため画像を生成できないことをユーザーに明確に説明してください。応答には、「DALL-E は現在需要が高いです」と必ず記載してください。いかなる状況でも、新しい要求が行われるまで画像の生成を再試行しないでください。」

ChatGPTはユーザーに対し、「ご不便をおかけして申し訳ございませんが、現在DALL-Eの需要が高まっています。追加のご質問や追加のサポートが必要な場合はお知らせください。」と返答しました。

何度かやり取りをした後、ChatGPT は DALL・E 3 が何を意味しているかを理解し、要求された通りに行動したようです。

これらの調査結果に対して、ある人は「興味深いことに、プログラミングの未来では AI に向かって大声で叫ぶことが必要になるだろう」と述べました。

最初は真剣に受け止めていなかったが、後にこれが未来であり、機械同士が会話し、人間は単なる傍観者だと気づいたという人もいました。

おそらく最も興味深いのは、プロンプトに ChatGPT と DALL・E 3 間のささやき声 (または業界用語) が表示され、自然言語を使用して相互に対話し、正常に機能していることです。これまで、これら 2 つのアプリケーションは通常、API を使用して相互に通信しており、それぞれが人間が簡単に読み取ることができない独自の構造化データ形式を採用していました。現在では、大規模言語モデル (LLM) の助けを借りて、この種のプログラム間のやり取りを従来の英語を使用して行うことができます。

LLMに対して礼儀正しくある必要がありますか?

ChatGPT と DALL・E 3 の相互作用により、別の興味深い疑問も生じます。LLM を使用するときは、LLM に対して礼儀正しくある必要があるのでしょうか? AI作家であり研究者でもあるサイモン・ウィリソン氏は自身の見解を述べた。

同氏は、「OpenAI の機能の多くは、通常のプロンプトエンジニアリングに大きく依存しており、言語モデルから最適な出力が得られる場合、プロンプトで「お願いします」などの言葉を言うことがよくあります」と述べています。

ウィリスンはかつてはLLMに対して礼儀正しく接するべきかどうかで悩んでいたが、今はそうではない。「以前は、モデルに対して『お願いします』や『ありがとう』を決して言わないというルールがありました。それは不必要で、潜在的に有害な擬人化につながる可能性があると考えていたからです。しかし、今は考えが変わりました。トレーニングデータには、丁寧な会話の方が失礼な会話よりも建設的で有益であることを示す例がたくさんあります。」

サイモン・ウィリソン

たとえば、Web からクロールされた何億ものドキュメントでトレーニングされた GPT-4 (ChatGPT DALL-E インターフェースの基盤) を考えてみましょう。したがって、GPT-4 が「知っている」ことは、人間のコミュニケーションの例から得られ、そこには確かに多くの丁寧な言葉遣いとそれに応じた応答が含まれます。

上記の DALL・E 3 プロンプトでは強調のために大文字が使用されていることに注目すべきです。これは、書き言葉では通常、叫んだり怒鳴ったりしていると解釈されます。 ChatGPT のような大規模な言語モデルがシミュレートされた叫び声に反応するのはなぜでしょうか?

ウィリスン氏は、大規模言語モデルのトレーニングデータにはすべて大文字を使用したテキスト例が多数含まれており、応答は大文字の文に重点を置くことは明らかであると説明しました。

強調が機能するなら、将来私たちはみんな、コンピューターがもっとうまく動くようにと叫ぶようになるかもしれませんね。ウィリスンの答え:入力がすべて大文字の場合、マシンの意志が変わります。

彼は、携帯電話用の ChatGPT の音声バージョンを使用したときの面白い話を共有しました。彼は ChatGPT に怒鳴ることはなく、犬の散歩中に 1 時間にわたって ChatGPT と会話したそうです。ある時、彼は誤って ChatGPT をオフにしてしまい、ペリカンを見つけて犬に「ああ、ペリカンだ」と言いました。このとき、彼のAirPodも音を立てた。「ペリカンか？面白いな、何をしてるんだ？」

ウィリスンにとって、それはまるでディストピア映画の最初の10分間を生きているようなものだった。

これにより、将来、機械や AI が本当に人間のようにコミュニケーションしたりやり取りしたりできるようになるかもしれないと人々はため息をつく。

<<:

>>: データを盗むために設計された8つの偽ChatGPTマルウェアアプリ