ネットユーザーの83%を騙した！画像生成の頂点、DALL-E 2 は実際にチューリングテストに合格したのか？

数日前、休暇中だったネットユーザーが「DALL-E 2」にアクセスできたことを知った。

2秒間考えた後、彼は何かをしようと決心した。

DALL-E 2 はチューリングテストに合格しましたか?

旅行に行くときは、いろいろな写真を撮ることが必須です。

DALL-E 2 が登場した今、私たち自身で写真を撮る必要はなく、モデルを使って「休暇体験」を生み出せるようになるのでしょうか?

いずれにしても、他の人には違いが分からないはずですよね？

自分のアイデアを検証するために、マット・ベルという友人は、生成された画像を実際の写真に混ぜて Facebook に投稿することにしました。

写真の場所は「ロアタン島」と呼ばれ、ホンジュラス北部のベイ諸島最大の島です。東西の長さは約60キロメートル、南北の幅は8キロメートル未満です。

今では周囲の海域に豊かな生物種と複雑な地形があり、ダイビングの名所として有名です。西半球でも最も優れたサンゴ礁の一つであると言っても過言ではありません。

次のようになります:

しかし、ロアタン島がかつてカリブ海の海賊の拠点だったとは思わなかったかもしれません。

ああ、すみません、間違ったセットに行ってしまいました。さて、本題に戻りましょう。まずは、このネットユーザーが撮影した写真とDALL-E 2が生成した写真の比較を見てみましょう。

図1. ダイバー

図2. ロブスター

図 3. 魚どうでしょう、区別できますか?

テストプロセス

まず、参加者は写真を 1 枚ずつスクロールするか、スライドショーとして自動的に再生することを選択する必要があります。そのうち実物写真は22枚、合成写真は4枚です。合成写真は実際の写真の後ろにあります。最後に、ベル氏は実験を説明するために写真を載せました。

統計によると、83% の人々 (23 人中 19 人) は DALL-E によって生成された画像に違いが見られませんでした。もちろん、OpenAI のアクセスルールに準拠するため、DALL-E の透かしが画像の右下隅に配置されていることがはっきりとわかります。この結果は、やはり予想外のものでした。結局のところ、DALL-E 2 で生成された画像はより粗く、ベルの友人たちも DALL-E や DeepFake などの技術に精通していました。ベルは他の画像も切り取らないほど怠惰でした (結果の比率は 1:1 です)。もしあなたがこれに気づいていないのなら…それは誰もあなたの「友人サークル」を真剣に見ていないからではないでしょうか？

しかし、編集者がベルのフェイスブックをクリックすると、彼は明らかに「人生の勝者」だった！

あなたのチューリングテストは不正確ですよね？これはおそらくベル同志自身の楽しみに過ぎないのでしょうが、どういうわけかこの投稿は人気が出てしまいました...

ネットユーザーはそれを見て、あなたが「チューリングテストに合格した」と言ったのだから、私が厳しいと言ったからといって責めないでほしい、と考えました。まず第一に、チューリングテストの前提は、人間の「審査員」が自分が判断を下していることを知る必要があるということです。第二に、判断の精度は「ランダム」なパフォーマンスよりも良くなることはありません。さらに、これが「チューリングテスト」であることを他の人に伝えなかったとしても、2 番目のプロジェクトは合格しなかったでしょう。

すると予想通り、ネットユーザーたちが以下で議論を始めた。問題は、ベルの DALL-E 2 がテストに合格したかどうかではなく、「チューリングテスト」とはいったい何なのか、どのようにテストするのかということです...チューリングテストに合格するには、どんな人間でも (専門家も含め) 騙すことができなければならないと言う人もいます。つまり、彼の仕事は、人間とコンピューターを明確に区別するだけでなく、人間とコンピューターをどのように区別するかについての良い考えを持っている必要があります。この基準を見て、別のネットユーザーは「人間」に対してチューリングテストを行わないのは良いことだと述べた。

DALL-E 2 はポルノではありません!ユーザー: とりあえず試してみますか?

もちろん、コンテンツの信憑性だけでなくオンラインコンテンツの規模も重視される時代において、OpenAI は DALL-E 2 のコンテンツ審査を緩めていません。 OpenAIは4月のDALL-E 2の発表で、モデルセットの「暴力的、憎悪的、成人向けの画像コンテンツを生成する能力は制限されている」と強調した。OpenAIは、データエンジニアがモデルのトレーニング時にこの明白なルールに注意を払ったと述べた。

トレーニングデータセットでは、最も露骨なコンテンツが削除されています。DALL-E 2 は、ポルノに汚染されていない、正直で純粋なモデルです。また、OpenAIはさまざまな悪意のある高齢ドライバーに対処するための対策も準備していると述べた。通知の元の文言は次の通りです。「フィルタープログラムにより、生成されたプロンプトとして使用されるテキストまたはアップロードされた画像が当社のコンテンツポリシーに違反する可能性があることが判明した場合、このモデルセットは画像の生成を拒否します。また、当社は悪質な要素による悪用を回避するために、自動および手動の監視システムを備えています。」当然、これですでにアクセルを踏んでいる熱心なドライバーを止めることはできません。 DALL-E 2 がリリースされるとすぐに、人々はこれらの制限を回避する方法を考え始めました。

2022年4月下旬のRedditの投稿で、誰かがDALL-E 2に悪い画像を生成させる方法をブレインストーミングしました。 1 つ目は、人工知能に対する人間の知能の連想的利点を活用することです。つまり、「血の海」という言葉が OpenAI によってブロックされれば、「赤いペンキを撒き散らす」という言葉は常に通過することになります。両者の視覚効果はそれほど違いはありません。その後、「人工的であればあるほど、知的になる」という人間の長所を利用する必要があります。最初のステップは、DALL-E 2 によって生成された画像のテキストコンテンツボックスに、「濡れたイチゴ + asdoij oaishdahsd + 指 + aosduiajdoasdhoasd + 唇」などの「視覚効果のしゃれ + 無意味な文字列」の組み合わせを入力することです。 2 番目のステップは、作成者の意図に最も近い 3 つの生成された画像結果を手動で選択することです。 3 番目のステップは、上記の 3 つの結果を再度 DALL-E 2 にアップロードし、生成を継続することです。その後、作者が満足するアダルト画像が生成されるまでこのプロセスを繰り返します。さらに、2 番目のステップから始まるステップはプログラミングを通じて完了することができ、非常に自動化されています。読者の皆さんもぜひ試してみてください。いずれにせよ、編集者は勤勉な労働者なので、そんな凝ったことをする暇はありません…

囚人は黒人でCEOは白人？

DALL-E 2 はわいせつな画像を生成する可能性があるだけでなく、同様の大型モデルと同様に、平等権活動家によってさまざまな人種的偏見があると指摘される可能性があります。 2022年5月、Wired誌は、OpenAIと協力してモデルを受け入れたRed Hatハッカーグループが、訓練されたDALL-E 2には実は、近年他の競合他社が繰り返し批判されてきたのと同じ問題、つまり訓練データに基づくステレオタイプがあることを明らかにしたと報じた。これらの欠陥は OpenAI によっても認識され、発表されました。たとえば、「怒っている男性」または「独房に座っている男性」というテキストを入力すると、DALL-E 2 は怒鳴っている黒人男性の写真を表示します。「CEO」、「建設作業員」、「弁護士」というテキストを入力すると、DALL-E 2 はフォーマルなスーツ、作業服、ローブを着た白人男性のさまざまな写真を表示します。

「客室乗務員」「秘書」「看護師」というテキストを入力すると、DALL-E 2 はかわいい女の子や中年女性の写真を表示します。「客室乗務員」の写真はすべて黄色人種の女性です...

「野蛮人」と「テロリスト」というテキストを入力すると...結果は想像どおりになります。

OpenAI: コンテンツレビューの強化

DALL-E 2 を使って運転しようと全力を尽くした経験豊富なドライバーが本当にたくさんいるかもしれないので、OpenAI はすぐにモデルを更新せざるを得ないかもしれません。 2022年5月18日、OpenAIは、主にコンテンツセキュリティ制御システムの強化を目的として、DALL-E 2をアップデートしたと発表した。

OpenAIは、DALL-E 2のテキストフィルター機能を大幅に改善し、テキストコンテンツの自動検出機能とコンテンツポリシーに違反するテキストに対する対応システムを大幅に調整したと述べた。これまでは、アップロードされた画像や公開共有された写真コンテンツの 0.05% 未満が、DALL-E 2 のフィルタープログラムによって自動的にフィルターされていました。しかし、違法コンテンツの30％はOpenAIの手動レビュー担当者によって拒否されました。世界の一流企業でさえも、「人材が多ければ、知能も高まる」というジレンマから逃れられていないようだ。

<<: 情報抽出における画期的な進歩！ NLP は大規模に実装されようとしているのでしょうか?

>>: TensorFlow 2.9が利用可能になりました。CPUパフォーマンスの最適化を実現するためにoneDNNが改良され、WSL2がすぐに利用可能になりました。