医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

DALL·E 2、この AI は実際に独自の秘密言語を作成しました。

たとえば、次の 2 つの非常に奇妙なフレーズを見てみましょう。

  • アポプロエ・ヴェスレアタイス(以下、Aと略す)
  • Contarra ccetnxniams luryca tanniounons(以下、C と略す)

(翻訳ソフトウェアがクラッシュしますが、試してみてください)

しかし、DALL・E 2になるとスタイルが全く異なります。

その見解では、A は「鳥」を意味し、C は「害虫」を意味します。

したがって、DALL·E 2 に「A は C を食べる」という文を入力すると、次のように開きます。

制作された写真はすべて、害虫を食べる鳥に関するものです。

そして、DALL·E 2 に「2 頭のクジラが食べ物について話し合う字幕付き」を生成するように指示すると、結果は次のようになります。

写真の「Wa ch zod rea」という言葉は、DALL·E 2 の語彙では実際に「食べ物」を意味します。

この事件が明らかになると、多くのネットユーザーの間で即座に白熱した議論が巻き起こった。

これらの秘密の言語を使えば、DALL·E 2 の「禁止語フィルター」を回避し、物議を醸すような画像を生成することも可能だと示唆する人もいました。

(トラブルを起こす!)

それで、DALL·E 2 のこの秘密の呪文とは何でしょうか?

予期せぬ発見

この問題を発見したのは、海外でコンピューターサイエンスを専攻する博士課程の学生でした。

彼は、DALL-E 2 モデルにテキスト付きの画像を与えると、常に奇妙な単語が出てくることに気づきました。

たとえば、「2 人の農家が野菜について話している (字幕付き)」という文章を入力すると、次のような画像が表示されます。

かなり似ていますが、字幕は何と言っていますか?英語でもフランス語でもなく、とても奇妙です。

「何を翻訳してくれているんですか?」

男は突然アイデアを思いつき、モデルに「Vicootes」という「単語」を説明として投げかけました。予想外に、次のような画像が大量に出てきました。

大根、カボチャ、トマトなどがありますが、「Vicootes」は野菜のことでしょうか?

面白い。

それから彼はバブルの中の「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げました。すると、たくさんの鳥の写真が現れました。

「なるほど、それは『鳥』という意味なので、農家は野菜に影響を及ぼす鳥について話しているようですね?」

DALL-E 2 は人々を騙していないようです...

「DALL-E 2 の秘密の言語を発見した!」と若者は叫び、これが偶然であるかどうかを確かめようと計画した。

先ほど述べたクジラが食べ物について話し合っている例を引き続き使用して、その男は「Wa ch zod rea」という文字列を入力しました。

その結果、本当にたくさんの食べ物が出てきたのですが、それらはすべて魚介類であり、クジラの「食習慣」と一致していました。

DALL-E 2、真実は決して私を欺くことはない。

さらに一歩進んで、彼はこれらの「マントラ」を画像のスタイルを説明する言葉と組み合わせて、DALL-E 2 がそれらを適切に解釈できるかどうかを確認しました。

結果は良好でした。以下の「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」をご覧ください。

えーっと、最後の写真に蚊がいるのはなぜでしょうか?

今は無視しましょう(後で戻ってきます)。

では、なぜこのモデルはこの秘密の言語で表現されるのでしょうか?

なぜこのようなことが起こるのでしょうか?

「DALL-E 2の秘密の呪文」というホットな話題も、多くの「アナリスト」の注目を集めています。

たとえば、k1uge というネットユーザーは、問題は BPE (バイトペアエンコーディング) にあると示唆しました。

BPE は、自然言語処理における重要なエンコード方式の 1 つであり、一般的なトークン圧縮方式でもあります。多くの大規模言語モデルに使用されています。

その中心となる考え方は次のとおりです。

各ステップで、隣接するデータ ユニットの最も一般的なペアが、データに出現していない新しいユニットに置き換えられ、停止条件が満たされるまで反復が繰り返されます。

例えば。

「aaabdaaabac」という単語を圧縮する場合、BPE はまず最も一般的な隣接バイト ペアである「aa」を見つけます。

見つかったら、新しいバイト Z に置き換えることができ、単語は「ZabdZabac」になります。

同様に、次によく見られる隣接バイト ペアは「ab」であり、これは Y に置き換えられ、単語はさらに「ZYdZYac」に圧縮されます。

次によく使われる隣接するバイト ペアは「ZY」で、これが X に置き換えられ、最終的な単語は「XdXac」になります。

そこで、この原理に基づいて、ネットユーザーはDALL-E 2が使用するBPEに「鳥」がないか確認した。

それは次のようになります:

アポ plo  e  ve  sr  re  ait  ais

実際には、多くの鳥のラテン語名には「apo」と「plo」という接頭辞が付いています。

たとえば、アマツバメ科 (アマツバメ類) とハタオリドリ科 (ハタオリドリ類) は、それぞれ 100 種を超える鳥類からなる 2 つの科に属します。

たとえば、アカエイ目は 400 種以上を擁する鳥類の中で最大の目です。

そのため、このネットユーザーは、DALL-E 2 が鳥に関する情報のほとんどを、これらの「学術用語」のラベルが付けられた写真から得たと信じていました。

おそらくこれが、DALL-E 2 の秘密の呪文の理由でしょう。

しかし、逆転もある

興奮した博士号取得者は、この事件について短い論文を書き、その研究結果をツイッターに投稿した。その投稿は何千人ものネットユーザーの注目を集め、誰もが「信じられない」と叫んだ。

しかし、すぐに誰かが自分で試してみて、物事はそれほど単純ではないことが分かりました。

たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca tanniounons」は、虫に加えて、カエル、牛、ハトなどの画像も生成します。

この説明に修飾語として「漫画」という言葉を追加すると、昆虫とはまったく関係のない「おばあちゃん」が生成されるのでしょうか? ?

「Apoploe vesrreaitais」は大丈夫で、まだ鳥が出てくることもあります。

しかし、再び「漫画」や「3D レンダリング」などの単語を追加すると、再び間違ったものになり、バグがいくつか出てきます。

(これは、若者の最後の例に登場した蚊にも対応します。)

野菜を表す「Vicootes」も同様です。単独で入力しても問題ありませんが、スタイル制限が加わると、登場する種が変わります。そして、基本的には「油絵」や「漫画」などのスタイル設定に準拠しているだけで、以前の名詞制限とは関係がないと言えます。たとえば、「Vicootes」+「絵画」は、純粋な風景画の束です。

その後、彼は同じ「キャプション付きで餌について話している2頭のクジラ」を使っていくつかの画像を生成したが、テキストの大部分は不明瞭で、転記できなかった。

最終的に次のようなものを見つけました:

彼が上記の「Evve waeles」を使用して再度入力したところ、デザートの写真が表示されましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。

本当にちょっと混乱しています。

そこで実験者はこう言いました。

私にとって、これは DALL-E 2 の秘密の言語というよりは、ランダムなノイズのように見えます。

彼は医師にタグを付け、反対の証拠をさらに提供できることを期待した。

今のところ、その男は反応していない。

しかし、これは確かに注目と議論に値する話題です。いくつかの「呪文」と画像が一致することを考えると、それが本当に BPE コードであれば、医師が言ったことは真実である可能性があります。

一部の人々は、「ホワイト ボックス」方式を使用してこのルールのロックを解除し、モデルのフィルターを回避するために禁止された単語の「呪文」をいくつか取得します。

参考リンク:

[1] https://twitter.com/giannis_daras/status/1531693093040230402

[2] https://twitter.com/BarneyFlames/status/1531736708903051265

[3] https://twitter.com/benjamin_hilton/status/1531780892972175361

[4] https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

<<:  企業は機械学習の運用を活用してビジネス上の利益を得ています

>>:  GoogleはColab上のディープフェイクプロジェクトをひそかに禁止した

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

サム・アルトマン:人間レベルのAIは到来するが、世界への影響は想像よりはるかに小さい

米国の人工知能スタートアップOpenAIのサム・アルトマンCEOは現地時間1月17日火曜日、人間のレ...

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...

行列乗算の最適化と畳み込みにおけるその応用

導入天気予報、石油探査、原子物理学などの現代の科学技術は、主にコンピュータシミュレーションに依存して...

...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

微積分の最終試験に希望があります! AIが方程式を解くのを手伝います

最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...

5G、AI、IoTが「インテリジェントな接続」を実現する方法

5G、人工知能(AI)、モノのインターネット(IoT)技術の発展により、あらゆるものがインテリジェン...

Pythonディープラーニングフレームワークの比較の詳細な分析

PyTorch から Mxnet まで、これらの Python ディープラーニング フレームワークを...

...

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データが...

テンセントのロボット犬が本物の犬の仕事を奪う!彼は楽しくゲームをしたり、歩き回ったりすることができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

顔認識の背後にあるセキュリティリスクを誰が負担するのでしょうか?

近年、科学技術の発展に伴い、顔認識技術は人々の日常生活で頻繁に使用されるようになりました。たとえば、...

Microsoft Bing Chat が GPT-4 Turbo モデルを導入、一部のユーザーは無料で使用可能

12月25日、Windowslatestによると、Microsoft Bing ChatのGPT-4...

実践的な Golang の基本データ構造とアルゴリズム、k-means クラスタリング アルゴリズム

起源最近読んだ本『はじめてのアルゴリズム』(石田康樹、宮崎修一)この一連のノートは、Golangの実...

...