医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

DALL·E 2、この AI は実際に独自の秘密言語を作成しました。

たとえば、次の 2 つの非常に奇妙なフレーズを見てみましょう。

  • アポプロエ・ヴェスレアタイス(以下、Aと略す)
  • Contarra ccetnxniams luryca tanniounons(以下、C と略す)

(翻訳ソフトウェアがクラッシュしますが、試してみてください)

しかし、DALL・E 2になるとスタイルが全く異なります。

その見解では、A は「鳥」を意味し、C は「害虫」を意味します。

したがって、DALL·E 2 に「A は C を食べる」という文を入力すると、次のように開きます。

制作された写真はすべて、害虫を食べる鳥に関するものです。

そして、DALL·E 2 に「2 頭のクジラが食べ物について話し合う字幕付き」を生成するように指示すると、結果は次のようになります。

写真の「Wa ch zod rea」という言葉は、DALL·E 2 の語彙では実際に「食べ物」を意味します。

この事件が明らかになると、多くのネットユーザーの間で即座に白熱した議論が巻き起こった。

これらの秘密の言語を使えば、DALL·E 2 の「禁止語フィルター」を回避し、物議を醸すような画像を生成することも可能だと示唆する人もいました。

(トラブルを起こす!)

それで、DALL·E 2 のこの秘密の呪文とは何でしょうか?

予期せぬ発見

この問題を発見したのは、海外でコンピューターサイエンスを専攻する博士課程の学生でした。

彼は、DALL-E 2 モデルにテキスト付きの画像を与えると、常に奇妙な単語が出てくることに気づきました。

たとえば、「2 人の農家が野菜について話している (字幕付き)」という文章を入力すると、次のような画像が表示されます。

かなり似ていますが、字幕は何と言っていますか?英語でもフランス語でもなく、とても奇妙です。

「何を翻訳してくれているんですか?」

男は突然アイデアを思いつき、モデルに「Vicootes」という「単語」を説明として投げかけました。予想外に、次のような画像が大量に出てきました。

大根、カボチャ、トマトなどがありますが、「Vicootes」は野菜のことでしょうか?

面白い。

それから彼はバブルの中の「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げました。すると、たくさんの鳥の写真が現れました。

「なるほど、それは『鳥』という意味なので、農家は野菜に影響を及ぼす鳥について話しているようですね?」

DALL-E 2 は人々を騙していないようです...

「DALL-E 2 の秘密の言語を発見した!」と若者は叫び、これが偶然であるかどうかを確かめようと計画した。

先ほど述べたクジラが食べ物について話し合っている例を引き続き使用して、その男は「Wa ch zod rea」という文字列を入力しました。

その結果、本当にたくさんの食べ物が出てきたのですが、それらはすべて魚介類であり、クジラの「食習慣」と一致していました。

DALL-E 2、真実は決して私を欺くことはない。

さらに一歩進んで、彼はこれらの「マントラ」を画像のスタイルを説明する言葉と組み合わせて、DALL-E 2 がそれらを適切に解釈できるかどうかを確認しました。

結果は良好でした。以下の「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」をご覧ください。

えーっと、最後の写真に蚊がいるのはなぜでしょうか?

今は無視しましょう(後で戻ってきます)。

では、なぜこのモデルはこの秘密の言語で表現されるのでしょうか?

なぜこのようなことが起こるのでしょうか?

「DALL-E 2の秘密の呪文」というホットな話題も、多くの「アナリスト」の注目を集めています。

たとえば、k1uge というネットユーザーは、問題は BPE (バイトペアエンコーディング) にあると示唆しました。

BPE は、自然言語処理における重要なエンコード方式の 1 つであり、一般的なトークン圧縮方式でもあります。多くの大規模言語モデルに使用されています。

その中心となる考え方は次のとおりです。

各ステップで、隣接するデータ ユニットの最も一般的なペアが、データに出現していない新しいユニットに置き換えられ、停止条件が満たされるまで反復が繰り返されます。

例えば。

「aaabdaaabac」という単語を圧縮する場合、BPE はまず最も一般的な隣接バイト ペアである「aa」を見つけます。

見つかったら、新しいバイト Z に置き換えることができ、単語は「ZabdZabac」になります。

同様に、次によく見られる隣接バイト ペアは「ab」であり、これは Y に置き換えられ、単語はさらに「ZYdZYac」に圧縮されます。

次によく使われる隣接するバイト ペアは「ZY」で、これが X に置き換えられ、最終的な単語は「XdXac」になります。

そこで、この原理に基づいて、ネットユーザーはDALL-E 2が使用するBPEに「鳥」がないか確認した。

それは次のようになります:

アポ plo  e  ve  sr  re  ait  ais

実際には、多くの鳥のラテン語名には「apo」と「plo」という接頭辞が付いています。

たとえば、アマツバメ科 (アマツバメ類) とハタオリドリ科 (ハタオリドリ類) は、それぞれ 100 種を超える鳥類からなる 2 つの科に属します。

たとえば、アカエイ目は 400 種以上を擁する鳥類の中で最大の目です。

そのため、このネットユーザーは、DALL-E 2 が鳥に関する情報のほとんどを、これらの「学術用語」のラベルが付けられた写真から得たと信じていました。

おそらくこれが、DALL-E 2 の秘密の呪文の理由でしょう。

しかし、逆転もある

興奮した博士号取得者は、この事件について短い論文を書き、その研究結果をツイッターに投稿した。その投稿は何千人ものネットユーザーの注目を集め、誰もが「信じられない」と叫んだ。

しかし、すぐに誰かが自分で試してみて、物事はそれほど単純ではないことが分かりました。

たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca tanniounons」は、虫に加えて、カエル、牛、ハトなどの画像も生成します。

この説明に修飾語として「漫画」という言葉を追加すると、昆虫とはまったく関係のない「おばあちゃん」が生成されるのでしょうか? ?

「Apoploe vesrreaitais」は大丈夫で、まだ鳥が出てくることもあります。

しかし、再び「漫画」や「3D レンダリング」などの単語を追加すると、再び間違ったものになり、バグがいくつか出てきます。

(これは、若者の最後の例に登場した蚊にも対応します。)

野菜を表す「Vicootes」も同様です。単独で入力しても問題ありませんが、スタイル制限が加わると、登場する種が変わります。そして、基本的には「油絵」や「漫画」などのスタイル設定に準拠しているだけで、以前の名詞制限とは関係がないと言えます。たとえば、「Vicootes」+「絵画」は、純粋な風景画の束です。

その後、彼は同じ「キャプション付きで餌について話している2頭のクジラ」を使っていくつかの画像を生成したが、テキストの大部分は不明瞭で、転記できなかった。

最終的に次のようなものを見つけました:

彼が上記の「Evve waeles」を使用して再度入力したところ、デザートの写真が表示されましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。

本当にちょっと混乱しています。

そこで実験者はこう言いました。

私にとって、これは DALL-E 2 の秘密の言語というよりは、ランダムなノイズのように見えます。

彼は医師にタグを付け、反対の証拠をさらに提供できることを期待した。

今のところ、その男は反応していない。

しかし、これは確かに注目と議論に値する話題です。いくつかの「呪文」と画像が一致することを考えると、それが本当に BPE コードであれば、医師が言ったことは真実である可能性があります。

一部の人々は、「ホワイト ボックス」方式を使用してこのルールのロックを解除し、モデルのフィルターを回避するために禁止された単語の「呪文」をいくつか取得します。

参考リンク:

[1] https://twitter.com/giannis_daras/status/1531693093040230402

[2] https://twitter.com/BarneyFlames/status/1531736708903051265

[3] https://twitter.com/benjamin_hilton/status/1531780892972175361

[4] https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

<<:  企業は機械学習の運用を活用してビジネス上の利益を得ています

>>:  GoogleはColab上のディープフェイクプロジェクトをひそかに禁止した

ブログ    
ブログ    

推薦する

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIが予測分析アプリケーションに与える影響

人工知能 (AI) を使用した予測分析により、企業は過去のデータに基づいて将来の結果を予測し、運用効...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...

2020年のサイバーセキュリティの転換点: 人工知能

先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...

...

Googleとハーバード大学がこれまでで最も複雑な3D脳マップを作成

脳の神経回路を研究するのは簡単ではありません。なぜなら、現時点では、すべてのニューロン、シナプス、そ...

高齢化社会に積極的に対応、サービスロボットがトレンドを活用

統計によると、2021年には65歳以上の高齢者人口が2億人を超え、総人口の14.2%を占める。家庭用...

...

PaddleOCRのスーパーパワーを解き放つ

光学文字認識 (OCR) は、機械が画像やスキャンされた文書からテキストを認識して抽出できるようにす...

Google Gemini: CMU の総合評価では、Gemini Pro は GPT 3.5 Turbo より劣っていることが判明

少し前に、Google はOpenAI の GPT モデルの競合製品であるGemini をリリースし...

...

CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

IT プロフェッショナル向けの 8 つの新しい AI 職種

人工知能が IT 組織に与える影響を検討する場合は、まず自分の仕事から始めるとよいでしょう。あなたが...