医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

医師は偶然、ある秘密を発見しました。DALL-E 2 は独自の言語を作成しましたが、その言語は人間には理解できませんが、特定のイメージを生成することができ、トラブルを引き起こす可能性があります。

DALL·E 2、この AI は実際に独自の秘密言語を作成しました。

たとえば、次の 2 つの非常に奇妙なフレーズを見てみましょう。

  • アポプロエ・ヴェスレアタイス(以下、Aと略す)
  • Contarra ccetnxniams luryca tanniounons(以下、C と略す)

(翻訳ソフトウェアがクラッシュしますが、試してみてください)

しかし、DALL・E 2になるとスタイルが全く異なります。

その見解では、A は「鳥」を意味し、C は「害虫」を意味します。

したがって、DALL·E 2 に「A は C を食べる」という文を入力すると、次のように開きます。

制作された写真はすべて、害虫を食べる鳥に関するものです。

そして、DALL·E 2 に「2 頭のクジラが食べ物について話し合う字幕付き」を生成するように指示すると、結果は次のようになります。

写真の「Wa ch zod rea」という言葉は、DALL·E 2 の語彙では実際に「食べ物」を意味します。

この事件が明らかになると、多くのネットユーザーの間で即座に白熱した議論が巻き起こった。

これらの秘密の言語を使えば、DALL·E 2 の「禁止語フィルター」を回避し、物議を醸すような画像を生成することも可能だと示唆する人もいました。

(トラブルを起こす!)

それで、DALL·E 2 のこの秘密の呪文とは何でしょうか?

予期せぬ発見

この問題を発見したのは、海外でコンピューターサイエンスを専攻する博士課程の学生でした。

彼は、DALL-E 2 モデルにテキスト付きの画像を与えると、常に奇妙な単語が出てくることに気づきました。

たとえば、「2 人の農家が野菜について話している (字幕付き)」という文章を入力すると、次のような画像が表示されます。

かなり似ていますが、字幕は何と言っていますか?英語でもフランス語でもなく、とても奇妙です。

「何を翻訳してくれているんですか?」

男は突然アイデアを思いつき、モデルに「Vicootes」という「単語」を説明として投げかけました。予想外に、次のような画像が大量に出てきました。

大根、カボチャ、トマトなどがありますが、「Vicootes」は野菜のことでしょうか?

面白い。

それから彼はバブルの中の「Apoploe vesrreaitais」という文字列を DALL-E 2 に投げました。すると、たくさんの鳥の写真が現れました。

「なるほど、それは『鳥』という意味なので、農家は野菜に影響を及ぼす鳥について話しているようですね?」

DALL-E 2 は人々を騙していないようです...

「DALL-E 2 の秘密の言語を発見した!」と若者は叫び、これが偶然であるかどうかを確かめようと計画した。

先ほど述べたクジラが食べ物について話し合っている例を引き続き使用して、その男は「Wa ch zod rea」という文字列を入力しました。

その結果、本当にたくさんの食べ物が出てきたのですが、それらはすべて魚介類であり、クジラの「食習慣」と一致していました。

DALL-E 2、真実は決して私を欺くことはない。

さらに一歩進んで、彼はこれらの「マントラ」を画像のスタイルを説明する言葉と組み合わせて、DALL-E 2 がそれらを適切に解釈できるかどうかを確認しました。

結果は良好でした。以下の「手描きの鳥」、「漫画の鳥」、「3D の鳥」、「線画の鳥」をご覧ください。

えーっと、最後の写真に蚊がいるのはなぜでしょうか?

今は無視しましょう(後で戻ってきます)。

では、なぜこのモデルはこの秘密の言語で表現されるのでしょうか?

なぜこのようなことが起こるのでしょうか?

「DALL-E 2の秘密の呪文」というホットな話題も、多くの「アナリスト」の注目を集めています。

たとえば、k1uge というネットユーザーは、問題は BPE (バイトペアエンコーディング) にあると示唆しました。

BPE は、自然言語処理における重要なエンコード方式の 1 つであり、一般的なトークン圧縮方式でもあります。多くの大規模言語モデルに使用されています。

その中心となる考え方は次のとおりです。

各ステップで、隣接するデータ ユニットの最も一般的なペアが、データに出現していない新しいユニットに置き換えられ、停止条件が満たされるまで反復が繰り返されます。

例えば。

「aaabdaaabac」という単語を圧縮する場合、BPE はまず最も一般的な隣接バイト ペアである「aa」を見つけます。

見つかったら、新しいバイト Z に置き換えることができ、単語は「ZabdZabac」になります。

同様に、次によく見られる隣接バイト ペアは「ab」であり、これは Y に置き換えられ、単語はさらに「ZYdZYac」に圧縮されます。

次によく使われる隣接するバイト ペアは「ZY」で、これが X に置き換えられ、最終的な単語は「XdXac」になります。

そこで、この原理に基づいて、ネットユーザーはDALL-E 2が使用するBPEに「鳥」がないか確認した。

それは次のようになります:

アポ plo  e  ve  sr  re  ait  ais

実際には、多くの鳥のラテン語名には「apo」と「plo」という接頭辞が付いています。

たとえば、アマツバメ科 (アマツバメ類) とハタオリドリ科 (ハタオリドリ類) は、それぞれ 100 種を超える鳥類からなる 2 つの科に属します。

たとえば、アカエイ目は 400 種以上を擁する鳥類の中で最大の目です。

そのため、このネットユーザーは、DALL-E 2 が鳥に関する情報のほとんどを、これらの「学術用語」のラベルが付けられた写真から得たと信じていました。

おそらくこれが、DALL-E 2 の秘密の呪文の理由でしょう。

しかし、逆転もある

興奮した博士号取得者は、この事件について短い論文を書き、その研究結果をツイッターに投稿した。その投稿は何千人ものネットユーザーの注目を集め、誰もが「信じられない」と叫んだ。

しかし、すぐに誰かが自分で試してみて、物事はそれほど単純ではないことが分かりました。

たとえば、「虫」を表す文字列「Contarra ccetnxniams luryca tanniounons」は、虫に加えて、カエル、牛、ハトなどの画像も生成します。

この説明に修飾語として「漫画」という言葉を追加すると、昆虫とはまったく関係のない「おばあちゃん」が生成されるのでしょうか? ?

「Apoploe vesrreaitais」は大丈夫で、まだ鳥が出てくることもあります。

しかし、再び「漫画」や「3D レンダリング」などの単語を追加すると、再び間違ったものになり、バグがいくつか出てきます。

(これは、若者の最後の例に登場した蚊にも対応します。)

野菜を表す「Vicootes」も同様です。単独で入力しても問題ありませんが、スタイル制限が加わると、登場する種が変わります。そして、基本的には「油絵」や「漫画」などのスタイル設定に準拠しているだけで、以前の名詞制限とは関係がないと言えます。たとえば、「Vicootes」+「絵画」は、純粋な風景画の束です。

その後、彼は同じ「キャプション付きで餌について話している2頭のクジラ」を使っていくつかの画像を生成したが、テキストの大部分は不明瞭で、転記できなかった。

最終的に次のようなものを見つけました:

彼が上記の「Evve waeles」を使用して再度入力したところ、デザートの写真が表示されましたが、アスリート、動物、さらにはやかんの写真が多数表示されました。

本当にちょっと混乱しています。

そこで実験者はこう言いました。

私にとって、これは DALL-E 2 の秘密の言語というよりは、ランダムなノイズのように見えます。

彼は医師にタグを付け、反対の証拠をさらに提供できることを期待した。

今のところ、その男は反応していない。

しかし、これは確かに注目と議論に値する話題です。いくつかの「呪文」と画像が一致することを考えると、それが本当に BPE コードであれば、医師が言ったことは真実である可能性があります。

一部の人々は、「ホワイト ボックス」方式を使用してこのルールのロックを解除し、モデルのフィルターを回避するために禁止された単語の「呪文」をいくつか取得します。

参考リンク:

[1] https://twitter.com/giannis_daras/status/1531693093040230402

[2] https://twitter.com/BarneyFlames/status/1531736708903051265

[3] https://twitter.com/benjamin_hilton/status/1531780892972175361

[4] https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

<<:  企業は機械学習の運用を活用してビジネス上の利益を得ています

>>:  GoogleはColab上のディープフェイクプロジェクトをひそかに禁止した

ブログ    
ブログ    
ブログ    

推薦する

Microsoft のエンジニアが PyTorch を使用してグラフ アテンション ネットワークを実装し、驚くべき視覚効果を実現

最近、グラフアテンションネットワークの視覚化に関するプロジェクトが多くの研究者の関心を集めており、開...

企業は今後の組織開発においてハイパーオートメーションを採用するでしょうか?

[[386200]] [51CTO.com クイック翻訳] 事実によれば、ロボティックプロセスオー...

人工知能時代の未来の人材をどう育成するか?専門家や名門校の校長はこう言う

人工知能の時代、未来の人材をどう育成するか? 10日、2019年重慶人材大会第4回大学・高校教育発展...

...

研究者:AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今週10月13日、Cellの姉妹誌Jouleは「人工知能の増大するエネルギーフットプリント」と題する...

...

人工知能 (AI) は、研究室から実際のアプリケーションまでどのように異なるのでしょうか?

人工知能が実際の応用に入ると、遭遇する問題のほとんどは複雑になります。 しかし、現段階では、人工知能...

人気のLlama 2は1週間で15万回以上ダウンロードされ、誰かがRust実装をオープンソース化した。

数日前、Meta は Llama 2 の無料商用バージョンをリリースし、AI コミュニティに大きなセ...

MITチームがCOVID-19の早期警告に役立つ可能性のある咳分析AIを開発

無症状感染者の存在により、COVID-19の検出と制御は非常に困難になります。 しかし、MITの研究...

武有雄が人工知能について語る

7月9日、世界人工知能会議クラウドサミットが正式に開幕しました!アマゾン ウェブ サービスは、202...

企業における人工知能: 8 つの誤解を解明

[[264444]]私たちはどんな新しいテクノロジーについても誤解しがちです。これは特にAI分野で顕...

AIの世界はデータから知識へと移行しており、独自のデータセットは組織間で共有されるデータへと移行している。

人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...

...

...