AIがテキストを元に「抽象画」を描いたらどうなるでしょうか？｜DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI は以前からテキストに基づいて画像を生成することができました。

しかし今、これまでの「リアリズム」とは異なり、AIは「抽象」アートに参入し始めています。

では、早速、「ジャングルの虎」というテキストを入力した AI 絵画をいくつか紹介します。

AIの「芸術細胞」を理解していますか?これは真の抽象絵画の巨匠からどれくらい遠いのでしょうか?

今回AIが生成した画像が、これまで見てきたGANモデルのスタイルと大きく異なるのは、 DeepMindが新しいアルゴリズムを採用したためだ。

このアルゴリズムにより、最終的にはユーザーがテキストの文字列を入力できるようになり、AI はその文字列に対して創造的に反応し、その文字列を解釈した芸術作品を出力できるようになります。

例えば、「クラウド」と入力すると、次のような作品が生成されます。

「顔」、「叫び声」、「猫」、「笑顔」、「燃えている家」、「歩いている男性」、「ジャングルのトラ」、「洞窟壁画」を入力します。

…

このような驚くべき新しいスキルの背後には、何らかの技術革新があるのでしょうか?

ニューラルビジュアル文法システムとデュアルエンコーダ

一般的に、DeepMind のアルゴリズムは、GAN を使用して画像を生成する場合と 3 つの点で異なります。

まず、このアルゴリズムの画像は、バックプロパゲーションを使用して直接生成されるのではなく、「進化」します。

進化的探索を使用すると、独特の「美的出力」を生成でき、出力に対する人間の制御をさらに強化できます。

2 番目に、アルゴリズムは画像を直接進化させるのではなく、画像を生成するための視覚的な文法を進化させます。これにより、興味深い構造化された画像が生成されます。

最後に、このアルゴリズムは、インターネット上の大量の画像とキャプションでトレーニングされた、事前トレーニング済みのマルチモーダル「批評家」を使用します。テキストの視覚的な意味を「理解する」アルゴリズムの能力は重要です。

画像を進化させるために使用されるニューラル視覚文法システムと、画像の適合性を評価するために使用される画像とテキストのデュアルエンコーダー「批評家」についてさらに詳しく説明しましょう。

ニューラル文法システムは、コアニューラルジェネレーターの機能を大幅に拡張できる階層構造を採用しています。

ユーザー入力文字列を最上位レベルの LSTM に送り込み、各ストロークに中間入力文字列を割り当てます。

この中間入力文字列は、元の入力文字列とほぼ同じように動作します。この中間文字列は、基礎となる LSTM に入力され、最終画像のストロークの説明が出力されます。下の図の通りです。

中間ベクトルの 2 番目の位置などの特定の詳細によって、エンコードされたストロークが不透明か透明かが決まります。

3 番目の位置は、ストロークの原点を決定するために、最上位レイヤーで指定された位置を使用するか、中間レイヤーで指定された位置を使用するかを決定します。

4 番目の位置は、ストロークで生成される線の数を決定します。

…

判断の役割を果たすためには、画像と文章の類似性を採点するスコアリングメカニズムが必要です。

この目的のために、彼らは Frome のデュアルエンコーダーアプローチを選択しました。このアプローチは、最近、多数のネットワークデータセットで大きな成功を収めています。

デュアルエンコーダーモデルは、それぞれテキストと画像を操作する 2 つのエンコーダーで構成されます。チームは、ALIGN (大きな画像とノイズの多いテキスト) データセットでこれをトレーニングしました。

ビジュアルエンコーダーは NF-Net-F0 モデルに基づいており、224 x 224 解像度の RGB 画像を入力として受け取ります。テキストエンコーダーは 80M パラメータの因果トランスフォーマーです。

このテキストエンコーダーは、単語の順序と大文字と小文字の区別を保持し、「Jungle in the Tiger」と「a tiger in the jungle」に対して異なる画像を生成します。

さらに、進化的検索のおかげで、剪定手順を使用して、画像スコア (適応度) に寄与する主要なマーカーを識別することができます。進化のプロセス全体を通して、不要なマークを削除し、画像を可能な限り満足のいくものになるように「調整」することもできます。下の写真は、「リンゴの木」の顕著な剪定を示しています。