AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI は以前からテキストに基づいて画像を生成することができました。

しかし今、これまでの「リアリズム」とは異なり、AIは「抽象」アートに参入し始めています。

では、早速、「ジャングルの虎」というテキストを入力した AI 絵画をいくつか紹介します。

AIの「芸術細胞」を理解していますか?これは真の抽象絵画の巨匠からどれくらい遠いのでしょうか?

今回AIが生成した画像が、これまで見てきたGANモデルのスタイルと大きく異なるのは、 DeepMindが新しいアルゴリズムを採用したためだ。

このアルゴリズムにより、最終的にはユーザーがテキストの文字列を入力できるようになり、AI はその文字列に対して創造的に反応し、その文字列を解釈した芸術作品を出力できるようになります。

例えば、「クラウド」と入力すると、次のような作品が生成されます。

「顔」、「叫び声」、「猫」、「笑顔」、「燃えている家」、「歩いている男性」、「ジャングルのトラ」、「洞窟壁画」を入力します。

このような驚くべき新しいスキルの背後には、何らかの技術革新があるのでしょうか?

ニューラルビジュアル文法システムとデュアルエンコーダ

一般的に、DeepMind のアルゴリズムは、GAN を使用して画像を生成する場合と 3 つの点で異なります

まず、このアルゴリズムの画像は、バックプロパゲーションを使用して直接生成されるのではなく、「進化」します。

進化的探索を使用すると、独特の「美的出力」を生成でき、出力に対する人間の制御をさらに強化できます。

2 番目に、アルゴリズムは画像を直接進化させるのではなく、画像を生成するための視覚的な文法を進化させます。これにより、興味深い構造化された画像が生成されます。

最後に、このアルゴリズムは、インターネット上の大量の画像とキャプションでトレーニングされた、事前トレーニング済みのマルチモーダル「批評家」を使用します。テキストの視覚的な意味を「理解する」アルゴリズムの能力は重要です。

[[401465]]

画像を進化させるために使用されるニューラル視覚文法システムと、画像の適合性を評価するために使用される画像とテキストのデュアルエンコーダー「批評家」についてさらに詳しく説明しましょう。

ニューラル文法システムは、コアニューラルジェネレーターの機能を大幅に拡張できる階層構造を採用しています。

ユーザー入力文字列を最上位レベルの LSTM に送り込み、各ストロークに中間入力文字列を割り当てます。

この中間入力文字列は、元の入力文字列とほぼ同じように動作します。この中間文字列は、基礎となる LSTM に入力され、最終画像のストロークの説明が出力されます。下の図の通りです。

中間ベクトルの 2 番目の位置などの特定の詳細によって、エンコードされたストロークが不透明か透明かが決まります。

3 番目の位置は、ストロークの原点を決定するために、最上位レイヤーで指定された位置を使用するか、中間レイヤーで指定された位置を使用するかを決定します。

4 番目の位置は、ストロークで生成される線の数を決定します。

判断の役割を果たすためには、画像と文章の類似性を採点するスコアリングメカニズムが必要です。

この目的のために、彼らは Frome のデュアル エンコーダー アプローチを選択しました。このアプローチは、最近、多数のネットワーク データセットで大きな成功を収めています。

デュアル エンコーダー モデルは、それぞれテキストと画像を操作する 2 つのエンコーダーで構成されます。チームは、ALIGN (大きな画像とノイズの多いテキスト) データセットでこれをトレーニングしました。

ビジュアル エンコーダーは NF-Net-F0 モデルに基づいており、224 x 224 解像度の RGB 画像を入力として受け取ります。テキスト エンコーダーは 80M パラメータの因果トランスフォーマーです。

このテキスト エンコーダーは、単語の順序と大文字と小文字の区別を保持し、「Jungle in the Tiger」と「a tiger in the jungle」に対して異なる画像を生成します。

さらに、進化的検索のおかげで、剪定手順を使用して、画像スコア (適応度) に寄与する主要なマーカーを識別することができます。進化のプロセス全体を通して、不要なマークを削除し、画像を可能な限り満足のいくものになるように「調整」することもできます。下の写真は、「リンゴの木」の顕著な剪定を示しています。

さらに改善できる点: 最初のキャンバスは空白である必要はない

では、このような技術にはどのような実用性があるのでしょうか?

チームは、この技術が芸術的創作を支援したり、新しいマーク作成方法を発明したり、その生成プロセスを 3D モデルに適用したりするために使用できると紹介しました。

また、キャンバスの背景の初期状態は空白である必要はありません。写真や既存の画像から始めて、反復ごとに異なるテキストで調整することで、最終的に画像がより階層化された作品に進化させることができます。

もちろん、彼らのアルゴリズムにも改善の余地はあります。生成された画像は驚くようなものになることもありますが、平凡に見えたり、混沌としているように見えることもあります。また、過剰適合によってますます抽象的な作品が生み出されます。

背景色はより豊かに進化しますが、画像の他の側面の多様性も低下します。

現在、このアルゴリズムにはまだいくつかの「偏り」があります。たとえば、「自画像」を生成するように要求された場合、そのほとんどは白人男性の肖像画です。

<<:  業務自動化、中国海外土地投資のデジタル変革体験

>>:  Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している

ブログ    

推薦する

「インターネット情報サービスアルゴリズム推奨管理規則」が公布され、3月1日に発効される。

最近、中国サイバースペース管理局、工業情報化部、公安部、国家市場監督管理総局は共同で「インターネット...

人工知能によりデータの痕跡を監視できるようになりました。このとき、ユーザーのプライバシーとセキュリティをどのように維持できるのでしょうか?

近年、ソーシャル ネットワーキング プラットフォームのユーザー数は飛躍的に増加しています。これらのプ...

トリガーフリーのバックドアがAIモデルを欺くことに成功し、敵対的機械学習に新たな方向性を与える

過去数年間、研究者たちは人工知能システムの安全性にますます関心を寄せてきました。 AI 機能のサブセ...

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

クラシック絵文字パッケージにこの「続編」があることが判明しました。ステーブルビデオのクリエイティブなゲームプレイが人気

AI を使って古典的な絵文字を動画にアップグレードする、この創造的な遊び方が最近かなり人気になってい...

Python による階層的クラスター分析

[[334729]]機械学習を行う際には、データのクラスター分析を行う必要があることがよくあります。...

マイクロソフトがCopilot for Financeをリリース、AIでスプレッドシートに革命を起こすことを目指す

Microsoft が新たにリリースした AI アシスタントは、増え続ける財務データの中から適切な情...

血みどろの惨劇を突破できるのは誰か?自動運転プレイヤーが腕前を披露!

自動運転は爆発的な成長を遂げている最先端分野です。水平的な視点で見ると、BATを含むインターネット大...

張亜琴氏と張宏江氏は人工知能の将来について何を語っているのでしょうか?

「大規模なシステムを構築するには、体系的な思考、実践的なスキル、システム構築への愛情を持った人材が...

SantaGPTが来ました! GPT-4は完璧なクリスマスの実現をお手伝いします

気がつけば、もう2024年も最後の月になってしまいました。今年のテクノロジー業界の申し子として、Op...

人工知能の簡単な歴史 | (2)ディープラーニング、人工知能の新たな盛り上がり

ヤネン・ルカンと畳み込みニューラルネットワークヒントン教授の話をした後は、ディープラーニング分野のも...

...