この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AI は以前からテキストに基づいて画像を生成することができました。 しかし今、これまでの「リアリズム」とは異なり、AIは「抽象」アートに参入し始めています。 では、早速、「ジャングルの虎」というテキストを入力した AI 絵画をいくつか紹介します。 AIの「芸術細胞」を理解していますか?これは真の抽象絵画の巨匠からどれくらい遠いのでしょうか? 今回AIが生成した画像が、これまで見てきたGANモデルのスタイルと大きく異なるのは、 DeepMindが新しいアルゴリズムを採用したためだ。 このアルゴリズムにより、最終的にはユーザーがテキストの文字列を入力できるようになり、AI はその文字列に対して創造的に反応し、その文字列を解釈した芸術作品を出力できるようになります。 例えば、「クラウド」と入力すると、次のような作品が生成されます。 「顔」、「叫び声」、「猫」、「笑顔」、「燃えている家」、「歩いている男性」、「ジャングルのトラ」、「洞窟壁画」を入力します。 … このような驚くべき新しいスキルの背後には、何らかの技術革新があるのでしょうか? ニューラルビジュアル文法システムとデュアルエンコーダ一般的に、DeepMind のアルゴリズムは、GAN を使用して画像を生成する場合と 3 つの点で異なります。 まず、このアルゴリズムの画像は、バックプロパゲーションを使用して直接生成されるのではなく、「進化」します。 進化的探索を使用すると、独特の「美的出力」を生成でき、出力に対する人間の制御をさらに強化できます。 2 番目に、アルゴリズムは画像を直接進化させるのではなく、画像を生成するための視覚的な文法を進化させます。これにより、興味深い構造化された画像が生成されます。 最後に、このアルゴリズムは、インターネット上の大量の画像とキャプションでトレーニングされた、事前トレーニング済みのマルチモーダル「批評家」を使用します。テキストの視覚的な意味を「理解する」アルゴリズムの能力は重要です。 画像を進化させるために使用されるニューラル視覚文法システムと、画像の適合性を評価するために使用される画像とテキストのデュアルエンコーダー「批評家」についてさらに詳しく説明しましょう。 ニューラル文法システムは、コアニューラルジェネレーターの機能を大幅に拡張できる階層構造を採用しています。 ユーザー入力文字列を最上位レベルの LSTM に送り込み、各ストロークに中間入力文字列を割り当てます。 この中間入力文字列は、元の入力文字列とほぼ同じように動作します。この中間文字列は、基礎となる LSTM に入力され、最終画像のストロークの説明が出力されます。下の図の通りです。 中間ベクトルの 2 番目の位置などの特定の詳細によって、エンコードされたストロークが不透明か透明かが決まります。 3 番目の位置は、ストロークの原点を決定するために、最上位レイヤーで指定された位置を使用するか、中間レイヤーで指定された位置を使用するかを決定します。 4 番目の位置は、ストロークで生成される線の数を決定します。 … 判断の役割を果たすためには、画像と文章の類似性を採点するスコアリングメカニズムが必要です。 この目的のために、彼らは Frome のデュアル エンコーダー アプローチを選択しました。このアプローチは、最近、多数のネットワーク データセットで大きな成功を収めています。 デュアル エンコーダー モデルは、それぞれテキストと画像を操作する 2 つのエンコーダーで構成されます。チームは、ALIGN (大きな画像とノイズの多いテキスト) データセットでこれをトレーニングしました。 ビジュアル エンコーダーは NF-Net-F0 モデルに基づいており、224 x 224 解像度の RGB 画像を入力として受け取ります。テキスト エンコーダーは 80M パラメータの因果トランスフォーマーです。 このテキスト エンコーダーは、単語の順序と大文字と小文字の区別を保持し、「Jungle in the Tiger」と「a tiger in the jungle」に対して異なる画像を生成します。 さらに、進化的検索のおかげで、剪定手順を使用して、画像スコア (適応度) に寄与する主要なマーカーを識別することができます。進化のプロセス全体を通して、不要なマークを削除し、画像を可能な限り満足のいくものになるように「調整」することもできます。下の写真は、「リンゴの木」の顕著な剪定を示しています。 さらに改善できる点: 最初のキャンバスは空白である必要はないでは、このような技術にはどのような実用性があるのでしょうか? チームは、この技術が芸術的創作を支援したり、新しいマーク作成方法を発明したり、その生成プロセスを 3D モデルに適用したりするために使用できると紹介しました。 また、キャンバスの背景の初期状態は空白である必要はありません。写真や既存の画像から始めて、反復ごとに異なるテキストで調整することで、最終的に画像がより階層化された作品に進化させることができます。 もちろん、彼らのアルゴリズムにも改善の余地はあります。生成された画像は驚くようなものになることもありますが、平凡に見えたり、混沌としているように見えることもあります。また、過剰適合によってますます抽象的な作品が生み出されます。 背景色はより豊かに進化しますが、画像の他の側面の多様性も低下します。 現在、このアルゴリズムにはまだいくつかの「偏り」があります。たとえば、「自画像」を生成するように要求された場合、そのほとんどは白人男性の肖像画です。 |
>>: Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している
人工知能は2度のブームを経験し、現在は3度目のブームを迎えています。主な理由は、第一にディープラーニ...
人工知能とニューラルネットワークの機能はどちらもイベント処理です。たとえば、人工知能は自動文書処理を...
[[393199]]画像提供:ロイター/セルジオ・ペレスエマニュエル・ラガリグシュナイダーエレクトリ...
情報の海の中で、価値ある洞察を見つけることが重要です。最新の情報管理は、高度なテクノロジーと革新的な...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[430680]]科学技術の継続的な発展により、人工知能は人間の生活のあらゆる側面に関わるだけでな...
[[431125]]自動車金融サービスの分野では、ディーラーと顧客が意思決定のスピードを追求していま...
大規模言語モデル (LLM) は、前例のない量のデータと計算を使用するため、デジタル世界とのやり取り...
PyTorch の開発者は、PyTorch の哲学は即時のタスクを解決すること、つまり計算グラフをそ...
[51CTO.com からのオリジナル記事] ウォールストリートジャーナルの最近の報道によると、テク...
中国における人工知能熱の高まりは、テクノロジーとビジネスによって推進されているだけでなく、政府の推進...