Google はなぜいつも AI に芸術を強制するのでしょうか?

Google の人工知能といえば、チェスマシンの AlphaGo や Waymo の自動運転車を思い浮かべる人がほとんどでしょう。しかし、私に言わせれば、Google は人工知能に絵を描くことを教えることに特別な執着を持っているように思える。

今年、Google は、簡単なスケッチを描くのに役立つ Autodraw というツールをリリースしました。数本の線を描くだけで、アルゴリズムが描きたいパターンを認識し、最適化してくれます。実は、これは Google が立ち上げた最初の AI + ペインティングプロジェクトではありません。2015 年にはすでに、Google はアルゴリズムを使用して、芸術に対する人間の理解と美学に挑戦してきました。

DeepDream: 深い夢か悪夢か?

Google には DeepMind だけでなく、ディープラーニング技術を使用して画像を認識し、解釈した画像を表示する DeepDream もあります。その後、Google はこのプロジェクトを一般に公開し、誰もが写真をアップロードして DeepDream によって解釈された結果を再現できるようにしました。

トレーニング中に目や子犬の画像を多用したせいか分かりませんが、基本的にDeepDreamで処理した画像はこんな感じです…

[[204287]]

犬の顔や目、奇妙な渦巻き模様が描かれており、不思議で魔法のような雰囲気があります。 Google は DeepDream の展示会も開催し、展示された作品のうち 6 点がコレクターに購入され、1 点あたりの価格は 8,000 ドルにも上りました。これは「芸術」を通じてお金を稼ぐ最初の人工知能かもしれない。

実際、Google DeepDream が本当に理解したいのは、ニューラルネットワークブラックボックスの動作ロジックです。ニューラルネットワークが画像を認識する場合、レイヤーの数が多いほど、画像の詳細度が高くなることは誰もが知っています。ニューラルネットワークの最上位レイヤーは輪郭を認識し、ニューラルネットワークの中間レイヤーはテクスチャ、ブラシストローク、その他の詳細を認識します。これまで見てきた画像を正しく認識できるアルゴリズムは、すべて手動でデバッグされていましたが、DeepDreamは手動の誘導や修正のステップを省き、自らの意志で直接画像を認識します。これを何度か繰り返して、最終的に今見ているものになります。

上の写真のように、木を建物として、植物を鳥として見るように求められた場合、私たちにできるのは想像力を使うことだけです。人間の目では認識できないパターンを機械が認識するという状況は、私たちに機械視覚と人間の視覚の違いについて改めて考えさせてくれます。おそらく、DeepDream は、人間界のすべてを自分のかわいいペットの犬とみなす、超想像力を持った幼い人工知能なのでしょう。

早く、描け！ AIと一緒に「You Draw, I Guess」をプレイしましょう

すぐに、Google は AI に犬の顔を描かせるという以上のことを始めました。昨年、Google は「Quick, Draw!」という描画アプリをリリースしました。 Quick, Draw! は、実際には人間と人工知能の間で行われる「あなたが描いて、私が推測する」ゲームです。システムは名詞をランダムに表示し、ユーザーは 20 秒以内にそれを描く必要があります。ユーザーがマウスでオブジェクトの形を描くだけで、Quick, Draw! は描画がタイトルに似ているかどうかを判断し、タイトル以外に描画が似ているものを表示します。

[[204289]]

明らかに、これはデータを収集するための優れた方法です。わずか半年で、100 か国 2,000 万人のユーザーが Quick, Draw! で合計 8 億点の落書きを描きました。 Google はまた、これらのデータはさまざまな文化的背景や概念を反映していると述べました。たとえば、国によって椅子の描き方は異なります。椅子を常に横から描く国もあれば、正面から描く国もあります。現在、Google はそのデータの一部をすべての開発者が利用できるように公開しています。

Autodraw: 人工知能グラフィティマスター

冒頭で触れたオートドローとは、クイックドロー！のことです。データ調査の結果は、Google の強力な機械学習技術も実証しています。

Autodraw は、描いているものを認識するだけではありません。未完成の落書きを完成させたり、間違いを修正したりすることもできます。たとえば、目が 3 つある猫を描いた場合、Autodraw は目のうち 1 つを削除します。

これは、Autodraw がすでに抽象的思考と呼ばれる機能を備えていることを意味します。Autodraw は、単に履歴データに従って描画の線を配置するだけでなく、目の概念を「認識」し、猫には目が 2 つしかないことを認識しています。

Autodraw の背後には人工知能システム SketchRNN があります。クイックドローの時は！ウェブ上で描画すると、SketchRNN は各ストロークの形状と順序を記憶し、特定のオブジェクト (猫、椅子など) ごとにニューラルネットワークをトレーニングします。

人間の落書きのストロークが入力として使用され、シーケンスのエンコードが実行され、人間の描き方を使用してニューラルネットワークがトレーニングされます。このトレーニングを完了すると、SketchRNN は特定のパターンを描く際の「一般的なルール」を理解します。

たとえば、猫を描くときは、丸い顔、2 つの尖った耳、2 つの目、6 本のひげを描きます。 SketchRNN は、大きな円、2 つの小さな円、6 本の線、2 つの鋭い角が「猫」を構成することを理解できます。次に、SketchRNN がランダム性を出力および受け入れることができるように、変数を導入します。たとえば、猫の顔の丸みは丸くなく、ひげの長さもさまざまです。しかし、3つの目の誤差は変数フローティングの範囲を超えているため、SketchRNNによって修正されます。

上の写真のように、これも車です。模様の色が暖色系になるほどランダム性が増します。これらはすべてSketchRNNの作品です。

SketchRNN は素晴らしいですが、この技術はあまり実用的ではないと考える人も多くいます。 SketchRNN がグラフィックを認識し、さらには作成できるのは、チームが各パターンに対してニューラルネットワークをトレーニングしたためです。これらを実現するには、Quick, Draw が不可欠です。収集される膨大な量のデータは、TensorFlow の強力な計算能力と切り離すことはできません。しかし、これほど多くのリソースを動員した後でも、SketchRNN の適用範囲は依然として落書きに限られています。「ストローク」のロジックに限定されていれば、将来的には書道でも違いを生み出すことができるかもしれません。ただし、効率が依然として文字ごとにニューラルネットワークを構築することにとどまっている場合、費用対効果が低すぎます。

[[204292]]

しかし、別の意見を唱える人もいます。一部の学者は、「ストローク」は世界中で共通のコミュニケーション手段であると考えています。象形文字や壁画のような線は、人間の脳に自然な刺激を与えます。人間の芸術的創造はますます具体的になってきており、脳と思考の進化の可能性を示しているのかもしれません。この論理によれば、SketchRNN は私たちが以前の考え方を取り戻し、将来、考古学、歴史学、人類学などの分野でよりよい研究を行うのに役立つ可能性があります。

<<: ディープラーニング時代の物体検出アルゴリズムのレビュー

>>: ベイズの定理から確率分布へ:確率論の基本定義の復習