Googleの「AIが写真を推測」アプリがWeChat Momentsで人気：ユーザーの参加でよりスマートに

Google 初の WeChat ミニプログラム「絵を当てよう」アプリは、リリースから 1 日で、一部の人々の Moments を席巻しました。多くの「ソウルペインター」が Moments で自分の絵を喜んで共有する一方で、「なぜ AI は私の絵をこんなにうまく当てられないのか」という疑問も数多く生じています。

コミュニケーション効果から判断すると、Googleが初めて立ち上げたWeChatミニプログラムは大きな成功を収めたと言える。

「Guess the Picture Song」は、ゲームプレイが非常にシンプルな小さなプログラムです。具体的なゲームプレイは、ユーザーが Google AI とチームを組んで、制限時間内にスケッチするというものです。体験の各ラウンドでは、ユーザーは指定された時間内に日常的なアイテム（犬、時計、靴など）の絵をスケッチする必要があり、AI チームメイトは時間切れになる前に絵の中のオブジェクトを推測する必要があります。

AIが写真内のオブジェクトを推測すると、ユーザーは次のラウンドに進み、それに応じてユーザーの連勝数が増加します。ユーザーは、友人や家族を招待して最長連勝記録に挑戦したり、興味深いスケッチを共有したり、体験中に新しい質問や絵を収集し続けることもできます。

「絵当て小歌」が提供したランキングリストによると、絵画スタジオの見習いレベルのユーザーが、25分30秒以内にAIが正確に認識できる絵を288枚続けて描いたため、現在ランキングリストの1位にランクされています。

絵の歌を推測した結果は、必ずしもあなたの描画スキルに比例するとは限りません。実際、多くのユーザーは、体験中に次のような状況に遭遇します。特定のオブジェクトを非常に鮮明に描いたのに、AIがそれを推測できないのです。この質問に答えるには、推測ゲームの仕組みを理解する必要があります。

絵画を推測する Xiaoge は、大量の落書きサンプルからの学習に基づいて、ニューラルネットワークテクノロジを使用してユーザーの絵画を識別します。

Google は公式声明でこれについて簡単に紹介している。「AI 技術の一種であるコンピュータービジョン技術により、コンピューターは入力された視覚情報を直接理解し、それによって世界を「見る」ことができるようになります。」この技術は、ビデオ通話中の友人を識別してタグ付けできるだけでなく、人間の眼底診断画像で糖尿病の初期兆候を特定するのにも役立ちます。「ニューラルネットワーク」テクノロジーのおかげで、コンピューターは一見非常に困難に思えるいくつかのことを非常にうまく処理できます。たとえば、大まかなスケッチから物体が何であるかを識別することができます。コンピューターは、耳の付いたランダムなインクの落書きがパンダである可能性があることを「認識」できるようになりました。

このゲームを具体的にサポートしているのは、RNN と呼ばれる再帰ニューラルネットワークです。RNN は内部メモリを使用して任意の時間シーケンスの入力シーケンスを処理できるため、セグメント化されていない手書き認識や音声認識などをより簡単に処理できます。いわゆる入力順序とは、文字を書くときの筆順や、描くときの前後の過程を指します。

実際、Google は 2016 年にはすでに、同様のゲームプレイを備えたクイックドローの Web バージョンをリリースしていました。このゲームでは、名詞がランダムに表示され、20 秒以内にそれを描くように求められます。プレイヤーはマウスを使ってオブジェクトの輪郭を描くだけで、Quick, Draw! があなたの描いた絵が似ているかどうかを判断します。

このゲームはシンプルで簡単に見えますが、Google による一連の AI 実験ツールの重要な部分です。実際には、ニューラルネットワークアルゴリズムを使用して、プレイヤーの落書きを判断します。 Google はこれを活用して、AI 分野の中核となるテーマである画像認識と光学文字認識を AI が自ら学習できるようにする方法を研究しようとしている。

1年後、Googleはこのプロジェクトのデータセットを公開しました。 Quick Draw データセットは、Quick, Draw! ゲームのプレイヤーが描いた 5,000 万枚の絵を 345 のカテゴリに分類したコレクションです。描画はタイムスタンプ付きのベクター画像で、プレイヤーに描画するように求められたものやプレイヤーの所在国などのメタデータが含まれています。

今回、WeChatモーメントに溢れている絵当てソングにも同じような目的があり、人工知能技術による人間とコンピューターの相互作用を体験する機会をすべての人に提供するという。

AIとの継続的なインタラクションの過程で、プレイヤーはAIが絵を推測するプロセスを見ることができます。 Google は、このような設定も配慮しています。ユーザーがある項目を完了した後、その項目について他の人がどう表現しているかを確認できます。目の前に物体の画像データセットが表示されたとき、AI の目に「アイスクリーム」がどのように見えるかを理解しようとすることも可能になるかもしれません。

さらに重要なのは、「Guess the Painting」ゲームを体験したすべてのユーザーが、実際には世界に対する理解に基づいて、自分の絵画を通じて AI を継続的にトレーニングしているということです。

Google がクイックドローデータセットを公開した際に述べたように、これは膨大な量のデータであるだけでなく、興味深い鏡でもあります。クラウドソーシングの形で一般の人々が機械学習システムのトレーニングに参加できるようにする方法や、さまざまな文化的背景や概念を反映したデータセットを作成する方法を確認するために使用できます。

この文章は「絵を当てようソング」を説明するときにも使えます。これは単なる小さなプログラムではなく、一般の人々が機械学習システムのトレーニングに参加できる方法でもあります。

Google がミニプログラムを開発する動きから判断すると、この国際的なテクノロジー大手は、自社の製品や技術の研究開発に参加するために、中国のユーザーの習慣に適応する方法を模索し、見つけようと懸命に取り組んでいることがわかります。

<<: WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

>>: 2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

Googleの「AIが写真を推測」アプリがWeChat Momentsで人気：ユーザーの参加でよりスマートに

実験により、人工知能がパスワードを簡単に解読できることが証明された

入社1年目のアルゴリズムエンジニアから新人への手紙

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

Python 機械学習リソースメニュー。ライブラリやツールの選択に悩む必要はありません。GitHub の厳選リストがすべてここにあります。

AIロボットが産業監視を強化

AIとERPが出会うとどんな「化学反応」が起こるのでしょうか？

自動運転シミュレーションの雄大な景色！自動運転シミュレーションの分野についてお話ししましょう！

Python の例を使用して TensorFlow を始めるにはどうすればよいでしょうか?

推薦する

Adobeは、より高品質な画像を提供するために、AI生成モデルの新世代であるFirefly Image 2をリリースしました。

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

宝くじに当たるのは雷に打たれるより難しいですか？確率を向上させるためにアルゴリズムを使ってみる

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

時間畳み込みネットワーク: 時系列の次の革命?

李開復氏独占インタビュー：10年後には人間の仕事の50％がAIに置き換えられる

大規模なマルチモーダルモデルは、学習しすぎると能力が低下しますか?新しい研究：教育省+の一般専門家が紛争を解決

2020年の情報セキュリティ：人工知能（AI）はさまざまな情報セキュリティシステムで広く利用されている

初心者のためのデータ学習: Python でシンプルな教師あり学習アルゴリズムを実装する方法を学習します

企業は生成AIのオープンソース化のリスクとメリットを検討

パーソナライズされたサービス + 5G アプリケーション IBM が 2022 年の 5 つの AI 予測を発表

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

Gizwits Cloud はスマートホームが機械にユーザーをよりよく理解するのを助けます