Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Google 初の WeChat ミニプログラム「絵を当てよう」アプリは、リリースから 1 日で、一部の人々の Moments を席巻しました。多くの「ソウル ペインター」が Moments で自分の絵を喜んで共有する一方で、「なぜ AI は私の絵をこんなにうまく当てられないのか」という疑問も数多く生じています。

コミュニケーション効果から判断すると、Googleが初めて立ち上げたWeChatミニプログラムは大きな成功を収めたと言える。

「Guess the Picture Song」は、ゲームプレイが非常にシンプルな小さなプログラムです。具体的なゲームプレイは、ユーザーが Google AI とチームを組んで、制限時間内にスケッチするというものです。体験の各ラウンドでは、ユーザーは指定された時間内に日常的なアイテム(犬、時計、靴など)の絵をスケッチする必要があり、AI チームメイトは時間切れになる前に絵の中のオブジェクトを推測する必要があります。

AIが写真内のオブジェクトを推測すると、ユーザーは次のラウンドに進み、それに応じてユーザーの連勝数が増加します。ユーザーは、友人や家族を招待して最長連勝記録に挑戦したり、興味深いスケッチを共有したり、体験中に新しい質問や絵を収集し続けることもできます。

「絵当て小歌」が提供したランキングリストによると、絵画スタジオの見習いレベルのユーザーが、25分30秒以内にAIが正確に認識できる絵を288枚続けて描いたため、現在ランキングリストの1位にランクされています。

絵の歌を推測した結果は、必ずしもあなたの描画スキルに比例するとは限りません。実際、多くのユーザーは、体験中に次のような状況に遭遇します。特定のオブジェクトを非常に鮮明に描いたのに、AIがそれを推測できないのです。この質問に答えるには、推測ゲームの仕組みを理解する必要があります。

絵画を推測する Xiaoge は、大量の落書きサンプルからの学習に基づいて、ニューラル ネットワーク テクノロジを使用してユーザーの絵画を識別します。

Google は公式声明でこれについて簡単に紹介している。「AI 技術の一種であるコンピューター ビジョン技術により、コンピューターは入力された視覚情報を直接理解し、それによって世界を「見る」ことができるようになります。」この技術は、ビデオ通話中の友人を識別してタグ付けできるだけでなく、人間の眼底診断画像で糖尿病の初期兆候を特定するのにも役立ちます。 「ニューラル ネットワーク」テクノロジーのおかげで、コンピューターは一見非常に困難に思えるいくつかのことを非常にうまく処理できます。たとえば、大まかなスケッチから物体が何であるかを識別することができます。コンピューターは、耳の付いたランダムなインクの落書きがパンダである可能性があることを「認識」できるようになりました。

このゲームを具体的にサポートしているのは、RNN と呼ばれる再帰ニューラル ネットワークです。RNN は内部メモリを使用して任意の時間シーケンスの入力シーケンスを処理できるため、セグメント化されていない手書き認識や音声認識などをより簡単に処理できます。いわゆる入力順序とは、文字を書くときの筆順や、描くときの前後の過程を指します。

実際、Google は 2016 年にはすでに、同様のゲームプレイを備えたクイック ドローの Web バージョンをリリースしていました。このゲームでは、名詞がランダムに表示され、20 秒以内にそれを描くように求められます。プレイヤーはマウスを使ってオブジェクトの輪郭を描くだけで、Quick, Draw! があなたの描いた絵が似ているかどうかを判断します。

このゲームはシンプルで簡単に見えますが、Google による一連の AI 実験ツールの重要な部分です。実際には、ニューラル ネットワーク アルゴリズムを使用して、プレイヤーの落書きを判断します。 Google はこれを活用して、AI 分野の中核となるテーマである画像認識と光学文字認識を AI が自ら学習できるようにする方法を研究しようとしている。

1年後、Googleはこのプロジェクトのデータセットを公開しました。 Quick Draw データセットは、Quick, Draw! ゲームのプレイヤーが描いた 5,000 万枚の絵を 345 のカテゴリに分類したコレクションです。描画はタイムスタンプ付きのベクター画像で、プレイヤーに描画するように求められたものやプレイヤーの所在国などのメタデータが含まれています。

今回、WeChatモーメントに溢れている絵当てソングにも同じような目的があり、人工知能技術による人間とコンピューターの相互作用を体験する機会をすべての人に提供するという。

AIとの継続的なインタラクションの過程で、プレイヤーはAIが絵を推測するプロセスを見ることができます。 Google は、このような設定も配慮しています。ユーザーがある項目を完了した後、その項目について他の人がどう表現しているかを確認できます。目の前に物体の画像データセットが表示されたとき、AI の目に「アイスクリーム」がどのように見えるかを理解しようとすることも可能になるかもしれません。

さらに重要なのは、「Guess the Painting」ゲームを体験したすべてのユーザーが、実際には世界に対する理解に基づいて、自分の絵画を通じて AI を継続的にトレーニングしているということです。

Google がクイック ドロー データセットを公開した際に述べたように、これは膨大な量のデータであるだけでなく、興味深い鏡でもあります。クラウドソーシングの形で一般の人々が機械学習システムのトレーニングに参加できるようにする方法や、さまざまな文化的背景や概念を反映したデータセットを作成する方法を確認するために使用できます。

この文章は「絵を当てようソング」を説明するときにも使えます。これは単なる小さなプログラムではなく、一般の人々が機械学習システムのトレーニングに参加できる方法でもあります。

Google がミニプログラムを開発する動きから判断すると、この国際的なテクノロジー大手は、自社の製品や技術の研究開発に参加するために、中国のユーザーの習慣に適応する方法を模索し、見つけようと懸命に取り組んでいることがわかります。

<<:  WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

>>:  2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

ブログ    
ブログ    

推薦する

肖亜青工業情報化大臣:我が国はAI発明特許の取得数で世界一である

[[410183]] 7月8日のニュース 2021年世界人工知能大会の開幕式で、工業情報化部の肖亜青...

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

1. ガートナー: 2018 年から 2020 年までの AI 成熟度曲線の概要最近、世界的に有名な...

...

AI革命はネットゼロデータセンターを終わらせるか?

データセンターは現代生活に欠かせないものです。あらゆるものがインターネットでつながっているこの時代に...

Ant Financial が SOFAJRaft をオープンソース化: 製品グレードの Java Raft アルゴリズム ライブラリ

SOFAJRaftとは何ですか? SOFAJRaft は、 Raftコンセンサス アルゴリズムに基づ...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...

...

人工知能はサイバーセキュリティにどのような影響を与えるのでしょうか?

人工知能の出現はITの将来の発展の傾向を変え、今後もさらに多くの産業に利益をもたらし続けるでしょう。...

既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法

[[210160]]機械はどのように学習するのでしょうか?人間の脳は継続的に経験を蓄積する能力があり...

数百万人の乗客を「迅速に配達」する人工知能の応用

ほとんどの人がテイクアウトを注文しており、今ではテイクアウトは中国人にとってもう一つの食事方法となっ...

...

Metaは、メタバース内の肖像画がぼやけないようにするための新しい仮想背景処理AIを開発しました

COVID-19パンデミックが始まって以来、私たちのほとんどは友人、同僚、家族とのリモートビデオ通話...

...

大国間の競争の焦点:人工知能とデジタル主権

​​報告書は、経済の分離と地政学的な二極化が進む時代に、優れたデジタルまたはスマートなパートナーシッ...