Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Google 初の WeChat ミニプログラム「絵を当てよう」アプリは、リリースから 1 日で、一部の人々の Moments を席巻しました。多くの「ソウル ペインター」が Moments で自分の絵を喜んで共有する一方で、「なぜ AI は私の絵をこんなにうまく当てられないのか」という疑問も数多く生じています。

コミュニケーション効果から判断すると、Googleが初めて立ち上げたWeChatミニプログラムは大きな成功を収めたと言える。

「Guess the Picture Song」は、ゲームプレイが非常にシンプルな小さなプログラムです。具体的なゲームプレイは、ユーザーが Google AI とチームを組んで、制限時間内にスケッチするというものです。体験の各ラウンドでは、ユーザーは指定された時間内に日常的なアイテム(犬、時計、靴など)の絵をスケッチする必要があり、AI チームメイトは時間切れになる前に絵の中のオブジェクトを推測する必要があります。

AIが写真内のオブジェクトを推測すると、ユーザーは次のラウンドに進み、それに応じてユーザーの連勝数が増加します。ユーザーは、友人や家族を招待して最長連勝記録に挑戦したり、興味深いスケッチを共有したり、体験中に新しい質問や絵を収集し続けることもできます。

「絵当て小歌」が提供したランキングリストによると、絵画スタジオの見習いレベルのユーザーが、25分30秒以内にAIが正確に認識できる絵を288枚続けて描いたため、現在ランキングリストの1位にランクされています。

絵の歌を推測した結果は、必ずしもあなたの描画スキルに比例するとは限りません。実際、多くのユーザーは、体験中に次のような状況に遭遇します。特定のオブジェクトを非常に鮮明に描いたのに、AIがそれを推測できないのです。この質問に答えるには、推測ゲームの仕組みを理解する必要があります。

絵画を推測する Xiaoge は、大量の落書きサンプルからの学習に基づいて、ニューラル ネットワーク テクノロジを使用してユーザーの絵画を識別します。

Google は公式声明でこれについて簡単に紹介している。「AI 技術の一種であるコンピューター ビジョン技術により、コンピューターは入力された視覚情報を直接理解し、それによって世界を「見る」ことができるようになります。」この技術は、ビデオ通話中の友人を識別してタグ付けできるだけでなく、人間の眼底診断画像で糖尿病の初期兆候を特定するのにも役立ちます。 「ニューラル ネットワーク」テクノロジーのおかげで、コンピューターは一見非常に困難に思えるいくつかのことを非常にうまく処理できます。たとえば、大まかなスケッチから物体が何であるかを識別することができます。コンピューターは、耳の付いたランダムなインクの落書きがパンダである可能性があることを「認識」できるようになりました。

このゲームを具体的にサポートしているのは、RNN と呼ばれる再帰ニューラル ネットワークです。RNN は内部メモリを使用して任意の時間シーケンスの入力シーケンスを処理できるため、セグメント化されていない手書き認識や音声認識などをより簡単に処理できます。いわゆる入力順序とは、文字を書くときの筆順や、描くときの前後の過程を指します。

実際、Google は 2016 年にはすでに、同様のゲームプレイを備えたクイック ドローの Web バージョンをリリースしていました。このゲームでは、名詞がランダムに表示され、20 秒以内にそれを描くように求められます。プレイヤーはマウスを使ってオブジェクトの輪郭を描くだけで、Quick, Draw! があなたの描いた絵が似ているかどうかを判断します。

このゲームはシンプルで簡単に見えますが、Google による一連の AI 実験ツールの重要な部分です。実際には、ニューラル ネットワーク アルゴリズムを使用して、プレイヤーの落書きを判断します。 Google はこれを活用して、AI 分野の中核となるテーマである画像認識と光学文字認識を AI が自ら学習できるようにする方法を研究しようとしている。

1年後、Googleはこのプロジェクトのデータセットを公開しました。 Quick Draw データセットは、Quick, Draw! ゲームのプレイヤーが描いた 5,000 万枚の絵を 345 のカテゴリに分類したコレクションです。描画はタイムスタンプ付きのベクター画像で、プレイヤーに描画するように求められたものやプレイヤーの所在国などのメタデータが含まれています。

今回、WeChatモーメントに溢れている絵当てソングにも同じような目的があり、人工知能技術による人間とコンピューターの相互作用を体験する機会をすべての人に提供するという。

AIとの継続的なインタラクションの過程で、プレイヤーはAIが絵を推測するプロセスを見ることができます。 Google は、このような設定も配慮しています。ユーザーがある項目を完了した後、その項目について他の人がどう表現しているかを確認できます。目の前に物体の画像データセットが表示されたとき、AI の目に「アイスクリーム」がどのように見えるかを理解しようとすることも可能になるかもしれません。

さらに重要なのは、「Guess the Painting」ゲームを体験したすべてのユーザーが、実際には世界に対する理解に基づいて、自分の絵画を通じて AI を継続的にトレーニングしているということです。

Google がクイック ドロー データセットを公開した際に述べたように、これは膨大な量のデータであるだけでなく、興味深い鏡でもあります。クラウドソーシングの形で一般の人々が機械学習システムのトレーニングに参加できるようにする方法や、さまざまな文化的背景や概念を反映したデータセットを作成する方法を確認するために使用できます。

この文章は「絵を当てようソング」を説明するときにも使えます。これは単なる小さなプログラムではなく、一般の人々が機械学習システムのトレーニングに参加できる方法でもあります。

Google がミニプログラムを開発する動きから判断すると、この国際的なテクノロジー大手は、自社の製品や技術の研究開発に参加するために、中国のユーザーの習慣に適応する方法を模索し、見つけようと懸命に取り組んでいることがわかります。

<<:  WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

>>:  2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

ブログ    
ブログ    

推薦する

Adobeは、より高品質な画像を提供するために、AI生成モデルの新世代であるFirefly Image 2をリリースしました。

アドビは10月11日、先日開催されたAdobe MAXクリエイティブカンファレンスにおいて、同社のA...

...

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...

宝くじに当たるのは雷に打たれるより難しいですか?確率を向上させるためにアルゴリズムを使ってみる

宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

12月1日、GoogleのDeepMindは最近、Nature誌で自社のAIツールGNoMEを披露し...

時間畳み込みネットワーク: 時系列の次の革命?

この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。まず、動き検出のケース...

李開復氏独占インタビュー:10年後には人間の仕事の50%がAIに置き換えられる

「人工知能は急速に発展し、10年以内に人間の仕事の50%がAIに置き換えられるだろう」。シノベーショ...

...

大規模なマルチモーダルモデルは、学習しすぎると能力が低下しますか?新しい研究:教育省+の一般専門家が紛争を解決

微調整により、一般的な大規模モデルを特定の業界のアプリケーションにより適したものにすることができます...

2020年の情報セキュリティ:人工知能(AI)はさまざまな情報セキュリティシステムで広く利用されている

マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...

初心者のためのデータ学習: Python でシンプルな教師あり学習アルゴリズムを実装する方法を学習します

[[220586]]編纂者:ウェンミン、ダ・ジェチョン、ティエンペイ最も広く使用されている機械学習手...

企業は生成AIのオープンソース化のリスクとメリットを検討

EmTech MIT では、専門家が、生成 AI モデルのオープンソース化の長所と短所を含め、企業で...

パーソナライズされたサービス + 5G アプリケーション IBM が 2022 年の 5 つの AI 予測を発表

2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...

Gizwits Cloud はスマートホームが機械にユーザーをよりよく理解するのを助けます

[51CTO.com からのオリジナル記事] 2016年、国内投資家のVRへの熱意はまだ薄れていなか...