Google 初の WeChat ミニプログラム「絵を当てよう」アプリは、リリースから 1 日で、一部の人々の Moments を席巻しました。多くの「ソウル ペインター」が Moments で自分の絵を喜んで共有する一方で、「なぜ AI は私の絵をこんなにうまく当てられないのか」という疑問も数多く生じています。 コミュニケーション効果から判断すると、Googleが初めて立ち上げたWeChatミニプログラムは大きな成功を収めたと言える。 「Guess the Picture Song」は、ゲームプレイが非常にシンプルな小さなプログラムです。具体的なゲームプレイは、ユーザーが Google AI とチームを組んで、制限時間内にスケッチするというものです。体験の各ラウンドでは、ユーザーは指定された時間内に日常的なアイテム(犬、時計、靴など)の絵をスケッチする必要があり、AI チームメイトは時間切れになる前に絵の中のオブジェクトを推測する必要があります。 AIが写真内のオブジェクトを推測すると、ユーザーは次のラウンドに進み、それに応じてユーザーの連勝数が増加します。ユーザーは、友人や家族を招待して最長連勝記録に挑戦したり、興味深いスケッチを共有したり、体験中に新しい質問や絵を収集し続けることもできます。 「絵当て小歌」が提供したランキングリストによると、絵画スタジオの見習いレベルのユーザーが、25分30秒以内にAIが正確に認識できる絵を288枚続けて描いたため、現在ランキングリストの1位にランクされています。 絵の歌を推測した結果は、必ずしもあなたの描画スキルに比例するとは限りません。実際、多くのユーザーは、体験中に次のような状況に遭遇します。特定のオブジェクトを非常に鮮明に描いたのに、AIがそれを推測できないのです。この質問に答えるには、推測ゲームの仕組みを理解する必要があります。 絵画を推測する Xiaoge は、大量の落書きサンプルからの学習に基づいて、ニューラル ネットワーク テクノロジを使用してユーザーの絵画を識別します。 Google は公式声明でこれについて簡単に紹介している。「AI 技術の一種であるコンピューター ビジョン技術により、コンピューターは入力された視覚情報を直接理解し、それによって世界を「見る」ことができるようになります。」この技術は、ビデオ通話中の友人を識別してタグ付けできるだけでなく、人間の眼底診断画像で糖尿病の初期兆候を特定するのにも役立ちます。 「ニューラル ネットワーク」テクノロジーのおかげで、コンピューターは一見非常に困難に思えるいくつかのことを非常にうまく処理できます。たとえば、大まかなスケッチから物体が何であるかを識別することができます。コンピューターは、耳の付いたランダムなインクの落書きがパンダである可能性があることを「認識」できるようになりました。 このゲームを具体的にサポートしているのは、RNN と呼ばれる再帰ニューラル ネットワークです。RNN は内部メモリを使用して任意の時間シーケンスの入力シーケンスを処理できるため、セグメント化されていない手書き認識や音声認識などをより簡単に処理できます。いわゆる入力順序とは、文字を書くときの筆順や、描くときの前後の過程を指します。 実際、Google は 2016 年にはすでに、同様のゲームプレイを備えたクイック ドローの Web バージョンをリリースしていました。このゲームでは、名詞がランダムに表示され、20 秒以内にそれを描くように求められます。プレイヤーはマウスを使ってオブジェクトの輪郭を描くだけで、Quick, Draw! があなたの描いた絵が似ているかどうかを判断します。 このゲームはシンプルで簡単に見えますが、Google による一連の AI 実験ツールの重要な部分です。実際には、ニューラル ネットワーク アルゴリズムを使用して、プレイヤーの落書きを判断します。 Google はこれを活用して、AI 分野の中核となるテーマである画像認識と光学文字認識を AI が自ら学習できるようにする方法を研究しようとしている。 1年後、Googleはこのプロジェクトのデータセットを公開しました。 Quick Draw データセットは、Quick, Draw! ゲームのプレイヤーが描いた 5,000 万枚の絵を 345 のカテゴリに分類したコレクションです。描画はタイムスタンプ付きのベクター画像で、プレイヤーに描画するように求められたものやプレイヤーの所在国などのメタデータが含まれています。 今回、WeChatモーメントに溢れている絵当てソングにも同じような目的があり、人工知能技術による人間とコンピューターの相互作用を体験する機会をすべての人に提供するという。 AIとの継続的なインタラクションの過程で、プレイヤーはAIが絵を推測するプロセスを見ることができます。 Google は、このような設定も配慮しています。ユーザーがある項目を完了した後、その項目について他の人がどう表現しているかを確認できます。目の前に物体の画像データセットが表示されたとき、AI の目に「アイスクリーム」がどのように見えるかを理解しようとすることも可能になるかもしれません。 さらに重要なのは、「Guess the Painting」ゲームを体験したすべてのユーザーが、実際には世界に対する理解に基づいて、自分の絵画を通じて AI を継続的にトレーニングしているということです。 Google がクイック ドロー データセットを公開した際に述べたように、これは膨大な量のデータであるだけでなく、興味深い鏡でもあります。クラウドソーシングの形で一般の人々が機械学習システムのトレーニングに参加できるようにする方法や、さまざまな文化的背景や概念を反映したデータセットを作成する方法を確認するために使用できます。 この文章は「絵を当てようソング」を説明するときにも使えます。これは単なる小さなプログラムではなく、一般の人々が機械学習システムのトレーニングに参加できる方法でもあります。 Google がミニプログラムを開発する動きから判断すると、この国際的なテクノロジー大手は、自社の製品や技術の研究開発に参加するために、中国のユーザーの習慣に適応する方法を模索し、見つけようと懸命に取り組んでいることがわかります。 |
<<: WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。
>>: 2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社
有名なイギリスの科学者スティーブン・ホーキングはかつて、知能機械を作ろうとする人間の努力は私たち自身...
[[201727]]序文AlexNet が ILSVRC 2012 ImageNet 画像分類コンテ...
12月18日、Businessinsiderによると、大規模なAIモデルは現在、人間の介入なしに完全...
今日、人工知能と機械学習は製造業界における変化の重要な原動力となっています。人工知能と機械学習により...
機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは...
今日の新しいテクノロジーの進歩により、私たちは皆、データの重要性を認識しています。データは新たな石油...
「AI+ヘルスケア」は現在最も注目されている人工知能の応用シナリオの1つであり、人工知能技術は医療・...
チャット プラグイン システムは、ChatGPT の機能を拡張し、独自のビジネス データを組み込み、...
先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...
最近、メタバースに新たな水が流れ込んできました。 Metaが開催した研究室でのディスカッションにおい...
[[272354]]画像: この Uber の自動運転車は、米国サンフランシスコでテスト中に信号待ち...
ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年...
[[192056]]ディープラーニングの中心的な問題は非常に難しい最適化問題です。そのため、ニューラ...
1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...