コンピューター ビジョンはテクノロジー企業にとって恩恵となりつつあり、これまでは人間にしかできなかったタスクを機械が高速化して実行できるようにしています。 この動きは、eBayが、ユーザーが既存の写真を使って類似商品を検索できる新しい検索機能を追加すると発表した数カ月後に起こった。一方、オンライン衣料品小売業者のASOSは、ファッション分野に参入している。 Shutterstock は先週、ユーザーが独自のレイアウトに基づいてストック写真を検索できる新しいテスト機能を発表しました。数日後、Google フォト アプリは新しいペット画像認識機能をリリースしました。 つまり、コンピューター ビジョンの分野はますます面白くなってきており、人工知能への投資も大きく成果を上げているのです。 現在、コンピューター ビジョン テクノロジーの進歩のほとんどは静止画像の分野で起こっていますが、ビデオでもコンピューター ビジョン テクノロジーの成果が見られ始めています。たとえば、ロシア当局は全国的なリアルタイム監視ネットワークに顔認識技術を適用している。 Pornhub も同様のことを行っており、特定の性交体位を認識できるようにシステムをトレーニングするなど、「アダルトエンターテイメント」ビデオを自動的に分類しています。さらに、現実世界の行動を理解する機械の能力に大きく依存する、急成長中の自動運転車産業もあります。 このような背景から、Google は画像内の動作を識別するコンピューター ビジョンの研究を前進させることを期待して、新しいビデオ データベースを立ち上げました。 AVA は「Atomic Visual Actions」の略で、ユーザーがビデオ シーケンス内で操作できる複数のタグのデータベースです。 動画内のアクション認識が難しいのは、主に、動画内にさまざまな複雑なシーンが絡み合っており、複数のアクションが異なる人物によって同時に実行されることにあります。 「画像内の人間の動作を機械に認識させることは、コンピュータービジョンの基本的な問題ですが、個人用ビデオの検索と発見、スポーツ分析、ジェスチャーインターフェースなどのアプリケーションにとって非常に重要です」と、GoogleのソフトウェアエンジニアであるChunhui Gu氏とDavid Ross氏はブログ投稿で説明しています。「過去数年間、画像分類と物体検索において画期的な進歩がありましたが、人間の動作を認識することは依然として大きな課題です。」 本質的に、AVA は 80 個のアトミック アクションが注釈付けされた YouTube URL の集まりであり、握手、キック、ハグ、キス、飲酒、楽器の演奏、ウォーキングなど、多くの日常的なアクティビティをカバーする約 58,000 個のビデオ クリップに及びます。 Google は、データベースを公開することで、機械の「社会的視覚知能」を向上させ、人間が何をしているかを理解し、次に何をするかを予測できるようにしたいと考えています。 同社は「AVAのリリースにより、人間の行動認識システムの開発が改善され、時空間間隔ラベルに基づいて複雑な活動をモデル化する機会が提供されることを期待している」と述べた。 |
<<: 人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない
[中国、深セン、2020年8月10日] ファーウェイは本日、深センで開催されたAscend AI ...
自動車メーカーは、施設を近代化し、事業運営をより持続可能にするために、スマート製造戦略を採用していま...
今日は、子供たちにプログラミングを教えるということについての私たちの考えをいくつか共有したいと思いま...
[[442368]] 1週間前、コンピュータービジョン分野の古典であるHe Kaiming氏のRe...
[51CTO.com クイック翻訳] 人工知能 (AI) システムは経済を変え、大量の失業と巨大な独...
最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...
近年、モノのインターネットは大きな注目を集めていますが、ほとんどのアプリケーションには 2 つの重要...
広く認識されている機械学習の形式には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つ...
著者: ヨギータ・キナブガッティが編集企画丨孫淑娊適切な機械学習アルゴリズムを選択するにはどうすれば...
一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...