Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

[[207258]]

コンピュータービジョンはテクノロジー企業にとって恩恵となりつつあり、これまでは人間にしかできなかったタスクを機械が高速化して実行できるようにしています。

この動きは、eBayが、ユーザーが既存の写真を使って類似商品を検索できる新しい検索機能を追加すると発表した数カ月後に起こった。一方、オンライン衣料品小売業者のASOSは、ファッション分野に参入している。 Shutterstock は先週、ユーザーが独自のレイアウトに基づいてストック写真を検索できる新しいテスト機能を発表しました。数日後、Google フォトアプリは新しいペット画像認識機能をリリースしました。

つまり、コンピュータービジョンの分野はますます面白くなってきており、人工知能への投資も大きく成果を上げているのです。

現在、コンピュータービジョンテクノロジーの進歩のほとんどは静止画像の分野で起こっていますが、ビデオでもコンピュータービジョンテクノロジーの成果が見られ始めています。たとえば、ロシア当局は全国的なリアルタイム監視ネットワークに顔認識技術を適用している。 Pornhub も同様のことを行っており、特定の性交体位を認識できるようにシステムをトレーニングするなど、「アダルトエンターテイメント」ビデオを自動的に分類しています。さらに、現実世界の行動を理解する機械の能力に大きく依存する、急成長中の自動運転車産業もあります。

このような背景から、Google は画像内の動作を識別するコンピュータービジョンの研究を前進させることを期待して、新しいビデオデータベースを立ち上げました。 AVA は「Atomic Visual Actions」の略で、ユーザーがビデオシーケンス内で操作できる複数のタグのデータベースです。

動画内のアクション認識が難しいのは、主に、動画内にさまざまな複雑なシーンが絡み合っており、複数のアクションが異なる人物によって同時に実行されることにあります。

「画像内の人間の動作を機械に認識させることは、コンピュータービジョンの基本的な問題ですが、個人用ビデオの検索と発見、スポーツ分析、ジェスチャーインターフェースなどのアプリケーションにとって非常に重要です」と、GoogleのソフトウェアエンジニアであるChunhui Gu氏とDavid Ross氏はブログ投稿で説明しています。「過去数年間、画像分類と物体検索において画期的な進歩がありましたが、人間の動作を認識することは依然として大きな課題です。」

本質的に、AVA は 80 個のアトミックアクションが注釈付けされた YouTube URL の集まりであり、握手、キック、ハグ、キス、飲酒、楽器の演奏、ウォーキングなど、多くの日常的なアクティビティをカバーする約 58,000 個のビデオクリップに及びます。

Google は、データベースを公開することで、機械の「社会的視覚知能」を向上させ、人間が何をしているかを理解し、次に何をするかを予測できるようにしたいと考えています。

同社は「AVAのリリースにより、人間の行動認識システムの開発が改善され、時空間間隔ラベルに基づいて複雑な活動をモデル化する機会が提供されることを期待している」と述べた。

<<: 人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない

>>: ビッグデータと人工知能に関する冷静な考察

ブログ

AIと新技術が商業用不動産投資に革命を起こす

ブログ

Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

現在、CIOは企業におけるGenAIの応用価値を慎重に検討している。

2021年6月の人工知能分野における重要な進展の概要

科学データ研究のための人工知能アシスタントMATAが特許を取得

AIと新技術が商業用不動産投資に革命を起こす

推薦する

50歳の男性がAIの博士号を取得するためにケンブリッジに戻り、AIを使ってレタスを収穫するロボットを開発した。

海外メディア：TikTokは米国の規制当局の支援を得るためにアルゴリズムを公開する予定

AI時代に向けてキャリアを再設計する時が来た

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

機械学習アルゴリズムは簡単に詐欺を検出できるので、詐欺を恐れる必要はありません。

ChatGPTは早朝にメジャーアップデートを実施しました！ GPT-3.5/4 デュアルアップグレード: コンテキストが 4 倍に増加し、API を使用して独自のプラグインを作成できるようになりました

製薬会社はAIと遺伝子配列に基づいて菌類のさらなる薬効を発見している

人工知能技術の助けを借りて、人々は携帯電話を通じて皮膚がんを診断できるようになるかもしれない

カメラのようにズームして、写真の細部を塗りつぶし、スタイルをカスタマイズ。AIペイントツールMidjourneyが再びアップデート

AIと5Gテクノロジーがスマートグリッドのセキュリティ課題解決に貢献

GPT-4は97回の対話で世界の諸問題を探り、P≠NPという結論を導き出した。

エッジ AI ソフトウェア市場は 2030 年までに大幅に成長する見込み