上海交通大学が「人間行動理解エンジン」を発表:AIが超大作映画のあらゆる行動をフレームごとに理解

上海交通大学が「人間行動理解エンジン」を発表:AIが超大作映画のあらゆる行動をフレームごとに理解

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真を見たり映画を観たりすることは、今日の AI にとってもはや難しい作業ではありません。

しかし、AI にビデオ内の人間の行動を分析するよう要求すると、物体検出に基づく従来の方法では次のような課題に直面します。

静的オブジェクトのパターンは動作アクションのパターンとは大きく異なり、既存のシステムはあまり効果的ではありません。

現在、この考えに基づいて、上海交通大学のLu Cewu 氏のチームは、全体のタスクを 2 つの段階に分割しています。

ピクセルはまず「プリミティブ アクティビティ」で構成される遷移空間にマッピングされ、次に解釈可能な論理ルールを使用して、検出されたプリミティブに関する推論が行われます。

左:従来の方法、右:新しい方法

新しい方法により、AI はベネディクト・カンバーバッチがカップを持っていること (持つ) と、右側の人物が何かに手を伸ばしていること (手を伸ばす) を真に理解できるようになります。

ゲーム内のマルチプレイヤーシーンでは、各キャラクターの現在のアクションを正確に区別することもできます。

速いサイクリストでも完璧に従うことができます:

このような映像を真に理解できるAIは、医療・健康、誘導、監視などのロボット分野で活用できる可能性があります。

この論文の著者は上海交通大学の博士号を持つ李永禄氏で、CVPR 2020に3本の論文を発表しています。

関連するコードは現在オープンソースになっています。

知識主導の行動理解

AIが人間から学ぶためには、まず人間が活動をどのように認識するかを調べる必要があります。

たとえば、歩くことと走ることを区別するには、まず足の動きに注目することになります。

例えば、人が「水を飲んでいる」かどうかを判断するには、まず手でコップを持っているかどうか、次に頭がコップに触れているかどうかという動作が判断基準になります。

これらの原子的または共通のアクションは、一種の「プリミティブ」と見なすことができます。

私たちは、プリミティブを「組み合わせて」、人間の活動に対する認識である全体的なアクションを推測します。

では、そのようなプリミティブを発見する能力に基づいて、AI はそれらを組み合わせて、組み合わせの一般化を伴うセマンティクスにプログラムすることもできるのでしょうか?

そこで、Lu Cewu 氏のチームは、知識主導型の人間行動知識エンジンであるHAKE (Human Activity Knowledge Engine) を提案しました。

これは 2 段階のシステムです。

  1. ピクセルをアトミックアクティブプリミティブが張る中間空間にマップする
  2. 推論エンジンは、検出されたプリミティブを明示的な論理ルールを持つセマンティクスにプログラムし、推論プロセス中にルールを更新するために使用されます。

全体として、上記の 2 つの段階は 2 つのタスクに分割することもできます。

最初のステップは、推論の「燃料」として豊富なアクティビティ プリミティブ ラベルで構成される知識ベースを構築することです。

702 人の参加者とのコラボレーションの結果、HAKE には現在 357,000 枚の画像/フレーム、673,000 枚の肖像画、220,000 個のオブジェクト プリミティブ、および 2,640 万個の PaSta プリミティブが存在します。

2 番目は、論理的なルール ベースと推論エンジンを構築することです。

研究チームはプリミティブを検出した後、ディープラーニングを使用してプリミティブを表す視覚的表現と言語的表現を抽出しました。

次に、解釈可能な記号推論を使用して、論理ルールに従ってプリミティブをプログラムし、原因と結果の元のアクティビティ関係を捉えます。

実験では、研究者らは 2 つの大規模なベンチマーク データセットを選択しました。HICO をベースにした 47,000 枚の画像と 600 のインタラクションを含む HICO-DET と、時空間ラベルが付いた 430 本のビデオを含む AVA です。

2 つのデータセットに対してインスタンス レベルのアクティビティ検出を実行します。つまり、アクティブな人物/オブジェクトの位置を特定し、アクティビティを分類します。

その結果、HAKE は、特に希少セットにおいて、HICO-DET の以前のインスタンス レベルの方法を大幅に改善し、TIN よりも 9.74mAP (全クラスの平均精度) が向上しました。HAKE の上限である GT-HAKE も、最先端の方法よりも優れています。

AVA では、HAKE によって、特に 20 のまれなアクティビティを中心に、かなりの数のアクティビティの検出パフォーマンスも向上します。

責任著者はフェイフェイ・リーのチームのメンバーであった。

この論文の責任著者は上海交通大学のコンピューターサイエンス教授である Lu Cewu 氏です。

上海交通大学に入学する前は、香港中文大学で博士号を取得し、スタンフォード大学でフェイフェイ・リーのチームの研究者として働いていました。

現在、彼の主な研究分野は、コンピュータービジョン、ディープラーニング、深層強化学習、ロボットビジョンです。

第一著者の Li Yonglu 氏は、上海交通大学の博士課程の学生です。以前は中国科学院自動化研究所に勤務していました。

CVPR 2020では、知識主導型の人間活動理解に関する3本の論文を連続して発表しました。

紙:

https://arxiv.org/abs/2202.06851v1

オープンソースリンク:

https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

<<:  GNNに大量のデータを与えると重力の法則が発見される

>>:  コードを書けるAIがオープンソース化! Codex よりも優れた C 言語を書き、12 のプログラミング言語をマスターする

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。教師...

Appleが自社チップ用のオープンソースフレームワークMLXを開発、Llama 7Bを実装しM2 Ultraで動作

2020年11月、Appleは速度と強力な機能の点で驚異的なM1チップを発売しました。 2022年に...

GPT+Copilotを使えば、Rustの学習はすぐに始まります

みなさんこんにちは。私は漁師です。 Rust の学習曲線は初期段階と中期段階では急峻になりますが、今...

スマートビルディングでは通信システムに何が必要ですか?

今日のいわゆるスマート ビルディングの多くは、実際にはビルディング オートメーション システムに加え...

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...

...

あなたの頭上に「ロボット」がやって来ます!起業家の知恵:リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...

スマートインフラがコミュニティを良くする5つの方法

フロスト&サリバンによる最近の分析によると、スマートシティ技術への世界的な投資は2025年までに22...

Keras 機能 API によるディープラーニング

[[380280]] Keras Python ライブラリを使用すると、ディープラーニング モデルを...

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

今年9月、OpenAIは初の開発者会議「OpenAI DevDay」を正式に発表した。その時、Ope...

人工知能の時代では、プログラマーは排除されるのでしょうか?

よく考えてみると、この質問は少し皮肉に思えます。将来、新しいクリエイター (AI) がクリエイター ...

2019 年の IT およびビッグデータ業界のトレンドを理解する

2018年ももうすぐ終わりです。今年は、ブロックチェーン、5G、チップ、量子コンピューティングが、誰...

Tableau の 157 億ドルの買収の背後にある、50 ページの詳細なレポートが BI の未来を明らかにする

レポート概要BIビジネスインテリジェンスの核心は、意思決定の価値を反映することです。 • 企業のデジ...