コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識(メディアを聞かないでください)や、巨大な数の素因数を見つけること(現在のほとんどの暗号化方法の基礎)などです。膨大な数の可能性と膨大なニュアンスに直面したコンピューターは、正しい答えに到達するためにあらゆる可能性を徹底的に列挙しなければなりません。しかし、コンピューターに鼻を認識するように頼む場合でも、数字を見つけるように頼む場合でも、本質的には処理と操作です。コンピューターは人間の動きを分析する能力がなく、現時点では人間の脳の方がこの能力に優れています。 顔認識と行動認識は、セキュリティ分野とソーシャルネットワークにおける重要な研究テーマです。現在多くの都市に広がっている監視カメラのネットワークは、人間の目から切り離すことはできません。世界中の治安機関があらゆるカメラを常時監視することにどれほど熱心であるかは想像に難くない。ロンドンは、街角ごとに監視装置(あるいは 2 つ、あるいは 3 つ)を設置したいと思っているはずです。 今年 6 月に開催されるコンピューター ビジョンおよび画像認識カンファレンスで、MIT とカリフォルニア大学の研究者が、従来の人間の目による監視を瞬時に上回る新しい動作認識アルゴリズムを実演する予定です。このアルゴリズムは自然言語処理アルゴリズムに基づいており、特定の主要分野では既存のテクノロジーを上回ることができます。 たとえば、このアルゴリズムはメモリをよりスマートに使用し(大量の仮想メモリを消費します)、メモリ使用量を一定に保つことができるため、大きなファイルやストリーミング ビデオの視聴/処理が可能になります。 ストリーミング メディアの処理はそれ自体が大きな技術的進歩であり、新しいアルゴリズムは完全に完了していないアクションを処理することさえ可能です。たとえば、路上で男性が突然他人のコートのポケットに手を伸ばした場合、アルゴリズムは男性の次の行動を予測できる。ある意味では、新しいアルゴリズムは未来を予測することができます。しかし、防犯と比較すると、その主な機能は依然として動作認識です。
研究者たちは、「行動文法」と呼ばれる奇妙な考えを提唱した。彼らは、言葉は一定の規則に従って文章を構成できるため、行動にも対応する規則とサブアクションがあるはずだと考えた。 MITの博士研究員ハメド・ピルシアヴァシュ氏は、最も難しいのは動作を分類し、どれが主語で、どれが動詞で、どれが副詞かを判断することだと語った。ピルシアヴァシュ氏は、お茶を注ぐ、コーヒーを作るといった動作はいくつかのサブ動作で構成されており、自分の仕事はこれらのサブ動作を分解して分類することだと語った。 このアルゴリズムには機械学習のメカニズムがあります。コンピュータ プログラムは入力データ デバイスから学習します。一定期間の「トレーニング」の後、プログラムはより賢くなります。プログラムは、さまざまなアクションを含むビデオを観察し、各サブアクションをスキャンします。 特定のアクションの開始を観察することで、プログラムはそのアクションのすべての可能な終了を、最も可能性の高いものから最も可能性の低いものの順にランク付けして生成できます。ビデオが進むにつれて、新しく追加された情報によって、特定のアクションの可能性が排除されます。(たとえ人物のアクションが変わっていなくても、時間も情報であるため、それ自体が新しい情報です。) プログラムは、可能性のあるアクションの確率を再度整理します。プログラムは重要なアクションをスキャンすると、次のアクションを非常に正確に予測できます。[王大発才、Vice経由] |
<<: 物理学者は神の粒子を研究するためのアルゴリズムを開発するためにプログラマーを招待する
>>: アルゴリズムの質問: 計算された π の値が正確かどうかをどのように判断するのでしょうか?
2023 年の主流のテクノロジートレンドが人工知能、より具体的には生成 AI に重点を置くことは間...
近年、教育業界の資金のほとんどは「AI+教育」を追い求めています。現在、「AI+教育」分野では、さま...
自然言語処理 (NLP) 機能の向上により、認知機能と人間同士のやり取りが向上し、それが AI の将...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IT Homeは9月12日、Microsoftが最近、Windows Subsystem for L...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工ニューラル ネットワーク アルゴリズムの成熟と GPU コンピューティング能力の向上により、ディ...
あらゆるテクノロジーには限界があり、AI と人工知能も例外ではありません。その制限は、検出、電力消費...
[[380229]] 1. 顔認識の背景紹介簡単に言えば、顔認識の問題は、2 つの顔が与えられたとき...
先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...
視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...
最近、米国プリンストン大学の研究者らがソフトロボットを製造する新しい方法を開発しました。このロボット...
質問に答えたり、翻訳したり、記事を書いたり、コードを書いたり、数式を計算したり、アイコンを描いたりす...