アルゴリズムはあなたが次に何をするかを知っている

[[113040]]

コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識（メディアを聞かないでください）や、巨大な数の素因数を見つけること（現在のほとんどの暗号化方法の基礎）などです。膨大な数の可能性と膨大なニュアンスに直面したコンピューターは、正しい答えに到達するためにあらゆる可能性を徹底的に列挙しなければなりません。しかし、コンピューターに鼻を認識するように頼む場合でも、数字を見つけるように頼む場合でも、本質的には処理と操作です。コンピューターは人間の動きを分析する能力がなく、現時点では人間の脳の方がこの能力に優れています。

顔認識と行動認識は、セキュリティ分野とソーシャルネットワークにおける重要な研究テーマです。現在多くの都市に広がっている監視カメラのネットワークは、人間の目から切り離すことはできません。世界中の治安機関があらゆるカメラを常時監視することにどれほど熱心であるかは想像に難くない。ロンドンは、街角ごとに監視装置（あるいは 2 つ、あるいは 3 つ）を設置したいと思っているはずです。

今年 6 月に開催されるコンピュータービジョンおよび画像認識カンファレンスで、MIT とカリフォルニア大学の研究者が、従来の人間の目による監視を瞬時に上回る新しい動作認識アルゴリズムを実演する予定です。このアルゴリズムは自然言語処理アルゴリズムに基づいており、特定の主要分野では既存のテクノロジーを上回ることができます。

たとえば、このアルゴリズムはメモリをよりスマートに使用し（大量の仮想メモリを消費します）、メモリ使用量を一定に保つことができるため、大きなファイルやストリーミングビデオの視聴/処理が可能になります。

ストリーミングメディアの処理はそれ自体が大きな技術的進歩であり、新しいアルゴリズムは完全に完了していないアクションを処理することさえ可能です。たとえば、路上で男性が突然他人のコートのポケットに手を伸ばした場合、アルゴリズムは男性の次の行動を予測できる。ある意味では、新しいアルゴリズムは未来を予測することができます。しかし、防犯と比較すると、その主な機能は依然として動作認識です。

[[113041]]

研究者たちは、「行動文法」と呼ばれる奇妙な考えを提唱した。彼らは、言葉は一定の規則に従って文章を構成できるため、行動にも対応する規則とサブアクションがあるはずだと考えた。

MITの博士研究員ハメド・ピルシアヴァシュ氏は、最も難しいのは動作を分類し、どれが主語で、どれが動詞で、どれが副詞かを判断することだと語った。ピルシアヴァシュ氏は、お茶を注ぐ、コーヒーを作るといった動作はいくつかのサブ動作で構成されており、自分の仕事はこれらのサブ動作を分解して分類することだと語った。

このアルゴリズムには機械学習のメカニズムがあります。コンピュータプログラムは入力データデバイスから学習します。一定期間の「トレーニング」の後、プログラムはより賢くなります。プログラムは、さまざまなアクションを含むビデオを観察し、各サブアクションをスキャンします。

特定のアクションの開始を観察することで、プログラムはそのアクションのすべての可能な終了を、最も可能性の高いものから最も可能性の低いものの順にランク付けして生成できます。ビデオが進むにつれて、新しく追加された情報によって、特定のアクションの可能性が排除されます。(たとえ人物のアクションが変わっていなくても、時間も情報であるため、それ自体が新しい情報です。) プログラムは、可能性のあるアクションの確率を再度整理します。プログラムは重要なアクションをスキャンすると、次のアクションを非常に正確に予測できます。

[王大発才、Vice経由]

<<: 物理学者は神の粒子を研究するためのアルゴリズムを開発するためにプログラマーを招待する

>>: アルゴリズムの質問: 計算された π の値が正確かどうかをどのように判断するのでしょうか?

アルゴリズムはあなたが次に何をするかを知っている

AI導入において、テクノロジーは最大の課題ではないが、人材は

Rocket Launch: 効率的で軽量なネットワークトレーニングフレームワーク

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

AI はデータセンターをよりスマートにするためにどのように役立ちますか?

GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

スマートコックピット、進行中のインタラクティブ革命

ChatGPTコードインタープリターとJupyter Notebookを組み合わせてコーディング機能を強化

推薦する

清華大学の劉志遠氏：「ビッグモデルに関する10の質問」、新しいパラダイムの下での研究の方向性を見つける

LinkedIn は、すべてのユーザーに公開される生成 AI 支援投稿作成機能を開始しました。

自動運転車の意思決定制御システム技術を分析した記事

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

自動運転HMI設計のポイントは何ですか?

アルゴリズムの練習とプログラミング学習に最適な 6 つの Web サイト

AIが都市の交通管理を改善する方法

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

実践的 | この記事は、ディープラーニングをゼロから始めるのに役立ちます

AIが労働力に与える影響について考えられる3つのシナリオ

テクノロジーから製品まで、Apple Siriのディープラーニング音声合成技術の秘密が明らかに

テクノロジーが伝染病との戦いに役立ちます!無人車両が配送業界の「寵児」に

人工知能の潜在能力を活かすための深層開発

チューリング賞受賞者ジョン・ヘネシー氏：データと機械学習は世界をより良い場所にする