コンピュータービジョンとは何ですか?

コンピュータービジョンとは何ですか?

映画『マトリックス リザレクション』(2021年)では、主人公のネオがコンピューター生成の世界「マトリックス」と戦い、彼の戦士のチームがコンピューターの周りに集まり、まだマトリックスに閉じ込められているネオのパートナー、トリニティを見つけようとします。 「橋の上にいるのは彼女だ」とネオは言い、コンピューター画面上のマトリックスを表す緑色のコードを指差す。場面はバイクに乗って橋の上にいるトリニティに切り替わる。彼女は自分がシミュレーションの一部だとは知らない。コンピューターはどのようにしてブリッジ上のトリニティを「見る」のでしょうか? それは映画のテーマではありません (彼らは人類を救う必要があります) が、この記事の焦点です。

『マトリックス リザレクション』で見られるものは「コンピューター ビジョン」と呼ばれます。この技術により、コンピューターは視覚情報を「見て」理解できるようになります。コンピューター ビジョンは、アルゴリズムと人工知能の組み合わせを利用して、形状、色、テクスチャなどの情報を処理して、目の前にあるものを認識します。マトリックスのコンピューターは、髪、顔の構造、服装などの視覚的な手がかりを使ってトリニティを見つけ、照合することができました。これは、私たちが同じ手がかりを使って人物を特定するのと同じです。ただし、コンピューターよりも時間がかかることもあります。

「コンピュータービジョンは、アルゴリズムと人工知能の組み合わせに依存して、形状、色、質感などの情報を処理して、目の前にあるものを理解します。」

コンピューターは数秒以内に子宮内のトリニティを識別することができましたが、コンピューターが彼女を正確に識別できるようになるまでにはまだいくつかの手順が必要でした。

1. 画像取得: コンピュータービジョンには視覚的な入力が必要です。映画では、ネオとその友人たちがマトリックスでトリニティが住んでいる名前のない都市の多くのカメラやセンサーに接続する様子が描かれています。

2. 前処理: 分析を開始する前に、視覚入力の品質を向上させるためにいくつかの調整が必要になる場合があります。これには、サイズ変更、ノイズの低減またはキャンセルなどが含まれます。映画では、バイクに乗るトリニティにカメラがズームインし始めると、このプロセスが微妙に見られます。彼女の最初の写真は鳥瞰図ですが、カメラが彼女に向けられると焦点が絞られます。

3. 特徴抽出: 視覚入力が「クリーンアップ」されると、アルゴリズムは画像またはビデオの内容を理解するのに役立つ関連する視覚属性の抽出を開始します。

4. 特徴表現: 抽出された視覚的特徴または属性は、機械学習アルゴリズムが処理できる方法で表現する必要があります。 映画では、トリニティの視覚入力がコンピューター画面上の一連の数字と文字で表現されています。

5. 機械学習とトレーニング: このステップでは、コンピューターは以前の入力に基づいて新しい視覚入力の特徴を理解するようにトレーニングされます。たとえば、コンピューターが人間を構成する特徴(鼻、耳、腕など)についてトレーニングされている場合、コンピューターは新しい人間を認識する方法を知ることになります。

6. 認識と解釈: トレーニングされたコンピューター ビジョン システムは、新しい、目に見えない視覚データを認識できるようになりました。映画では、コンピューターが金色の輪郭でトリニティ カレッジの図を描いている様子が映し出されます。

ここまで読んで、あなたはおそらくコンピューター ビジョンについて多くのことを知っているでしょう。素晴らしいですね! しかし、このテクノロジーは SF 映画でしか見られないのだろうかと疑問に思うかもしれません。答えはノーです。コンピューター ビジョンは、私たちの世界でさまざまな用途とアプリケーションに使用されています。

まず、コンピューター ビジョンの非常に単純で一般的な現実世界の例から始めましょう。あなたはこの記事をパソコンや携帯電話で読んでいるかもしれません。携帯電話を使用している場合は、ロックを解除するためにパスワード、PIN、または顔認識を使用する必要がある場合があります。顔認識機能を使用している場合は、コンピューター ビジョンが実際に機能しているのを目にしたことになります。前面カメラで顔の画像を撮影し、主要な特徴を識別して、その画像を Face ID の設定時に登録した保存済み画像と比較します。コンピュータービジョンが画像が承認されたユーザー(あなた)と一致することを認識すると、電話のロックが解除されます。

さて、毎日は遭遇しないかもしれないが、人々の毎週のルーチンにゆっくりと浸透しつつあるコンピューター ビジョンの別の例を試してみましょう。おそらく、少なくとも週に一度は食料品を買うでしょう。あなたの食料品店にはセルフチェックアウトのキオスクがありますか? 通常、商品をスキャンするときに、レジの上にカメラが向けられています。コンピューター ビジョンを使用すると、セルフ チェックアウト キオスクからのカメラ フィードを理解し、支払いをせずに商品をポケットに入れたり、不安そうに周囲を見回したりするなどの疑わしい行動を識別してフラグを立てることができます。

これはコンピューター ビジョンの 3 番目の例ですが、あまり操作する必要がないと思います。コンピューター ビジョンは交通カメラで使用され、速度超過や信号無視などの違反を検出できます。コンピュータービジョンにより違反車両のナンバープレートを抽出し、警察が適切な担当者に違反切符を送付できるようになります。スピード違反の切符を切られたことがあるなら、事故が起こったときに警察官があなたを止めなかったとしても、それはコンピュータービジョンが働いていたということです。

そのため、『マトリックス リザレクション』におけるコンピューター ビジョンの探求は、たとえその用語が使われていなくても、私たちの生活の現実に根ざしています。コンピューター ビジョンを使用すると、携帯電話のロックを解除したり、食料品店で商品を追跡したり、大切な人を見つけたりすることができます。

<<:  CISO が AI のリスクとメリットのバランスを取る方法

>>:  IoTとAIの相乗効果:予知保全の可能性を解き放つ

推薦する

倉庫ロボットの収益は2030年までに510億ドルを超える

倉庫業界では、パンデミックによる受注量の増加と労働力不足を考慮して、自動化の取り組みを強化している。...

Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース

12月25日、Quark Appは健康検索の全面的なアップグレードを発表し、健康大規模モデルアプリケ...

機械学習プロジェクトにおけるデータの前処理とデータ ラングリング

要点一般的な機械学習/ディープラーニング プロジェクトでは、データ準備が分析パイプライン全体の 60...

LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

大規模言語モデルは推論できますか?出現したさまざまな能力の源は何でしょうか?少し前に、LeCun 氏...

スマートセキュリティカメラの3つの主要市場

2020 年に企業のオーナーや管理者が直面した健康、安全、セキュリティの課題は、非常に明確になりまし...

アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

100 日で機械学習: モデルのトレーニングが完了したら、次は何をする?

機械学習をマスターするための 100 日 | 1 日目から 62 日目までのコレクションみなさんこん...

...

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

開発者の「第2の脳」が登場、GitHub Copilotがアップデートされ、人間の開発参加がさらに減少

Andrej Karpathy 氏が嘆くのは、ソフトウェア開発プロセスにおいてコードを直接記述するこ...

ドローンは緊急通信の発展に役立ちますが、この3つのポイントが重要です。

近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...

...

インスパー・シャオ・シュエ:人工知能はモノのインターネットを「スマート」にする

「人類の発展以来、テクノロジーの継続的な進化により、接続性、インタラクション、オンライン機能が絶えず...

調査によると、2024年は「AIメガネ」市場元年となる

AppleのVision Proヘッドセットは2024年第1四半期に発売される予定だが、業界の専門家...