1 つの記事で理解する: 「コンピュータービジョン」とは一体何でしょうか?

[[183558]]

誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチするでしょう。この質問は愚かでしょうか?

しかし、実際には、このプロセスは最も複雑なものの 1 つであり、私たちはまだそれを理解する段階にあり、それを再構築するにはまだ遠いところにあります。つまり、人間のように見る機械を発明するのは非常に難しい作業です。コンピューターにとって非常に難しいだけでなく、私たち自身でさえ完全な詳細を把握することはできません。

実際のプロセスは、おおよそ次のようになります。まず、ボールが人間の網膜に入り、いくつかの要素分析を行った後、脳に送られます。視覚皮質は、画像をより徹底的に分析し、残りの皮質に送信して、既知のオブジェクトと比較し、オブジェクトと緯度を分類し、最終的に次のアクションを決定します。つまり、手を上げてボールを拾う (ボールの軌道は事前に予測されています)。

上記のプロセスはわずか数十分の一秒しかかからず、ほとんど無意識に行われるため、間違いはほとんどありません。したがって、人間の視覚を作り変えることは、単なる単一の困難な作業ではなく、一連の相互に関連したプロセスです。

1966年という早い時期に、人工知能分野の先駆者であるマリビン・ミンスキーは、大学院生たちに「カメラをコンピューターに接続し、コンピューターが見たものを説明させる」という課題を与えました。そして50年経った今でも、人々は同じテーマを研究し続けています。

この分野の徹底的な研究は 1950 年代に始まり、その方向性は 3 つありました。人間の目の複製 (難易度は星数十個)、視覚皮質の複製 (難易度は星 50 個)、脳の残りの部分の複製 (難易度は星 100 個) です。

人間の目をコピーする - コンピューターに「見せる」

これまで最も成果が上がっているのは、「人間の目のクローン化」の分野です。過去数十年にわたり、科学者たちは人間の目の能力に匹敵し、場合によってはそれを上回るセンサーや画像プロセッサを開発してきました。現代のカメラは、強力で光学的に高度なレンズとナノメートルレベルで製造された半導体ピクセルを使用することで、驚異的なレベルの精度と鮮明さを実現しています。また、1秒間に何千枚もの画像を撮影し、非常に正確に距離を測定することもできます。

[[183559]]

デジタルカメラの画像センサー

問題は、出力側では非常に高い忠実度を達成できたものの、多くの点でこれらのデバイスは 19 世紀のピンホールカメラと変わらないということです。せいぜい対応する方向の光子の分布を記録する程度で、最高のカメラセンサーでもボールを「認識」できず、ましてや捉えることはできません。

言い換えれば、ソフトウェア基盤がなければ、ハードウェアはかなり制限されます。したがって、この分野のソフトウェアは解決がより困難な問題です。ただし、今日の高度なカメラ技術は、このソフトウェアに豊富で柔軟なプラットフォームを提供します。

視覚野を再現する - コンピューターに「記述」させる

ご存知のとおり、人間の脳は基本的に意識を通じて「見る」という動作を実行します。脳のかなりの部分は、他のどの作業よりも「見る」ことに費やされており、この専門技術は細胞自体によって実行されています。数十億の細胞が協力して、網膜からのノイズの多い不規則な信号からパターンを抽出します。

特定の角度の線に沿って差異があったり、特定の方向に急激な動きがあったりすると、ニューロンのグループが発火します。より高度なネットワークでは、これらのパターンをメタパターン（上方向に移動する円）にグループ化します。同時に、別のネットワークが形成されます。今回は、赤い線が入った白い円です。さらに別のパターンが大きくなります。これらの大まかだが補完的な説明から、具体的なイメージが生成され始めます。

[[183560]]

人間の脳の視覚領域に似た技術を使用して、物体のエッジやその他の特徴を特定し、「方向付けられた勾配のヒストグラム」を形成します。

これらのネットワークはかつて「計り知れないほど複雑」であると考えられていたため、コンピュータービジョン研究の初期には別のアプローチが採用されました。それは、「トップダウン推論」モデルです。たとえば、本が「このように見える」場合は、「これ」に似たパターンに注目します。車は「こう」見えて「こう」動きます。

特定の制御された状況では、このプロセスは少数のオブジェクトに対して実行できますが、私たちの周囲にあるすべてのオブジェクトを、その角度、照明の変化、動き、その他数百の要因とともに記述するには、赤ちゃんの喃語レベルでも、想像を絶するほど大量のデータが必要になります。

さらに、「トップダウン」アプローチではなく「ボトムアップ」アプローチ、つまり脳内のプロセスをシミュレートするアプローチを使用すると、見通しはさらに良くなります。コンピューターは、複数の画像の中から 1 つの画像に対して一連の変換を実行し、オブジェクトのエッジを見つけたり、画像内のオブジェクト、角度、動きを発見したりすることができます。人間の脳と同じように、コンピューターはさまざまなグラフィックを表示することで、多くの計算と統計を使用して、自分が「見ている」形状を、以前に認識するように訓練された形状と一致させようとします。

科学者たちは、スマートフォンやその他のデバイスがカメラの視野内にある物体を理解し、素早く識別できるようにすることに取り組んでいます。上に示すように、ストリートビュー内のオブジェクトには、オブジェクトを説明するテキストラベルが付けられており、このプロセスを実行するプロセッサは、従来の携帯電話のプロセッサよりも 120 倍高速です。

近年の並列コンピューティングの進歩により、関連する障壁は徐々に取り除かれてきました。現在、脳のような機能を模倣する研究と応用が急増しています。パターン認識のプロセスは桁違いに高速化しており、私たちは日々進歩を続けています。

脳の残りの部分をコピーしてコンピューターに「理解」させる

もちろん、「識別」と「説明」だけでは十分ではありません。システムは、リンゴがどんな状況、角度、動きであっても、また、かじられたかどうかなどでも認識できます。しかし、まだオレンジを認識できません。そして、リンゴとは何か、食べられるのか、大きさはどれくらいなのか、具体的な用途は何か、ということさえも伝えることができません。

[[183561]]

前述のように、ソフトウェアがなければ、ハードウェアのパフォーマンスは非常に制限されます。しかし、現在の問題は、優れたハードウェアとソフトウェアを持っていても、優れたオペレーティングシステムがなければ役に立たないということです。

人間の場合、脳の残りの部分は、長期記憶と短期記憶、他の感覚からの入力、注意力と認知力、そして世界中の何兆ものやり取りから得られた何十億もの知識で構成されており、それらは相互接続されたニューロンに、私たちには理解しにくい方法で書き込まれます。そして、それを再現することは、私たちがこれまで経験したことよりも複雑でした。

コンピュータビジョンの現状と将来

これは、より一般的にはコンピューターサイエンスと人工知能の最先端です。コンピューター科学者、エンジニア、心理学者、神経科学者、哲学者が協力して意識がどのように機能するかについてのアイデアを開発していますが、それをシミュレートするにはまだ遠い道のりです。

しかし、これは私たちが現在行き詰まっていることを意味するものではありません。コンピュータービジョンの将来では、強力で特殊なシステムが統合され、コンテキスト、注意、意図といった難しい概念に人々がより広く焦点を当てられるようになります。

そのため、まだ初期段階ですが、コンピュータービジョンは依然として大きな役割を果たしています。カメラでは顔や笑顔の認識に、自動運転車では交通標識の読み取りや歩行者の監視に、工場のロボットでは問題を検知したり周囲の人間を回避したりするためにAIが使用されています。「人間のように見る」という目標にはまだ遠い道のりですが、もしそれが実現できれば素晴らしい未来になるでしょう。

<<: ディープラーニングコンテナクラウドが4000万ドルの資金調達を実施、人工知能がエンタープライズクラウド市場を活性化

>>: この記事は人工知能について最も分かりやすく解説しています：原理、技術、そして将来