コンピュータビジョンにおけるステレオビジョンと奥行き知覚の例

人工知能と画像処理の魅力的な世界では、これらの概念は、機械が人間の目と同じように私たちの周りの三次元世界を認識できるようにする上で重要な役割を果たします。立体視と奥行き知覚の背後にあるテクノロジーを探り、コンピューターが 2D 画像から奥行き、距離、空間認識を得る秘密を解き明かしましょう。

コンピュータービジョンにおけるステレオビジョンと奥行き知覚とは何ですか?

立体視と奥行き知覚は、視覚情報から奥行きと三次元構造を知覚する人間の能力を模倣することを目的とした、コンピュータービジョンにおける重要な概念です。ロボット工学、自動運転車、拡張現実などのアプリケーションでよく使用されます。

ステレオビジョン

ステレオビジョンは、立体視または両眼視とも呼ばれ、人間の目の働きを模倣し、わずかに離して配置された 2 台以上のカメラからの画像をキャプチャして分析することで、シーンの奥行きを知覚する技術です。

立体視の基本原理は三角測量です。 2 台のカメラ (または「ステレオカメラ」) がわずかに異なる視点から同じシーンの画像を撮影すると、結果として得られる画像のペアはステレオペアと呼ばれ、2 つの画像内の対応する点の位置の差、つまり視差が含まれます。

これらの違いを分析することで、コンピュータービジョンシステムはシーン内のオブジェクトの深度情報を計算できます。カメラに近いオブジェクトでは差異が大きく、カメラから遠いオブジェクトでは差異が小さくなります。

ステレオビジョンアルゴリズムには通常、特徴マッチング、視差マッピング、エピポーラ幾何学などの技術が使用され、深度マップ、つまりシーンの 3D 表現が計算されます。

奥行き知覚

コンピュータービジョンにおける奥行き知覚とは、システムが 1 つまたは複数の 2D 画像またはビデオフレームから 3D シーン内のオブジェクトの距離を理解して推定する能力を指します。

立体視に加えて、次のような他の方法を使用して奥行き知覚を実現できます。

単眼の手がかり: 単一のカメラまたは画像で認識できる奥行きの手がかりです。たとえば、遠近法、テクスチャのグラデーション、影、オクルージョンなどの例です。これらの手がかりは、立体視がない場合でも奥行きを推定するのに役立ちます。
LiDAR (光検出および測距): LiDAR センサーはレーザービームを使用してシーン内のオブジェクトまでの距離を測定し、ポイントクラウドの形式で正確な深度情報を提供します。この情報を視覚データと融合することで、より正確な奥行き認識が可能になります。
構造化光: 構造化光では、既知のパターンをシーンに投影し、そのパターンがシーン内のオブジェクト上でどのように変形するかを分析します。この変形を利用して深度情報を計算できます。
Time-of-Flight (ToF) カメラ: ToF カメラは、光が物体から反射してカメラに戻ってくるまでの時間を測定します。この情報は深度を推定するために使用されます。

コンピュータービジョンアプリケーションでは、障害物の回避、オブジェクトの認識、3D 再構築、シーンの理解などのタスクに奥行き知覚が不可欠です。

コンピュータビジョンにおけるステレオビジョンと奥行き知覚コンポーネント

ステレオカメラ: ステレオビジョンは、既知の距離を置いて配置された 2 台以上のカメラ (ステレオカメラ) に依存します。これらのカメラは、人間の目が奥行きを知覚する方法を模倣して、わずかに異なる視点から同じシーンの画像を撮影します。
画像キャプチャ: カメラはシーンの画像またはビデオフレームをキャプチャします。これらの画像は、左画像 (左カメラから) および右画像 (右カメラから) と呼ばれることがよくあります。
キャリブレーション: 深度情報を正確に計算するには、ステレオカメラをキャリブレーションする必要があります。このプロセスには、内部マトリックス、歪み係数、外部パラメーター (カメラ間の回転と移動) などのカメラパラメーターの決定が含まれます。キャリブレーションにより、2 台のカメラからの画像が正しく補正され、一致することが保証されます。
補正: 補正は、エピポーラ線上の対応する特徴を揃えるために、キャプチャされた画像に適用される幾何学的変換です。これにより、違いがより予測可能になり、ステレオマッチングプロセスが簡素化されます。
ステレオマッチング: ステレオマッチングは、左の画像と右の画像間の対応する点または一致する点を見つけるプロセスです。各ピクセルの差を計算するために使用されるピクセル値は視差と呼ばれ、画像内の特徴の水平方向のシフトを表します。これらの対応点を見つけるために、ブロックマッチング、セミグローバルマッチング、グラフカットなど、さまざまなステレオマッチングアルゴリズムから選択できます。

視差マップ: 視差マップは、各ピクセルの強度値がシーン内のそのポイントの視差または深度に対応するグレースケール画像です。カメラに近いオブジェクトでは差が大きく、カメラから遠いオブジェクトでは差が小さくなります。
深度マップ: 深度マップは、既知のベースライン (カメラ間の距離) とカメラの焦点距離を使用して視差マップから導出されます。差ではなく、各ピクセルの深度を現実世界の単位（メートルなど）で計算します。
視覚化: 深度マップと視差マップは、シーンの 3D 構造を人間が判読できる形で表現するために視覚化されることがよくあります。これらのプロットは、グレースケール画像として表示したり、3D 視覚化のためにポイントクラウドに変換したりできます。
一部のハードウェア: カメラに加えて、深度検知カメラ (Microsoft Kinect、Intel RealSense など) や LiDAR (光検出と測距) センサーなどの特殊なハードウェアを使用して深度情報を取得することもできます。これらのセンサーは、ステレオマッチングを必要とせずに深度を直接提供します。

コンピュータービジョンにおけるステレオビジョンと奥行き知覚の Python 実装例:

 import cv2 import numpy as np # Create two video capture objects for left and right cameras (adjust device IDs as needed) left_camera = cv2.VideoCapture(0) right_camera = cv2.VideoCapture(1) # Set camera resolution (adjust as needed) width = 640 height = 480 left_camera.set(cv2.CAP_PROP_FRAME_WIDTH, width) left_camera.set(cv2.CAP_PROP_FRAME_HEIGHT, height) right_camera.set(cv2.CAP_PROP_FRAME_WIDTH, width) right_camera.set(cv2.CAP_PROP_FRAME_HEIGHT, height) # Load stereo calibration data (you need to calibrate your stereo camera setup first) stereo_calibration_file = 'stereo_calibration.yml' calibration_data = cv2.FileStorage(stereo_calibration_file, cv2.FILE_STORAGE_READ) if not calibration_data.isOpened(): print(“Calibration file not found.”) exit() camera_matrix_left = calibration_data.getNode('cameraMatrixLeft').mat() camera_matrix_right = calibration_data.getNode('cameraMatrixRight').mat() distortion_coeff_left = calibration_data.getNode('distCoeffsLeft').mat() distortion_coeff_right = calibration_data.getNode('distCoeffsRight').mat() R = calibration_data.getNode('R').mat() T = calibration_data.getNode('T').mat() calibration_data.release() # Create stereo rectification maps R1, R2, P1, P2, Q, _, _ = cv2.stereoRectify( camera_matrix_left, distortion_coeff_left, camera_matrix_right, distortion_coeff_right, (width, height), R, T ) left_map1, left_map2 = cv2.initUndistortRectifyMap( camera_matrix_left, distortion_coeff_left, R1, P1, (width, height), cv2.CV_32FC1 ) right_map1, right_map2 = cv2.initUndistortRectifyMap( camera_matrix_right, distortion_coeff_right, R2, P2, (width, height), cv2.CV_32FC1 ) while True: # Capture frames from left and right cameras ret1, left_frame = left_camera.read() ret2, right_frame = right_camera.read() if not ret1 or not ret2: print(“Failed to capture frames.”) break # Undistort and rectify frames left_frame_rectified = cv2.remap(left_frame, left_map1, left_map2, interpolation=cv2.INTER_LINEAR) right_frame_rectified = cv2.remap(right_frame, right_map1, right_map2, interpolation=cv2.INTER_LINEAR) # Convert frames to grayscale left_gray = cv2.cvtColor(left_frame_rectified, cv2.COLOR_BGR2GRAY) right_gray = cv2.cvtColor(right_frame_rectified, cv2.COLOR_BGR2GRAY) # Perform stereo matching to calculate depth map (adjust parameters as needed) stereo = cv2.StereoBM_create(numDisparities=16, blockSize=15) disparity = stereo.compute(left_gray, right_gray) # Normalize the disparity map for visualization disparity_normalized = cv2.normalize(disparity, None, alpha=0, beta=255, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_8U) # Display the disparity map cv2.imshow('Disparity Map', disparity_normalized) if cv2.waitKey(1) & 0xFF == ord('q'): break # Release resources left_camera.release() right_camera.release() cv2.destroyAllWindows()

注: ステレオカメラのセットアップでは、カメラのキャリブレーションを実行し、キャリブレーションデータを .yml ファイルに保存する必要があります。サンプルコードにパスを入力してください。

応用

ステレオビジョンと深度センシングによって取得された深度情報は、次のようなさまざまなコンピュータービジョンアプリケーションで使用できます。

3Dシーン再構築
物体検出と追跡
ロボットと車両の自律ナビゲーション
拡張現実と仮想現実
ジェスチャー認識

制限

主な制限事項は次のとおりです。

カメラのキャリブレーションへの依存: ステレオビジョンシステムでは、使用するカメラの正確なキャリブレーションが必要です。深度情報を正しく計算するには、正確なキャリブレーションが重要です。キャリブレーションにエラーがあると、奥行きの認識が不正確になる可能性があります。
限られた視野: ステレオビジョンシステムでは、2 台のカメラ間のベースライン距離に基づいて、視野が制限されます。これにより、両方のカメラの視野外にある死角や物体を認識することが困難になる可能性があります。
テクスチャと特徴のない表面: ステレオマッチングアルゴリズムは、左と右の画像で対応する特徴を見つけることに依存します。滑らかな壁や均一な背景など、テクスチャや独特の特徴のない表面では、正確に一致させることが難しく、深度の推定にエラーが生じる可能性があります。
遮蔽: シーン内で互いに遮蔽し合うオブジェクトは、立体視に支障をきたす可能性があります。あるオブジェクトが別のオブジェクトを部分的に遮蔽する場合、遮蔽された領域の深さを決定することが問題になる可能性があります。
範囲と解像度の制限: ステレオビジョンを使用した奥行き知覚の精度は、カメラからの距離が長くなるにつれて低下します。さらに、奥行き測定の解像度は距離とともに低下し、遠くの物体の詳細を認識することが難しくなります。
照明条件の影響を受けやすい: 周囲の光や影の変化など、照明条件の変化は、立体視の精度に影響を与える可能性があります。照明条件が一貫していないと、左の画像と右の画像の対応関係を見つけるのが難しくなる場合があります。
計算リソース: ステレオマッチングアルゴリズムは、特に高解像度の画像やリアルタイムのビデオストリームを処理する場合、計算負荷が大きくなる可能性があります。リアルタイムアプリケーションでは、効率的な処理のために強力なハードウェアが必要になる場合があります。
コストと複雑さ: キャリブレーションされたカメラを使用してステレオビジョンシステムを設定するには、コストと時間がかかります。カメラやキャリブレーション機器などのハードウェア要件は、一部のアプリケーションでは障壁となる可能性があります。
透明または反射性の物体による不正確さ: 透明または反射率の高い表面では、奥行き知覚に適した方法で光を反射しない可能性があるため、立体視にエラーが発生する可能性があります。
動的シーン: ステレオビジョンでは、画像のキャプチャ中にシーンが静的であると想定されます。移動する物体やカメラの動きがある動的なシーンでは、左の画像と右の画像の対応を維持することが困難になり、深度推定が不正確になる可能性があります。
屋外での使用が制限される: ステレオビジョンシステムは、屋外の明るい日光や、晴れた空などのテクスチャのないシーンでは動作が困難になる場合があります。

要約すると、コンピュータービジョンにおける立体視と奥行き知覚は、機械が環境の 3 次元の豊かさと対話し理解するための新たな可能性を開きます。この記事で説明するように、これらのテクノロジーは、ロボット工学や自律走行車から拡張現実や医療用画像に至るまで、さまざまなアプリケーションの中核をなしています。

<<: Microsoft の 230 ページに及ぶレポートでは、GPT-4 の最先端の科学研究機能をピクセルレベルで評価しています。無限の可能性を秘めたこのツールに、ぜひご活用ください。

>>: AI「コスプレ」の鍵はキャラクター設定にあり！復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表：特性回復率は82.8％に達し、OOCを否定