コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロセスです。それでは、この期間に収集したいくつかの有用な情報を共有しましょう。私に従ってください。何かが得られると信じています。そして、あなたの努力が無駄にならないことを願っています。エージェントが理論から実践まで無人システムを実現する方法。ここで言っておきますが、共有される内容は最も単純なものから最も複雑なものまで、十分に詳細なものになるため、最初は少し退屈に感じたり、面倒に感じたりするかもしれません。しかし、皆さんが辛抱強く読み続ける限り、何らかの結果が得られると信じています。

[[403100]]

読者へのお願い

ここで読者の皆さんを私の名前で呼ぶのは気取った感じがしますが、実際は皆さんは私の友人であり、先生なのです。この共有は十分にシンプルで詳細ですが、それでも一定の限界があります。記事に登場する数式や概念を理解するには、高度な数学と線形代数の基礎知識が必要です。しかし、あまり心配しないでください。これは単なる基礎であり、深く掘り下げる必要はありません。つまり、いくつかの基本的な概念を理解できれば十分です。

自分へのちょっとしたお願い

今回は自分自身にもいくつかの要求をしてしまって、ただ楽しむことだけに集中することができません。コンテンツに引き続き重点を置くことに加えて、記事のデザイン、読みやすい文章にする方法、読みやすいようにロジックを相互接続する方法、不明瞭で抽象的なコンテンツをわかりやすくする方法にも時間を費やします。これらは、その後の記事で徐々に改善し、強化してきた点です。

どのような技術が議論されるのでしょうか?

私たちは主に、コンピュータービジョン技術とSLAM技術という2つの技術に焦点を当てています。コンピュータービジョン分野におけるディープラーニングの応用もSLAM技術も、実はコンピュータービジョンがベースになっているので、まずはコンピュータービジョンの基礎知識を普及させる必要があると個人的には思っています。

[[403101]]

3D 再構築は私が比較的興味を持っている分野です。いわゆる 3D 再構築とは、単一の画像または複数の画像に基づいて 3D 環境を再構築することです。この部分の内容は興味深いものですが、多くの分野の知識が関係するため、習得するのは簡単ではありません。これは、3D 世界から 2D 世界への変換、つまりマッピングです。変換プロセス中に、深度情報が失われたり、別の方法で表現されたりします。カメラがこのマッピングを完了します。

ピンホールカメラ

フィルムをオブジェクトの正面に配置することは、3D の世界を画像に直接マッピングする最もシンプルで直感的な方法です。ただし、この方法の問題も明らかです。フィルム上のすべてのポイントは、環境内の複数のオブジェクトから送信される光 (情報) を受信します。そのため、フィルム上の最終的な画像はぼやけてしまい、現実世界の物体の情報を記録することが困難になります。

では、カメラとフィルムの間に仕切りを置き、仕切りの真ん中に小さな穴を開けてみてはどうでしょうか。こうすることで、物体から発せられた光は、小さな穴を通過した後も発散しません。小さな穴のある仕切りはぼやけを軽減し、物体上の点と画像上の点が1対1で対応し、鮮明な画像が得られます。

ここでは三角形の相似則が使われています。赤で表された結像面が像面なので、像面からピンホールまでの距離は f で、f は私たちがよく知っている焦点距離です。ここでのピンホールは絞りであり、私たちが通常研究するのは、像面に対してピンホールを中心として対称となる仮想像面です。ピンホールから撮像対象までの距離は z で表されます。

そして、三角形の相似則に従って、上記の式を得ることができます。上記の式から、カメラ（ピンホール）と物体間の距離zが固定されている場合、焦点距離f、つまり結像面とピンホール間の距離を調整することで、画像のサイズを調整できることは難しくありません。カメラ座標系は光学中心に設定される 3D 座標系ですが、画像平面に設定される座標系は 2D 座標系です。ここで、点 p はカメラ座標系内の点であり、x、y、z は点 p の座標を表し、p プライムは撮像面内の点 p の対応する位置を表し、x プライムと y プライムはそれぞれ撮像面内の点の座標を表します。

軸 y からの画像平面 y プライムカメラ座標系の y の対応を考えてみましょう。

この関係を通じて、空間点を画像平面上の座標にマッピングできます。

上の図から、絞りサイズを調整すると画像にどのような影響があるかがわかります。上図の下付き数字は、そのサイズの絞りで撮影された画像であることを示しています。絞り2mmでは画像が鮮明でないと感じるかもしれませんが、絞り0.35mmではLUZの文字がはっきりと見えます。絞りが小さいほど画像は鮮明になり、絞りを大きくすると画像はぼやけます。これは、絞りを大きくするとフィルム上の 1 つの点が現実世界の複数の点に対応するため、ぼやけた効果が生じるためです。絞りを絞るとフィルムに届く光が少なくなり、画像が暗くなります。

撮像面に到達する光が少ないという問題を解決するために、レンズが導入されました。

しかし、ピンホールイメージングの欠点は、光が不十分なため、イメージング面が最終的に暗くなることです。レンズを導入することで、撮像対象からの複数の光線がレンズを通過した後に撮像面上の一点に収束し、撮像対象に対する光量不足の問題が解決されます。凸レンズの 2 つの特性は、光軸に平行な光はすべて焦点に収束することと、焦点からレンズの中心までの距離を焦点距離と呼ぶことです。レンズの中心を通過する光の方向は変わりません。レンズの焦点距離は、レンズの球面半径 R とレンズの屈折率 n に関係しています。式は次のとおりです。

すると、レンズから結像面までの距離は b になりますが、これについては後でここでのみ考慮します。 b は f と z_0 を考慮しなくなります。レンズは光量不足の問題を解決しますが、レンズの結像は完璧ではありません。次に述べる焦点ずれや放射状の歪みなど、レンズ結像にも問題があります。

焦点が合っていない

1 枚目の画像では、結像面を焦点に置くと、鮮明な小さな光点が得られ、鮮明な結像対象を見ることができます。2 枚目と 3 枚目の画像では、結像面がそれぞれ焦点の前または後ろにあり、ぼやけた画像が得られます。これが焦点ずれの現象です。

放射状の歪み

レンズの2つ目の問題は放射状の歪みです。画像のピクセルポイントは、歪みの中心を中心として放射方向に沿って位置のずれがあり、画像が変形します。

ここでは、それぞれ糸巻き型歪みと樽型歪みを記載します。糸巻き型歪曲収差：鞍型歪曲収差とも呼ばれ、視野内の端領域の拡大率が光軸の中心領域の拡大率よりはるかに大きい歪曲収差です。望遠レンズでよく見られます（上の写真）。樽型歪曲収差は、糸巻き型歪曲収差の逆で、視野内の光軸中央部の倍率が周辺部に比べて大幅に大きくなる歪曲収差のことで、広角レンズや魚眼レンズによく見られます（上図右）。

画像平面からピクセル平面へ

カメラジオメトリでは、ピクセル平面上の点をカメラ座標にマッピングする方法について注意すべき点が 2 つあります。1 つ目は、ピクセルとメートル間の単位変換です。カメラ座標系は通常メートル単位ですが、画像平面はピクセル単位です。 2 番目のポイントは、通常は画像内のポイントの座標です。

バイアス

通常、画像平面では画像の左上隅を原点として使用し、カメラ座標系ではカメラの中心を原点として使用します。このように、カメラ座標の中心と画像の中心の間には偏差があり、その偏差はカメラポイント (x、y、z) の合計で表されます。

単位変換

ここで、k と l は 1 メートルあたりのピクセル数を表します。これら 2 つのパラメータは、カメラの感光素子によって決まります。ピクセルが正方形ではないため、k 値と l 値が等しくない場合があります。

fk と fl を表すために alpha または beta を使用でき、これにより式を次の式に簡略化できます。

(u,v) と z は定数ではなく、変数です。u,v と x,y は線形関係にありません。変数 z もあるため、u,v から x,y への線形変換を見つけたいと考えています。ここで、同次座標の概念を紹介します。

<<: AIを活用してパイロットプロジェクトを計画する方法

>>: この世界規模の問題に対して、ドローンはどれほどの助けとなるのでしょうか?

ブログ

ブログ

ペアデータなしで学習！浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

ブログ

AI バイアスを検出して防止するにはどうすればよいでしょうか?

ブログ

コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

読者へのお願い

自分へのちょっとしたお願い

どのような技術が議論されるのでしょうか?

ピンホールカメラ

焦点が合っていない

放射状の歪み

画像平面からピクセル平面へ

バイアス

単位変換

オブジェクトストレージがAIの最大の課題を克服するのに理想的な理由

錬金術師が検証できるようになりました！同国は人工知能トレーナーのための5段階の専門基準を発行した。

TensorFlow の基礎から実践まで: 交通標識分類ニューラルネットワークの作成方法を段階的に学習します

Tencent MovieLLMフレームワークは、AIの短いビデオを使用して長いビデオの理解を「フィードバック」することで、映画レベルの連続フレームを生成することを目指しています。

ペアデータなしで学習！浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

AI バイアスを検出して防止するにはどうすればよいでしょうか?

推薦する

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

高精度なCVモデルを取得するには？ Baidu EasyDLの超大規模ビジュアル事前トレーニングモデルをぜひお試しください

Appleは以前から独自のChatGPT AIツールを開発してきた。

「アルゴリズムとデータ構造」JavaScript のリンクリスト

AIとIoTを活用したスマートサプライチェーン

メタバース＋AIとデータの未来は明るい

分散ストレージシステムのデータ分散アルゴリズムを簡単に見てみましょう。