幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]

ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題に対する最善の解決策は、エンドツーエンドのディープラーニングモデル、特に畳み込みニューラルネットワークに基づいており、すぐに使用できる傾向があります。しかし、これらのモデルのほとんどは、透明性がほとんどない大きなブラックボックスです。

それにもかかわらず、私たちはディープラーニングの分野で目覚ましい成果を達成しており、研究者は基本的なディープラーニング API を使用して、少量のデータと 20 行のコードで多くの成果を簡単に得ることができます。これらの結果は画期的なものではありますが、あまりにも理想主義的であり、原則的な理解が欠けていることが多いと私は考えています。

このブログ記事では、コンピュータービジョンの問題にディープラーニングモデルを厳密に適用する人が多いが、実際にはもっと良い方法があると主張します。私の博士課程 1 年目の研究結果のいくつかは、その一例です。 PoseNet は、カメラのポーズを研究するためにディープラーニングを使用して開発したアルゴリズムです。この問題はコンピュータービジョンの分野で何十年も研究されており、優れた関連理論が多数存在します。しかし、博士課程 1 年目の学生として、私はディープラーニングモデルを単純に適用してこの問題をエンドツーエンドで研究し、問題の理論を完全に無視したにもかかわらず、良い結果を達成しました。この記事の最後では、この問題に対してより理論的な幾何学ベースのアプローチを採用することで大幅なパフォーマンスの向上を達成した最近の研究について説明します。

私たちは、簡単に解決できる問題、つまり、シンプルで高レベルのディープラーニング API で解決できる問題の大部分に取り組んでいます。具体的には、ディープラーニングを使用したコンピュータービジョンの将来の進歩の多くは、幾何学に関する洞察から生まれると考えています。

私が話しているこの幾何学とは何でしょうか?

コンピュータービジョンでは、幾何学は世界の構造と形状を記述し、具体的には深さ、体積、形状、姿勢、視差、動き、オプティカルフローなどの測定単位が含まれます。

幾何学は視覚モデルにおいて大きな役割を果たしていると思います。主な理由は、幾何学が世界の構造を定義し、私たちがその構造を理解しているからです (たとえば、多くの有名な教科書から)。したがって、深度や動きなどの多くの複雑な関係を、ディープラーニングを使用してゼロから研究する必要はありません。この知識を活用するアーキテクチャを構築することで、それを実際の状況に適用し、学習の問題を簡素化することができます。記事の最後にあるいくつかの例では、ジオメトリを使用してディープラーニングアーキテクチャのパフォーマンスを向上させる方法を示します。

代替パラダイムでは、意味表現を使用します。意味的表現では、オブジェクトを「猫」や「犬」として表現する場合など、言語を使用して世界の関係性を表現します。しかし、幾何学には意味論にとって魅力的な特徴が 2 つあると私は考えています。

形状を直接観察できます。私たちは視覚を通して世界の幾何学的な外観を直接見ることができます。最も基本的なレベルでは、フレーム間のピクセルを対応させることで、ビデオ内の動きと奥行きを直接観察できます。その他の興味深い例としては、立体視差による陰影や奥行きに基づいて形状を観察することが挙げられます。対照的に、意味表現は通常、人間の言語に特有のものであり、ラベルは限られた名詞のセットに対応するため、直接観察することはできません。
幾何学は、深さをメートルで測定したり、視差をピクセルで測定したりできるような連続量に基づいています。対照的に、意味表現は主に離散化された量またはバイナリラベルです。

これらの特性がなぜそれほど重要なのでしょうか? 理由の 1 つは、これらが教師なし学習に非常に効果的であることです。

この構造物は、イギリスのケンブリッジ中心部付近の幾何学的動きの再現で、携帯電話のカメラを使用して作成しました。

教師なし学習

教師なし学習は、ラベルのないデータから表現と構造を学習する人工知能研究の興味深い分野です。大量のラベル付きトレーニングデータを取得するのは困難でコストもかかるため、これは非常に興味深いことです。教師なし学習は、よりスケーラブルなフレームワークを提供します。

上で述べた 2 つの特性、つまり観測可能性と連続表現を使用して、幾何学を通じて教師なし学習をモデル化できます。

たとえば、昨年私が気に入った論文の 1 つでは、教師なしトレーニングを使用して幾何学を使用して深度を研究する方法が示されていました。この例では、幾何学理論と上記の特性を組み合わせて教師なし学習モデルを形成する方法をうまく示しています。他の研究論文でも、動きの教師なし学習に幾何学を使用するという同様のアイデアが実証されています。

私のお気に入りの論文の一つ

意味論だけでは十分ではないでしょうか?

引用数の多い画期的な論文の多くが画像分類やセマンティックセグメンテーションから生まれているため、セマンティクスはコンピュータービジョンで多くの注目を集めることが多いです。

世界の表現を設計するためにセマンティクスのみに依存する場合の問題は、セマンティクスが人間によって定義されることです。人工知能システムは、人間と対話するためにセマンティクスを理解する必要があります。しかし、セマンティクスは人間によって定義されるため、これらの表現は最適ではない可能性があります。世の中の幾何学を直接観察して学ぶほうが自然かもしれません。

赤ちゃんが基本的な幾何学を使って世界を見ることを学んでいることは理解しにくいことではありません。アメリカ眼科学会によると、人間は生後 9 か月の間に、焦点を合わせたり、奥行き、色、形状を認識したりするために両目を調整することを学びます。物体や意味を認識する方法が理解されるのは、生後 12 か月になってからです。これは、幾何学が人間の視覚の基礎にとって非常に重要であることを示しています。これらの洞察をコンピュータービジョンモデルに組み込むことは間違いなく効果的です。

世界の機械による意味理解 (別名 SegNet)。それぞれの色は、道路、歩行者、標識などの異なる意味カテゴリを表します。

最近の研究からの幾何学的例

最後に、深層学習で幾何学がどのように使用されるかを説明する 2 つの具体的な例を挙げてこの記事を締めくくりたいと思います。

1. PoseNetを使用して再局在化を学習する

この記事の冒頭で、いわゆるロボット誘拐問題を解決する単眼 6-DOF 再位置特定アルゴリズムである PoseNet の例を示しました。

ICCV 2015 での最初の論文では、入力画像から 6DOF カメラのポーズへのエンドツーエンドのマッピングを学習することでこの問題に対処しました。これは、問題をブラックボックスとして扱う単純なアプローチです。今年の CVPR では、問題の幾何学的特性を考慮してこのアプローチを更新しました。カメラの姿勢と向きを別々の回帰ターゲットとして扱うのではなく、幾何学的再投影誤差を使用してそれらを一緒に学習します。世界の幾何学を考慮し、結果が劇的に改善されます。

2. ステレオビジョンによる奥行きの予測

2 番目の例は、両眼視を使用して奥行きを推定する立体視です。私はこの問題に取り組むという栄誉に恵まれ、世界で最も先進的なドローンに取り組み、Skydio で素晴らしい夏を過ごしました。

ステレオアルゴリズムは通常、一対のきれいなステレオ画像間のオブジェクトの水平位置の差 (視差) を推定するために使用されます。視差は、対応するピクセル位置のシーンの深度に反比例します。したがって、これは本質的にマッチングの問題に簡略化できます。つまり、左の画像と右の画像のオブジェクト間の対応関係を見つけ、おそらく深度を計算することになります。

ステレオで最もパフォーマンスの高いアルゴリズムは主にディープラーニングを使用しますが、マッチング機能の構築にのみ使用します。深度推定を生成するために必要なマッチングと正規化の手順は、依然として大部分が手動で行われています。

私たちは GC-Net アーキテクチャを提案しましたが、今回は問題の根本的な形状に焦点を当てました。ご存知のとおり、ステレオでは、1 次元の視差線上にコストボリュームを形成することによって視差を推定できます。この論文の新規性は、コストボリュームの幾何学を微分可能な方法で回帰モデルとして定式化する方法を示していることです。こちらの記事にも詳細が記載されています。

これは、ジオメトリのクリーンな表現を使用してステレオ深度を予測する GC-Net アーキテクチャの概要です。

結論は

この記事の重要なメッセージは次の通りだと思います。

コンピュータービジョンの問題を解決するためのいくつかの従来のアプローチを知っておくことは価値があります (特に機械学習やデータサイエンスのバックグラウンドがある場合)。
問題の幾何学的特性を利用できるようにアーキテクチャを構造化できれば、ディープラーニングを使用して複雑な表現を研究することがより簡単かつ効果的になります。

<<: データプラットフォームのコンピューティング能力: ディープラーニングとデータベースに適した GPU はどれですか?

>>: 機械学習プロジェクトにおけるデータの前処理とデータラングリング