ディープラーニングを使用してビデオから車両速度を推定する

ディープラーニングを使用してビデオから車両速度を推定する

私が解決したい問題は、車にカメラが付いていて、車がどれくらいの速さで走っているのかを知りたいということです。当然ながら、スピードメーターは見ることができず、ビデオクリップそのものしか見ることができません。ここではディープラーニングの魔法が役立つはずです。

データ

2つの異なるビデオがあります。 1つはトレーニング用、もう1つはテスト用です。トレーニング ビデオには 20399 フレームがあり、テスト ビデオには 10797 フレームがあります。ビデオのダウンロードアドレス: https://github.com/commaai/speedchallenge。以下にいくつか例を挙げます。

ビデオのサンプル画像

トレーニング ビデオのラベルは .txt ファイルであり、各行は特定のフレームの速度に対応します。

方法

この問題の最も興味深い部分は、ニューラル ネットワークへの入力がどのようになるかという点です。静止画像だけでは速度を計算することは不可能です。効果的な方法は、2 つ以上の画像を積み重ねるか、LSTM や Transformer のように連続して積み重ねることです。もう 1 つはオプティカルフローを計算するもので、これを使用することにしました。

オプティカルフローとは何でしょうか? 基本的には、2 つの画像間の相対的な動きを示す各ピクセルのベクトルを計算する方法です。素晴らしいコンピューター愛好家向けビデオがあります: https://www.youtube.com/watch?v=4v_keMNROv4 で詳細を確認できます。オプティカルフローを計算するために使用できる「古典的な」コンピュータービジョンアルゴリズムがいくつかありますが、ディープラーニングははるかに改善されています (当然のことですが)。では、SOTA メソッドとは何か、paperswithcode で確認してみましょう。

RAFT は見た目も良く、PyTorch 実装も備えています。元のリポジトリをフォークして、少しシンプルにしました。研修や評価などは必要ありません。私はそれを推論のためだけに使います。

オプティカルフローの計算

推論のために、ネットワークは 2 つの画像を連結し、形状のテンソル (2、image_height、image_width) を予測します。前述したように、画像内の各ピクセルは 2 次元ベクトルに対応します。これらのファイルは実際のトレーニングで使用するため、.npy ファイルとして保存します。オプティカルフロー画像を想像すると次のようになります。

電車

私たちのトレーニングの目的を思い出してください:

オプティカルフロー → モデル → 車両速度推定

私が選んだモデルはEfficientNetです。スケーラビリティが高いのでとても気に入っています。選択できるバージョンは 8 つあり、最大のバージョンである EfficientNet-B7 は依然として非常に優れています。まずは B0 のような小型のモデルから始めて、すべてが正常に動作し、十分な性能の GPU がある場合は、より大きなモデルを選択できます。事前トレーニング済みのネットワーク モデルを簡単にロードするために使用する PyTorch ライブラリもあります: https://github.com/lukemelas/effecentnet-PyTorch [train.ipynb](https://github.com/sharifelfouly/vehicle-speed-estimate)を開くと、トレーニングがどのように機能するかを確認できます。

私の GPU には 6 GB のメモリしかないため、常に B0 から開始して B3 までスケールアップします。トレーニング後、次の結果が得られました (損失は平均二乗誤差です)。

トレーニング損失

検証損失

素晴らしい、すべて正常に動作しているようです。トレーニングと検証の両方の損失が減少しており、ネットワークは過剰適合していません。

結果は次のとおりです。

完璧ではありませんが、いくつかの用途はあります。

要約する

私は通常、機能エンジニアリングの大ファンではありませんが、この場合はかなりうまく機能していると思います。次のステップは、Transformer や LSTM のような、より順次的なものを試すことです。

<<:  AIの分野を深く探究しよう!新しい機能が次々と登場し、携帯電話で包括的なスマート体験を提供します

>>:  2020 年の人工知能におけるトップ 10 の技術進歩

ブログ    
ブログ    
ブログ    

推薦する

無人RV、全電動、未来は明るい

科学技術の急速な発展は、自動車産業の技術進歩を直接的に推進してきました。自動運転は自動車と技術の結晶...

...

自動運転車を壁に衝突させ、他人の顔を使って代金を支払う:最新のAIの抜け穴が私たちの目を覚まさせる

かつて専門家が懸念していたAIアルゴリズムの抜け穴は起こり得るし、予想もしなかった抜け穴さえも起こり...

高度な分析とコンピューティング技術の出現が世界のインテリジェントアプリケーション市場を牽引

世界的なスマート アプリケーション市場の成長は、高度なコンピューティングおよび分析テクノロジによって...

人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈

人工知能は社会を変えようとしています。民間企業、学界、政府を問わず、国レベルおよび国際レベルを問わず...

ボストンダイナミクスのスポットが工場に入り、作業を開始しました!現代自動車はそれを夜間警備に配備し、工場の安全管理官に変身させる

ボストン・ダイナミクスのロボットは見た目はかっこいいのですが、使い道がないので、好評は得られても人気...

生成 AI とビッグモデルの違いと関連性は何ですか?

近年、ChatGPT、GPT-4、BARD、Claudeなどの大規模モデルが急速かつ大幅な進歩を遂げ...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

スポーツにおける AI はどの程度信頼できないのでしょうか?先月、スコットランドサッカー選手権の試合...

人工知能技術に注目し導入すべき3つの理由

AI の導入が拡大しているにもかかわらず、多くの IT リーダーは AI のリスクと機会を取り巻く不...

なぜ人工知能はテクノロジーの未来なのか?

人類の知恵はさまざまな文明を生み出してきました。人間の知能はさまざまな形態の人工知能を通じて強化する...

GTA5をプレイしていますか?インテルの新しいモデルは3Dレンダリングをリアルな画像に変換します

GTA5 は古典的な 3D アドベンチャー ゲームであり、そのスタイルは次のとおりです。写真は現実に...

Lingzhi Unuo CTO Xu Ke: AI技術が従来の保険販売モデルのジレンマを打破

[51CTO.comより] 徐克氏は百度で検索とスマートレコメンデーションの分野で長年勤務。2015...

AIoT はセキュリティ業界にどのような影響を与えますか?

進化し続けるテクノロジーの世界における最新のトレンドやイノベーションを追い続ける中で、私たちが注目...