清華大学 IEEE 論文: 自動運転の判断を支援する新しいトレーニング方法を使用して「路側干渉」を排除

清華大学 IEEE 論文: 自動運転の判断を支援する新しいトレーニング方法を使用して「路側干渉」を排除

最近、清華大学の学者たちは、オートエンコーダーに基づく新しいトレーニング方法を提案しました。これにより、入力画像内の関連する特徴を保持しながら、無関係な特徴を無視できるようになります。既存のエンドツーエンドの抽出方法と比較して、私たちの方法では画像レベルのラベルのみが必要なので、ラベル付けのコストが削減されます。

研究者らは、畳み込みニューラルネットワーク(CNN)モデルをトレーニングしてエンコーダの出力を処理し、車両を制御するためのステアリング角度を生成することで、この方法の有効性が検証されたことを発見した。エンドツーエンドの自動運転アプローチ全体では、畳み込みニューラル ネットワークのトレーニング時にこれらの機能が存在しない場合でも、無関係な機能の影響を無視できます。

畳み込みニューラルネットワークに基づくオートエンコーダ

論文の著者は、対応するアルゴリズムの主なアイデアと基本的なプロセスを次のように列挙しています。システムは、図 1 に示すように、オートエンコーダとオートエンコーダで構成されています。フロントカメラからの画像がオートエンコーダへの入力として与えられます。オートエンコーダはエンコーダとデコーダで構成されます。エンコーダの出力は CNN の入力として使用され、CNN はステアリング角度を計算して出力し、車両を制御します。

1. 画像内の無関係な特徴を除去するオートエンコーダと制御コマンドを生成する CNN を含む完全なシステムの概略図。

オートエンコーダーは、教師なし方式でデータの効率的なエンコードを学習するように設計された人工ニューラル ネットワークです。データを効率的にエンコードし、エンコードされた表現から元のデータにできるだけ近い表現にデータを再構築する方法を学習します。オートエンコーダの 2 つの主な用途は、次元削減と情報検索です。次元削減は私たちのタスクと似ていますが、どちらも入力から有用な特徴を抽出する必要があるため、通常は特徴は削除されません。

最近、オートエンコーダはさまざまなタスクに適用できることが示されています。たとえば、画像処理では、オートエンコーダは画像圧縮と画像ノイズ除去を実現できます。ただし、これらのタスクは、路側物体の正確な認識にはあまり役立ちません。

グラフィックス圧縮作業では、保存や転送のコストを削減するために画像が圧縮され、画像ノイズ除去タスクでは、ノイズの多い画像が元の画像に戻されます。ノイズの多い画像は入力として使用され、元の画像はネットワークをトレーニングするためのラベルとして使用されます。また、ノイズのある画像は元の画像とまったく同じである必要があります。

記事の例から、無関係なオブジェクトをノイズとして扱うと、画像ノイズ除去方法を使用して関連する特徴を抽出できるようです。しかし、実際の運転シーンでは、空や木々などの無関係な物体を除去することはできないため、この方法は実現可能ではありません。

オートエンコーダーがCNNでどのように機能するか

研究者らは、アルゴリズムの目標は、関連する特徴をすべて保持しながら、決定に無関係な特徴をすべて画像から削除することであると提案している。ラベル付けのコストを削減するには、画像レベルのラベルのみを使用してネットワークをトレーニングする方が適切です。

同時に、エンドツーエンド方式の定義を満たすためには、特徴抽出プロセスの出力に暗黙的な意味を持たせる必要があります。この点では、CNN と比較すると、オートエンコーダの方が優れた選択肢です。エンコーダの出力を直接理解することはできませんが、入力と同じだけの情報が含まれているため、それを元の入力に変換することはできます。

デコーダーの出力と元の入力の間には常に何らかのエラーがあります。つまり、何らかの情報が常に失われることになります。理想的には、アルゴリズムの目標は、保持したい特徴を保持しながら、失われた情報が無関係な特徴のみで構成されるようにすることです。これを実現するには、どのタイプの機能を保持し、どのタイプを削除するかをネットワークに教える必要があります。その後、トレーニング プロセスを何度も繰り返すと、ネットワークは入力から目的の特徴を抽出する能力を獲得します。

では、CNN の役割は何でしょうか?私たちのシステムの CNN アーキテクチャは図 1 に示されており、3 つの畳み込み層と 4 つの完全接続層で構成され、最後の層は制御コマンド (つまり、ステアリング ホイールの角度) を出力します。

CNN をトレーニングする場合、オートエンコーダのパラメータは変更されません。適切なシナリオでのプロの運転テスト中、トレーニング画像には正常な状態の画像が多数含まれます。しかし、車両が現在の車線の中央から外れると、CNN は正しい判断を下せなくなる可能性があります。

この問題を回避するために、研究者は図 2 に示すようなオンライン トレーニング方法を採用しました。つまり、ネットワークが車両を制御し、専門家が制御コマンドを提供します。トレーニングプロセス中に取得された画像はトレーニングデータとして機能し、専門家によって与えられたコマンドはラベルとして機能し、ネットワークのトレーニングに使用されます。

ネットワークはランダムに初期化されるため、トレーニングの初期段階では車両が異常な状態になることが多く、正常な画像が多すぎるという問題を回避できます。

(図2. CNNのトレーニングプロセス。実線は車両の制御に使用される情報フローを表し、点線はモデルのトレーニングに使用される情報フローを表します

シミュレーションを使用したシミュレータデータセットの説明

シミュレーション シミュレータとデータ収集プロセスが実証され、開発されたシステムのパフォーマンスが同じネットワーク構造を持つベースライン モデルのパフォーマンスと比較されます。

シミュレーション環境は、ユーザーが現実的な交通シナリオを設計できるインテリジェント車両システムの開発のためのシミュレーション環境である PreScan を使用して構築されます。特定の交通シナリオが完了すると、ツールは自動運転アルゴリズムをテストするための Simulink モデルを自動的に生成できます。

この目的のために、研究者らは次の 4 つのテスト計画を開発しました。

1) テスト計画 1: アルゴリズムはシナリオ 1-1 でトレーニングされ、シナリオ 1-3 と 1-4 でテストされます。

2) テスト計画 2: アルゴリズムはシナリオ 1-2 でトレーニングされ、シナリオ 1-3 と 1-4 でテストされます。

3) テスト計画 3: アルゴリズムはシナリオ 2-1 でトレーニングされ、シナリオ 2-3 と 2-4 でテストされます。

4) テストシナリオ 4: アルゴリズムはシナリオ 2-2 でトレーニングされ、シナリオ 2-3 と 2-4 でテストされます。

(図3、組み込みPreScanシナリオ

自動デコーダーのトレーニング プロセスでは、正のサンプルと負のサンプルを収集する必要があります。構築されたシーンでは、道路と車線の標示が運転指示に影響を与える主な要因であり、木や空は無関係です。研究者たちはまず、シミュレーション環境でランダムに写真を撮影し、次に各画像を以下に示すようにデータセットに割り当てました。

画像が主に道路の特徴で構成されている場合は、正のサンプルとして分類されます。一方、画像が主に木や空の特徴で構成されている場合は、ネガティブサンプルとして分類されます。それ以外の場合、関連する特徴と関連しない特徴の比率がほぼ同じであれば、画像は破棄されます。正と負のサンプルセットを図 4 に示します。

CNN をトレーニングする方法では、トレーニング プロセス中にトレーニング目的のデータが収集されます。フロントカメラで撮影した入力画像サイズは240×320×3です。タスクは車線内に留まることであるため、ラベル、つまりステアリング角度は、車線の中心線に沿って車両を操縦する追跡アルゴリズムによって決定することができ、この追跡アルゴリズムは PreScan 環境によって提供されます。

(図4、オートエンコーダのトレーニングに使用されたデータセットの一部

要約すると、この論文では、オートエンコーダが入力画像から有用な特徴を抽出し、それをエンドツーエンドの自動運転方法に適用して無関係な路側物体を無視できるようにする新しいトレーニング方法を提案しています。

このことから、いくつかの結論を導き出すことができます。まず、オートエンコーダーをトレーニングするときに正と負のサンプリングを交互に使用することで、エンコーダーは入力画像から無関係な特徴を削除することを学習し、出力特徴マップには関連する特徴のみが含まれるようになります。デコーダーの出力画像では、木や空などの無関係なオブジェクトはほとんど区別できませんが、道路や車線の標示は明瞭です。

同時に、この論文で提案されているトレーニング方法は、オートエンコーダをトレーニングするために画像レベルのラベルのみに依存しています。この方法は、既存のエンドツーエンドのマルチタスク自動運転方法と比較して、ラベリングコストを削減します。

さらに、オートエンコーダとCNNで構成されたエンドツーエンドの自動運転方式では、トレーニングデータに無関係な物体がほとんど存在しない場合でも、路側にある無関係な物体の影響を受けません。結果のモデルとベースライン モデルは影の影響を受けにくくなります。太陽光の角度が 45° に設定されている場合、提案モデルは依然として良好なパフォーマンスを提供しますが、ベースライン モデルでは車両を車線上に維持できません。

このアプローチの現在の制限は「単純なシナリオ」です。適用範囲を広げるために、建物や周囲の車両など、さまざまな無関係なオブジェクトが存在する可能性があります。このモデルの CNN は、動的なシーンを処理するための強化学習アルゴリズムに置き換えることができます。限定規模の路上テストも検討される可能性があります。さらに、このような複雑な画像を扱うために、決定ネットワークのアーキテクチャも拡張されます。

オリジナルリンク:

Wang, T., Luo, Y., Liu, J., Chen, R., & Li, K. (2022). オートエンコーダーによる無関係な路側物体に依存しないエンドツーエンドの自動運転アプローチ。IEEE Transactions on Intelligent Transportation Systems、23(1)、641-650。doi:http://dx.doi.org/10.1109/TITS.2020.3018473

主な著者情報:

Yugong Luo (IEEE 会員) - 1996 年に重慶大学で理学士号、1999 年に理学修士号を取得。彼は2003年に清華大学で博士号を取得した。彼は現在、清華大学自動車工学・交通学院の教授です。彼は 70 本以上の学術論文を執筆し、31 件の特許を保有しています。主な研究方向は、インテリジェントなコネクテッド電気自動車のダイナミクスと制御、および車両騒音制御です。

王廷漢は2016年に清華大学で理学士号を取得し、現在は博士号取得を目指しています。彼の研究対象には、エンドツーエンドの自動運転とディープニューラルネットワークに基づく深層強化学習が含まれます。

Jinxin Liu は 2017 年に合肥理工大学で理学士号を取得しました。彼は現在、清華大学で博士号取得を目指しています。主な研究方向は、車両の意図認識と行動計画です。

<<:  モデル推論が5〜20倍向上します。1行のコードで複数のDLコンパイラをテストできます。ハードウェアを理解していなくてもこのライブラリを使用できます。

>>:  有機構造の画像を分子構造に変換するトランスフォーマーベースの人工ニューラルネットワーク

ブログ    
ブログ    

推薦する

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすこと...

ディープラーニングのこれらの落とし穴に遭遇したことがありますか?ニューラルネットワークのよくある落とし穴11選とその対処法

ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

アリババの年次技術概要: 検索における人工知能の応用と実践

[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...

ゼロから始める: すぐに使えるニューラルネットワークを作成することもできます

何か新しいことを受け入れたり、始めたりするのは決して簡単なことではありません。機械学習は、新しいプロ...

...

Jarvis はビッグデータ分析の将来にどのように貢献するのでしょうか?

[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...

自動で本を書いてくれるChatGPTプラグイン3つが人気に。何もしなくてもAI自身にお金を稼ぐ方法をもっと質問できる!

ChatGPT プラグインの数が爆発的に増加しました!総数は390に達し、オープン当初の74に比べ...

Python データマイニングと機械学習入門

データマイニングとは何ですか?機械学習とは何ですか?Python データの前処理を実行するにはどうす...

機械学習の問題を解決する一般的な方法があります!この記事を1つだけ読んでみてください!

[[205485]]アビシェーク・タクル編集者: Cathy、Huang Wenchang、Jia...

トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチュ...

機械学習に基づく自動ネットワークトラフィック分析

1. 概要現在、機械学習はネットワーク トラフィック分析タスクで広く使用されています。特徴抽出、モデ...

...