2024年の世界モデルによって自動運転ラベリング業界は混乱するでしょうか?

2024年の世界モデルによって自動運転ラベリング業界は混乱するでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. データアノテーションで直面する問題(特にBEVタスクに基づく)

BEV トランスフォーマー タスクの増加に伴い、データへの依存度がますます高まり、BEV タスクのアノテーションがますます重要になってきました。現時点では、2D-3D ジョイント障害物ラベリングであれ、再構築されたポイント クラウド クリップに基づく車線ラインや占有タスク ラベリングであれ、まだコストが高すぎます (2D ラベリング タスクよりもはるかにコストがかかります)。もちろん、業界では、大規模なモデルに基づく半自動または自動のラベリングに関する研究も数多く行われています。もう 1 つの側面は、自動運転のデータ収集サイクルが長すぎることと、データのコンプライアンスとパフォーマンスに関連する一連の問題です。たとえば、平底トラックがカメラを横切るシーンや、都市の車線が濃くなったり濃くなったりするシーンをキャプチャしたい場合は、そのようなシーンを具体的に構築するためのデータ コレクターが必要になります。

2.24 は世界モデルの特異点となるのでしょうか?

世界モデルの概念は広すぎる、あるいはセンサーシミュレーションとも言える。シミュレーションがアノテーションに革命をもたらしたことを初めて目にしたのは、テスラAIデーでした。

図1: テスラの自動注釈効果 図2: 4D再構成効果

それを見たとき、私はショックを受けました、またショックを受けました!テスラのBEVと同様に、破壊的です。ますます多くの研究者がこの方向で研究を続けるにつれて、多くの優れた研究が生まれてきました。 UniSim の自動運転シミュレーション システムには、リプレイ、動的オブジェクト動作制御、自由視点レンダリングなどの機能があります (これは、モデルをトレーニングするすべての学生が望むものであるはずです)。

LIDARをシミュレーションすることも可能です。

詳細については、https://zhuanlan.zhihu.com/p/636695025 を参照してください。この方向での同様の研究は他にもあります。

NeuRAD: 自動運転のためのニューラルレンダリング

DrivingGaussian: 周囲の動的な自動運転シーンの複合ガウススプラッティング 上記の方法は主に Nerf に関連しており、パイプライン全体が比較的重いです。普及研究に基づいた別の方向性もあります。いくつか良い研究が行われました。

BEVControl: BEV スケッチレイアウトによる、複数の視点からの一貫性のあるストリートビュー要素の正確な制御

BEVControl: BEV スケッチレイアウトによる、複数の視点からの一貫性のあるストリートビュー要素の正確な制御

< MagDriver MAGIC DRIVE: 多様な 3D ジオメトリ制御によるストリートビュー生成 >

技術の発展が速く、センサーシミュレーションの敷居が下がりつつあります。24年後には自動運転のラベリング業界に破壊的な製品が登場するかもしれません。

<<:  ネットワーク管理における人工知能の役割

>>:  周紅一の2024年大模型予測は8つの点を検証し、ソラの出現は予想を超えていると述べている

ブログ    

推薦する

AIがプライバシーを尊重しながら優れた顧客体験を生み出す方法

ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...

2023年の生成AIの包括的なレビュー

2023年には、生成AIが開発者のアプリケーション構築支援において飛躍的な進歩を遂げ、大手ツールベン...

...

AIは科学者のツールになり得るか? Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

[[430245]]人工知能(AI)は、専用の研究分野から他の分野のツールへと徐々に移行しており、学...

...

アルゴリズム取引におけるビッグデータ分析の活用

ウォーレン・バフェットの資産が 5000G あることをご存知ですか? 反対派や懐疑派の意見に反して、...

北京ソフトウェア協会が「人工知能委員会」の設立準備を進め、アジアインフォテクノロジーズの欧陽葉博士が委員長に選出される

10月26日、中国科学技術協会社会サービスセンターの支援を受けて、北京ソフトウェア情報サービス協会(...

...

...

...

TensorFlow を通じてディープラーニング アルゴリズムを実装し、企業の実務に適用する方法

この記事は、Caiyun Technology のトップ ビッグ データ サイエンティストである Z...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

顔認証決済は時代遅れですか?アマゾンはわずか0.3秒で手動支払いをテストした

北京時間9月4日の朝のニュース、ニューヨークポストによると、アマゾンのエンジニアは店内での買い物の精...

顔認識のグレーな業界チェーンを解明: あなたの顔情報にはどれくらいの価値があるのでしょうか?

顔認識技術は国民の自由に深刻な脅威を与えるほど強力になっている。それにもかかわらず、業界は繁栄し続け...

携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話でビデオを撮影するときの最大の問題は何ですか?振る……ビデオのジッターは緊急に解決する必要が...