エキサイティング!自動運転におけるGPT-4Vの予備研究

エキサイティング!自動運転におけるGPT-4Vの予備研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

更新: 新埔セメント畑に進入する自動運転配送車両の新しい例を追加しました

皆様の注目の下、GPT4 は本日ついに視覚関連の機能をリリースしました。今日の午後、私は友人たちと一緒に GPT の画像認識機能をテストする機会を得ました。予想はしていましたが、それでも大きな衝撃を受けました。 TL;DR:自動運転におけるセマンティクス関連の問題は大規模モデルによって十分に解決されているはずだが、大規模モデルの信頼性と空間認識能力はまだ不十分であると思う。効率性に関するいわゆるコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して運転を自立的に完了し、安全性を確保するにはまだ長い道のりがあります。

1例1: 道路上に未知の障害物が現れた

GPT4の説明

正確な部分:3台のトラックが検出され、前方車両のナンバープレート番号は基本的に正確(漢字は無視)、天候と環境は正確、前方の未知の障害物はプロンプトなしで正確に識別されました。

不正確な部分: 3 台目のトラックの位置が左右の区別がつかず、2 台目のトラックの先頭部分のテキストがランダムな推測になっています (解像度が不十分なため?)

これだけじゃ十分ではありません。引き続きヒントを与え、この物体が何なのか、そして押すことができるのかどうかを尋ねます。

印象的な!同様のシナリオをいくつかテストしましたが、未知の障害物に対するパフォーマンスは驚くべきものでした。

2例2: 路面水に関する理解

サインを自動認識するためのプロンプトはありません。これが基本的な操作になります。引き続きヒントをいくつか与えていきましょう。

またショックを受けました。 。 。トラックの後ろの霧と水たまりについては自動的に言及できましたが、方向はやはり左と示されました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで迅速なエンジニアリングが必要になる可能性があると感じています。

3例3: 車両が方向転換してガードレールに衝突した

最初のフレームが入力されると、タイミング情報がないため、右側のトラックは単に駐車されているとみなされます。ここに別のフレームがあります:

この2台がガードレールを突き破って道路の端に浮かんでいるのがもうすぐにわかります。すごいですね。 。 。しかし、簡単に思えた道路標識は間違っていました。 。 。これは巨大なモデルだとしか言えません。常に衝撃を与え、いつ涙を流すことになるか分かりません。 。 。別のフレーム:

今回、彼は道路上の瓦礫について直接話し、改めて驚いていました。 。 。ただ一度だけ、道路の矢印を読み間違えただけなんです。 。 。全体的に、このシーンで特に注意が必要な情報は網羅されており、道路標識の問題が欠点を上回ることはありません。

4例4: 面白いことをやってみよう

非常によくできているとしか言いようがありません。それに比べると、以前は非常に難しかった「誰かがあなたに手を振った」というケースは、今では子供の遊びのように簡単です。これは、セマンティックコーナーケースで解決できます。

5例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しい道路に入る

私は当初は比較的保守的だったので、原因を直接推測することはしませんでした。代わりに、アライメントの目標に沿って複数の推測をしました。 CoT を使用した後、問題は車が自動運転車であることを知らなかったことであり、プロンプトを通じてこの情報を提供することでより正確な情報を提供できることがわかりました。最後に、一連のプロンプトを通じて、新しく舗装されたアスファルトは運転に適していないという結論を出力できます。最終結果は問題ありませんが、プロセスはかなり複雑で、より迅速なエンジニアリングと慎重な設計が必要です。これは、写真が最初の視点からのものではなく、3 番目の視点からのみ推測できるためであると考えられます。したがって、この例はあまり正確ではありません。

6結論

いくつかの簡単な試みにより、GPT4V のパワーと一般化パフォーマンスが完全に実証されました。適切なプロンプトにより、GPT4V の強みを完全に実証できるはずです。意味上のコーナーケースを解決することは非常に有望ですが、セキュリティ関連のシナリオでは、幻覚の問題が依然として一部のアプリケーションに影響を及ぼすことになります。とても楽しみです。このような大規模なモデルを合理的に使用することで、L4、さらにはL5の自動運転の開発が大幅に加速されると個人的には思っています。しかし、LLMは直接運転する必要がありますか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。最近いろいろ考えていました。時間を見つけて記事を書いて皆さんとお話ししたいと思います〜

オリジナルリンク: https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ

<<: 

>>:  ネイチャー誌は「同じ原稿の複数投稿」を認めるべき時が来たという記事を掲載した。

ブログ    
ブログ    

推薦する

人工知能がデータアナリストに与える影響

セミナーで講演したイエローフィンのCEO、グレン・ラビー氏は、多くのアナリストが自動化や人工知能によ...

...

...

ビジョンと AI を追加することで、産業用ロボットはスマート製造をより効果的に支援できるでしょうか?

改革開放から30年、中国は科学技術の進歩の分野で非常に重要な役割を果たしてきました。人口ボーナス、政...

顔認証の時代では、顔情報のセキュリティを無視することはできない

買い物のときに顔スキャンを使用して支払い、顔スキャンを使用して携帯電話のロックを解除し、コミュニティ...

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Micro...

TensorFlowはディープラーニングに基づく画像補完を実装する

[[191845]]目次■ はじめに■ ステップ1: 画像を確率分布のサンプルとして理解する不足して...

人工知能が習得する必要がある知識ポイントは何ですか?どんな本を読めばいいでしょうか?非常に詳細なチュートリアル

[[243197]]人工知能とは何ですか?人工知能の定義は、「人工知能」と「知能」の 2 つの部分に...

Google は 1,000 以上の「ロングテール」言語に対応する機械翻訳システムを開発、すでにいくつかのニッチ言語をサポート

学術および商用の機械翻訳 (MT) システムの品質は、過去 10 年間で劇的に向上しました。これらの...

TensorFlow を使用してシンプルなロジスティック回帰モデルをゼロから構築する

TensorFlow は Python ベースの機械学習フレームワークです。 Coursera でロ...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...

...

IBM、次世代AI開発をメインフレームに移行するための更新されたツールスイートをリリース

IBMは木曜日、メインフレーム開発者向けに最近発表した生成型AIコーディング機能をベースに、古いデー...

WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

Google の人工知能に対する皆の理解は、おそらく囲碁 AI AlphaGo から始まったのでし...