GPT-4V のリリースにより、多くのコンピューター ビジョン (CV) アプリケーションに新たな可能性が開かれます。一部の研究者は、GPT-4V の実用化の可能性を探り始めています。 最近、「GPT-4V (ision) を路上で使用: 自動運転における視覚言語モデルの初期調査」と題された論文では、状況理解から推論、そして実際のドライバーとしての継続的な判断と意思決定まで、難易度が増す自動運転シナリオにおける GPT-4V の能力がテストされました。 論文アドレス: https://arxiv.org/pdf/2311.05332.pdf 具体的には、この論文では、自動運転の分野における GPT-4V の調査において、次の側面に焦点を当てています。 1. 状況理解: このテストは、運転中の天候や照明条件の識別、さまざまな国の信号や標識の識別、さまざまな種類のカメラで撮影された写真における他の交通参加者の位置と行動の評価など、GPT-4V の基本的な認識機能を評価することを目的としています。さらに、好奇心から、さまざまな視点からのシミュレーション画像や点群画像も調査しました。 2. 推論: このフェーズでは、研究者は自動運転環境における GPT-4V の因果推論機能の詳細な評価を実施しました。この評価には、いくつかの重要な側面が含まれていました。まず、データ駆動型の認識システムにとって通常は難しい複雑なコーナーケース (つまり、発生する可能性が低いシナリオ) の処理方法を詳しく調べました。次に、自動運転アプリケーションにおいて重要な機能であるサラウンドビューを提供する能力を評価しました。 GPT-4V はビデオデータを直接処理できないため、連結された時系列画像を入力として使用して、時間相関機能を評価します。さらに、現実世界のシーンとナビゲーション画像を関連付ける能力を検証するテストを実施し、自動運転シナリオの全体的な理解をさらに調べました。 3. 運転: GPT-4V の潜在能力を最大限に引き出すために、研究者は GPT-4V に経験豊富なドライバーの役割を演じさせ、実際の運転環境で環境に基づいて判断を行わせました。彼らのアプローチは、運転ビデオを一定のフレーム レートでサンプリングし、それをフレームごとに GPT-4V に入力することです。判断を下すのを助けるために、基本的な車両速度やその他の関連情報を提供し、各ビデオの運転目標を伝えました。彼らは、GPT-4V に必要なアクションを実行し、その選択を説明するよう要求し、それによって実際の運転シナリオにおけるその能力に挑戦しました。 テストでは、さまざまな運転シナリオを表す厳選された写真とビデオが使用されました。テスト サンプルは、nuScenes、Waymo Open Dataset、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2-city、Car Crash Dataset (CCD)、TSDD、CODA、ADD などのオープン ソース データセットや、DAIR-V2X や CitySim などの V2X データセットなど、さまざまなチャネルから取得されます。さらに、一部のサンプルは CARLA シミュレーション環境から取得され、その他はインターネットから取得されます。なお、テストで使用した画像データには、2023 年 4 月までのタイムスタンプの画像が含まれており、GPT-4V モデルのトレーニング データと重複する可能性がありますが、この記事で使用したテキスト クエリは完全に再生成されています。 実験結果によると、GPT-4V は状況理解、意図認識、運転意思決定の点で既存の自動運転システムを上回る可能性があることが示されています。 コーナーケースでは、GPT-4V は高度な理解機能を使用して、分布外 (OOD) 状況に対処し、周囲の交通参加者の意図を正確に評価できます。 GPT-4V は、マルチビュー画像と時間写真を使用して、環境の完全な認識を実現し、交通参加者間の動的な相互作用を正確に識別します。さらに、これらの行動の背後にある根本的な動機を推測することもできます。彼らはまた、GPT-4V が開けた道路で継続的に判断を下すパフォーマンスを目撃しました。ナビゲーション アプリケーションのユーザー インターフェイスを人間のように解釈し、ドライバーの意思決定を支援およびガイドすることもできます。要約すると、GPT-4V のパフォーマンスは、自動運転の分野における複雑な課題に対処する上での視覚言語モデルの大きな可能性を示しています。 研究者によって詳述されたすべての実験は、ウェブホスト型の GPT-4V (ision) (9 月 25 日付バージョン) を使用して、2023 年 11 月 5 日より前に実施されたことに注意することが重要です。 GPT-4V の最新バージョンは 11 月 6 日の OpenAI DevDay 後に更新されたため、同じ画像を提示された場合、この研究でテストされたものとは異なる応答が生成される場合があります。 状況理解安全で効果的な自動運転の基本的な前提条件は、現在の状況を明確かつ徹底的に理解することです。本研究では、モデルによる周辺環境の理解と、モデルによる様々な交通参加者の行動や状況の理解という2つの側面に焦点を当て、評価を通じてGPT-4Vの動的な交通環境を解釈する能力を明らかにすることを目指しています。 環境を理解する GPT-4V の周囲を理解する能力を評価するために、この研究では、時刻の判断、現在の気象状況の理解、信号や標識の認識と解釈など、重要な領域をカバーする一連のテストが実施されました。 下の図 2 に示すように、GPT-4V は正面図の画像の時刻、たとえば「夕方」を認識できます。 天候は運転行動に大きな影響を与える重要な環境要因です。この研究では、nuScenes データセットから同じ交差点で異なる気象条件下で撮影された 4 枚の写真を選択し、GPT-4V にこれらの画像の気象条件を識別するように依頼しました。結果を下の図 3 に示します。 GPT-4V は、信号や標識を認識して解釈する点では明らかにパフォーマンスが不足していました。下の図 4 に示すように、GPT-4V は夜間でも黄色の街灯と赤色の信号を正しく識別します。しかし、図 5 では、画像内の信号機が遠い (画像が小さく見える) ため、GPT-4V は青信号のカウントダウンを赤信号のカウントダウンと誤って識別します。 交通標識には、運転者が従う必要のあるさまざまな規則や指示が記載されています。自動運転システムは、交通事故のリスクを減らし、運転の安全性を向上させるために、交通標識を認識し、これらの規則を理解して遵守する必要があります。 下の図 6 からわかるように、GPT-4V は近くの「SLOW」や遠くの高さ制限「4.5m」など、ほとんどの道路標識を認識できますが、「Speed Bump」標識を誤って認識しています。 GPT-4V には一定の交通標識認識機能がありますが、さらに強化する余地がまだあります。 交通参加者の理解 下の図 7 (左) に示すように、モデルは歩行者、交通標識、信号の状態、周囲の環境を識別して、運転シーンを完全に正確に記述できます。図 7 (右) は、モデルが車両の種類とテールライトを識別し、テールライトを点灯する意図を推測できることを示しています。しかし、GPT-4V は、前の車にリアビューカメラが付いていると認識するなど、誤った説明も出力しました。 この研究では、2D画像(図9)、3Dポイントクラウドの視覚化(図10)、V2Xデバイスから取得した画像(図11)、自動運転シミュレーションソフトウェア(図12)など、さまざまなセンサー入力を使用して、GPT-4Vが交通参加者の行動を理解する能力を評価しました。 高度な推論スキル推論は適切な運転行動におけるもう一つの重要な要素です。交通環境は動的かつ予測不可能な性質を持っているため、ドライバーは予期せぬ一連の出来事に遭遇することがよくあります。このような予期せぬ状況に直面した場合、熟練したドライバーは経験と常識に頼って正確な判断と決断を下さなければなりません。この研究では、予期せぬ出来事に対する GPT-4V の反応を評価するために一連のテストが実施されました。 コーナーケース 図13(左)に示すように、GPT-4Vは、珍しい車両の外観、地面の交通コーン、車両の横にあるスタッフを鮮明に描写できます。 GPT-4V はこれらの状況を認識した後、自車両を少し左に移動し、右側の作業領域から安全な距離を保ち、慎重に運転する必要があることを認識します。 マルチビュー画像 GPT-4V はマルチビューカメラを活用することで運転環境の包括的なビューをキャプチャすることができ、この研究では GPT-4V のマルチビュー画像を処理する能力を評価しました。 下の図 16 に示すように、この研究では周囲の環境画像のセットを使用し、正しい順序でモデルに入力することを選択しました。結果は、GPT-4V が建物、車両、障害物、駐車場など、シーン内のさまざまな要素を巧みに識別でき、重複情報からシーン内に白い SUV 1 台とトラック 1 台の計 2 台の車があることを推測できることを示しています。しかし、GPT-4V は横断歩道を誤って識別します。 下の図 17 に示すように、別の実験では、GPT-4V はシーンの概ね正確な説明を提供しましたが、特に車両の数と形状に関していくつかの認識エラーも発生しました。特に、GPT-4V は、画像内に左折標識があると考えるなど、混乱を招く錯覚を生み出します。研究チームは、これらの問題は GPT-4V の空間推論能力の限界によるものである可能性があると推測しています。 さらに、この研究では、正しい正面図を提示し、GPT-4V に乱雑な周囲の画像を認識させて分類させることも試みました。モデルは一見意味のある分析と推論を多数実行しているにもかかわらず、最終的には間違った答えを出力します。どうやら、GPT-4V は隣接する画像間の接続に課題を抱えているようです。 時系列 GPT-4Vの時系列画像を理解する能力を評価するために、この研究ではビデオクリップから4つのキーフレームを抽出し、シーケンス番号でラベル付けし、それらを入力用の1つの画像に組み合わせ、その期間中に発生したイベント、自車が取ったアクション、およびその理由を説明するようGPT-4Vに求めました。テスト結果を以下の図19、20、21、22に示します。 さらに、実際の運転シナリオでは、ドライバーは意思決定能力を高めるために、地図ナビゲーション アプリなどの外部デバイスからの補助情報を利用することがよくあります。この研究では、GPT-4Vに前方監視カメラの画像と、マッピングソフトウェアからの対応するナビゲーション情報を装備しました。 下の図 23 と 24 は、GPT-4V が前方カメラとマップ ナビゲーション アプリの情報を使用して正確に位置を特定し、それに応じた運転の提案を提供できることを示していますが、場合によっては提案が間違っていることもあります。 運転能力自動運転アルゴリズムの最終的な目標は、人間のドライバーの意思決定能力を再現することです。この目標を達成するには、正確な識別、空間認識、そしてさまざまな交通要素間の空間的および時間的関係についての深い理解が必要です。この研究では、GPT-4V の意思決定能力をいくつかの異なる実際の運転シナリオでテストすることにより、自動運転における GPT-4V の可能性を評価しました。 例えば、GPT-4Vの閉鎖されたエリアでの運転意思決定能力をテストするために、この研究では「駐車場から出るために右折する」というシナリオを選択し、セキュリティチェックが必要としました。テスト結果を下の図25に示します。 この調査では、「混雑した交差点」のシナリオもテスト対象として選択され、その結果が以下の図 26 に示されています。 制限事項の概要テストでは、研究者は GPT-4V が以下のタスクでパフォーマンスが低いことを発見しました。 1. 左と右の区別: 図 17 に示すように、場合によっては、モデルが方向を識別するのが困難になります。これは、自律ナビゲーションの重要な側面です。図 8 と 21 にも同様の問題が示されています。これらの数字は、複雑な交差点を解釈したり、車線変更の決定を行ったりする際に、モデルが時折混乱をきたすことを浮き彫りにしています。 2. 信号灯の識別: この問題は、図 12、15、22、26、および 29 で発見されました。研究者たちは、この問題の原因は、画像全体に大量の意味情報が含まれており、信号機の埋め込まれた情報が失われることにあると推測しています。画像内の信号機領域を切り取って個別に入力すると、モデルはそれを正常に識別できます(図 5 を参照)。 3. 視覚的位置特定タスク: 図 7 に示すように、GPT-4V ではピクセルレベルの座標や境界ボックスを指定することが難しく、画像内のおおよその領域を示すことしかできません。 4. 空間推論: 正確な空間推論は、自動運転車の安全な運行に不可欠です。図18に示すマルチビュー画像のステッチングであれ、図21に示すスクーターと自動運転車の相対的な位置関係の推定であれ、GPT-4Vは正確な判断を下すのが困難です。これは、2 次元の画像入力に基づいて 3 次元空間を理解し、解釈することの本質的な複雑さから生じている可能性があります。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御
>>: Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。
Android システムでは、Nut Hidden APP をダウンロードして、セキュリティリスク...
AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環...
ただし、フロントエンドでアルゴリズムに触れる機会はほとんどありません。ほとんどがインタラクティブな操...
2023年までに、AIは複数の業界で広く採用されるようになります。 2024 年までに、ソフトウェア...
01 機械学習モデルが説明できない理由数日前、あるピア交換グループで熱く議論されたトピックがありまし...
「この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より転載を許可さ...
AIがサイバー攻撃から重要なインフラを守るためにどう役立つか 電力網、水道システム、交通網などの重要...
近年の人工知能の波の台頭により、無人運転車が再び話題となり、国内外の多くの企業が自動運転や無人運転車...
人工知能と関連技術はマーケティングの未来を変えつつあり、仮想現実 (VR)、音声検索、人工知能はマー...
大規模な AI モデルへの熱狂に後押しされ、AI チップの分野ではついに百家争鳴の時代が到来しました...
COVID-19パンデミックは、医学的発見のスピードの重要性だけでなく、その加速を支援するデータサイ...
国産大型モデルはパラメータ優先から実用性優先へとシフトし、長期化期に入っている。 9月7日、2023...
[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...
一夜にして、Bard は GPT-4 を追い抜き、そのパフォーマンスは最強の GPT-4 Turbo...
1. シーン分類 顔認識:セキュリティ監視認識、顔アクセス制御、有名人の顔、VIP ID認識など。人...