CTOは「大きな衝撃を受けた」：GPT-4Vの自動運転テストを5回連続で実施

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

皆様の注目の下、GPT4 は本日ついに視覚関連の機能をリリースしました。

今日の午後、私は友人たちと一緒に GPT の画像認識機能をテストする機会を得ました。予想はしていましたが、それでも大きな衝撃を受けました。

中核となるアイデア:

自動運転における意味関連の問題は大規模モデルによって十分に解決されているはずだが、大規模モデルの信頼性と空間認識能力はまだ不十分であると思う。

効率性に関するいわゆるコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して運転を自立的に完了し、安全性を確保するにはまだ長い道のりがあります。

例1: 道路上に未知の障害物が現れた

△ GPT4の説明

正確な部分：3台のトラックが検出され、前方車両のナンバープレートの番号は基本的に正確であり（漢字は無視）、天候と環境は正確であり、前方の未知の障害物はプロンプトなしで正確に識別されました。

不正確な部分: 3 台目のトラックの位置が左右の区別がつかず、2 台目のトラック上部のテキストがランダムな推測になっています (解像度が不十分なため?)。

これだけじゃ十分ではありません。引き続きヒントを与え、この物体が何なのか、そして押すことができるのかどうかを尋ねます。

印象的な！同様のシナリオをいくつかテストしましたが、未知の障害物に対するパフォーマンスは驚くべきものでした。

例2: 道路冠水に関する理解

何も指示しなくても自動的に標識を認識できることは基本的な操作です。引き続きヒントをいくつか提供しましょう。

またショックを受けました。。。トラックの後ろの霧と水たまりについては自動的に言及できましたが、方向はやはり左と示されました。。。 GPT が位置と方向をより適切に出力できるようにするには、ここで迅速なエンジニアリングが必要になる可能性があると感じています。

例3: 車両が方向転換してガードレールに衝突した

最初のフレームが入力されると、タイミング情報がないため、右側のトラックは単に駐車されているとみなされます。ここに別のフレームがあります:

この車がガードレールを突き破って道路の端に浮かんでいるのがすぐにわかります。すごいですね。。。しかし、簡単に思えた道路標識は間違っていました。。。これは巨大なモデルだとしか言えません。常に衝撃を与え、いつ涙を流すことになるか分かりません。。。別のフレーム:

今回、彼は道路上の瓦礫について直接話し、改めて驚いていました。。。ただ一度だけ、道路の矢印を読み間違えただけなんです。。。全体的に、このシーンで特に注意が必要な情報は網羅されており、道路標識の問題は欠陥によって上回られることはありません。

例4: 面白い例をやってみよう

非常によくできているとしか言いようがありません。それに比べると、以前は非常に難しかった「誰かがあなたに手を振った」というケースは、今では子供の遊びのように簡単です。これは、セマンティックコーナーケースで解決できます。

例5 有名なシーンを見てみましょう。。。配送トラックが誤って新しい道路に入る

私は当初は比較的保守的だったので、原因を直接推測することはしませんでした。代わりに、アライメントの目標に沿って複数の推測をしました。

CoT を使用した後、問題は車が自動運転車であることを知らなかったことであり、プロンプトを通じてこの情報を提供することでより正確な情報を提供できることがわかりました。

最後に、一連のプロンプトを通じて、新しく舗装されたアスファルトは運転に適していないという結論を出力できます。最終結果は問題ありませんが、プロセスはかなり複雑で、より迅速なエンジニアリングと慎重な設計が必要です。

これは、写真が最初の視点からのものではなく、3 番目の視点からのみ推測できるためであると考えられます。したがって、この例はあまり正確ではありません。

要約する

いくつかの簡単な試みにより、GPT4V のパワーと一般化パフォーマンスが完全に実証されました。適切なプロンプトにより、GPT4V の強みを完全に実証できるはずです。

意味上のコーナーケースを解決することは非常に有望ですが、セキュリティ関連のシナリオでは、幻覚の問題が依然として一部のアプリケーションに影響を及ぼすことになります。

とても楽しみです。このような大規模なモデルを合理的に使用することで、L4、さらにはL5の自動運転の開発が大幅に加速されると個人的には思っています。しかし、LLMは直接運転する必要がありますか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。

<<: 21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。

>>:

ブログ

CTOは「大きな衝撃を受けた」：GPT-4Vの自動運転テストを5回連続で実施

例1: 道路上に未知の障害物が現れた

例2: 道路冠水に関する理解

例3: 車両が方向転換してガードレールに衝突した

例4: 面白い例をやってみよう

例5 有名なシーンを見てみましょう。。。配送トラックが誤って新しい道路に入る

要約する

この記事では人工知能とは何かを徹底的に解説します！

世界を支配するマスターアルゴリズムは存在するのでしょうか?

PyTorchに負けました！ GoogleはTensorFlowを放棄し、JAXに賭ける

アンサンブル法からニューラルネットワークまで：自動運転技術で使用される機械学習アルゴリズムとは？

機械学習の博士課程での私の経験から得た洞察

モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

自動運転マップ構築モデルを1つの記事で理解する

人気の機械学習プログラミング言語、フレームワーク、ツール14選

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

推薦する

AI革命はネットゼロデータセンターに終止符を打つのでしょうか？

人工知能を背景にした教育の未来を探る

150億のパラメータと60％以上の初回合格率を持つHuaweiの大規模モデルが登場、コーディング能力はGPT3.5を超える

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティングパワーの使用率は Nvidia Megatron-LM を上回る

OpenAI、超知能AIの制御に関する中核的な技術的課題に取り組むため新チームを結成

マスク氏：ニューラリンクが初めて人体にチップを埋め込み、製品化へ

信頼できる AI はどのように発展すべきでしょうか?

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

Googleはロボットを大規模な言語モデルの手と目として機能させ、タスクを16のアクションに分解して一度に完了させます。

例1: 道路上に未知の障害物が現れた

例2: 道路冠水に関する理解

例3: 車両が方向転換してガードレールに衝突した

例4: 面白い例をやってみよう

例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しい道路に入る

要約する

推薦する

例5 有名なシーンを見てみましょう。。。配送トラックが誤って新しい道路に入る