この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 皆様の注目の下、GPT4 は本日ついに視覚関連の機能をリリースしました。 今日の午後、私は友人たちと一緒に GPT の画像認識機能をテストする機会を得ました。予想はしていましたが、それでも大きな衝撃を受けました。 中核となるアイデア:
効率性に関するいわゆるコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して運転を自立的に完了し、安全性を確保するにはまだ長い道のりがあります。 例1: 道路上に未知の障害物が現れた△ GPT4の説明 正確な部分:3台のトラックが検出され、前方車両のナンバープレートの番号は基本的に正確であり(漢字は無視)、天候と環境は正確であり、前方の未知の障害物はプロンプトなしで正確に識別されました。 不正確な部分: 3 台目のトラックの位置が左右の区別がつかず、2 台目のトラック上部のテキストがランダムな推測になっています (解像度が不十分なため?)。 これだけじゃ十分ではありません。引き続きヒントを与え、この物体が何なのか、そして押すことができるのかどうかを尋ねます。 印象的な!同様のシナリオをいくつかテストしましたが、未知の障害物に対するパフォーマンスは驚くべきものでした。 例2: 道路冠水に関する理解何も指示しなくても自動的に標識を認識できることは基本的な操作です。引き続きヒントをいくつか提供しましょう。 またショックを受けました。 。 。トラックの後ろの霧と水たまりについては自動的に言及できましたが、方向はやはり左と示されました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで迅速なエンジニアリングが必要になる可能性があると感じています。 例3: 車両が方向転換してガードレールに衝突した最初のフレームが入力されると、タイミング情報がないため、右側のトラックは単に駐車されているとみなされます。ここに別のフレームがあります: この車がガードレールを突き破って道路の端に浮かんでいるのがすぐにわかります。すごいですね。 。 。しかし、簡単に思えた道路標識は間違っていました。 。 。これは巨大なモデルだとしか言えません。常に衝撃を与え、いつ涙を流すことになるか分かりません。 。 。別のフレーム: 今回、彼は道路上の瓦礫について直接話し、改めて驚いていました。 。 。ただ一度だけ、道路の矢印を読み間違えただけなんです。 。 。全体的に、このシーンで特に注意が必要な情報は網羅されており、道路標識の問題は欠陥によって上回られることはありません。 例4: 面白い例をやってみよう非常によくできているとしか言いようがありません。それに比べると、以前は非常に難しかった「誰かがあなたに手を振った」というケースは、今では子供の遊びのように簡単です。これは、セマンティックコーナーケースで解決できます。 例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しい道路に入る私は当初は比較的保守的だったので、原因を直接推測することはしませんでした。代わりに、アライメントの目標に沿って複数の推測をしました。 CoT を使用した後、問題は車が自動運転車であることを知らなかったことであり、プロンプトを通じてこの情報を提供することでより正確な情報を提供できることがわかりました。 最後に、一連のプロンプトを通じて、新しく舗装されたアスファルトは運転に適していないという結論を出力できます。最終結果は問題ありませんが、プロセスはかなり複雑で、より迅速なエンジニアリングと慎重な設計が必要です。 これは、写真が最初の視点からのものではなく、3 番目の視点からのみ推測できるためであると考えられます。したがって、この例はあまり正確ではありません。 要約するいくつかの簡単な試みにより、GPT4V のパワーと一般化パフォーマンスが完全に実証されました。適切なプロンプトにより、GPT4V の強みを完全に実証できるはずです。 意味上のコーナーケースを解決することは非常に有望ですが、セキュリティ関連のシナリオでは、幻覚の問題が依然として一部のアプリケーションに影響を及ぼすことになります。 とても楽しみです。このような大規模なモデルを合理的に使用することで、L4、さらにはL5の自動運転の開発が大幅に加速されると個人的には思っています。しかし、LLMは直接運転する必要がありますか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。 |
<<: 21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。
昨年後半から、インターネット業界の人々は生活がますます困難になっていると感じています。かつてセルフメ...
百度は9月19日、国内初の「産業レベル」医療ビッグモデル「霊益ビッグモデル」を発表し、霊益ビッグモデ...
人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...
[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...
比較的新しい概念である AIoT は、人工知能 (AI) とモノのインターネット (IoT) を組み...
スマートホームの人気が高まっていることは間違いありません。テクノロジーに精通した早期導入者から一般の...
2020年に世界的に発生したCOVID-19パンデミックによる混乱にもかかわらず、ほとんどの製品やサ...
生成 AI は、特にビジネスの世界でますます人気が高まっています。ウォルマートはつい最近、店舗外の従...
[[397251]]画像ソース: https://pixabay.com/images/id-610...
11月8日、米国現地時間の火曜日、著名な伝記作家アシュリー・ヴァンス氏が、イーロン・マスク氏の脳コン...
[51CTO.com からのオリジナル記事] 運用と保守の発展を振り返ると、スクリプト、ツール、プラ...
現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...
[[428910]]人工知能は、スマートビルディングパズルの最も重要なピースの 1 つです。これがな...