「人と車のインタラクション」に新たなブレークスルー！パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

パデュー大学のデジタルツインラボの最新の成果として、研究者らは、大規模言語モデル (LLM) を使用して自動運転車にインテリジェントなコマンド解析機能を提供するという革新的な技術を導入しました。

この技術の中核となるのは、人間の自然言語を理解することで自動運転車を制御し、これまでにない人間と車の相互作用を実現することを目指す Talk2Drive フレームワークです。

写真

論文リンク: https://arxiv.org/abs/2312.09397

プロジェクトウェブサイト: purduedigitaltwin.github.io/llm4ad

Talk2Drive フレームワークは、革新的な設計により、自動運転車と人間のドライバー間の効率的で直感的な対話を可能にします。フレームワークの操作プロセスは、コマンドの受信、処理、推論から実行可能コードの生成、コードの実行、フィードバックの収集まで、いくつかの重要なステップをカバーします。

まず、フレームワークは、高度な音声認識技術を使用して、人間の口頭コマンドを受信し、テキスト指示に変換します。このステップにより、人間の意図が正確に理解されることが保証されます。

次に、天気や交通状況などのクラウドからのリアルタイムの環境データと組み合わせることで、LLM はコマンドを処理する際にこの重要なコンテキスト情報を考慮に入れることができ、生成された運転戦略が安全で、現在の環境条件に適応したものになることを保証します。

写真

LLM は、コンテキスト学習と思考連鎖の手がかりを使用してコマンドについて推論し、単純な運転指示だけでなく、車両の低レベルコントローラーで調整する必要がある複雑な運転動作とパラメーターを網羅するコードを生成します。前方距離や速度などのパラメータの調整は、現在の道路状況とドライバーのニーズに対する深い理解に基づいています。

セキュリティの面では、Talk2Drive フレームワークは、生成されたコードの形式とパラメータを厳密にチェックすることで、自動運転動作の安全性を確保します。

、再生時間 05:24

さらに、メモリモジュールの導入により、システムはドライバーの好みやフィードバックを記録して学習できるようになり、ドライバーによりパーソナライズされた運転体験を提供できるようになります。

Talk2Drive フレームワークのユニークな点は、高度にパーソナライズされたサービスです。

「できるだけ早く目的地に連れて行ってください。友達を長く待たせたくないんです」や「ちょっと車酔い気味なので、スピードを落としてください」といった乗客の口頭指示を分析することで、このフレームワークは乗客のニーズを正確に理解し、それに応えることができます。人間と車両のあらゆる相互作用は記録され、システムの最適化に使用され、乗客の好みを学習して、将来的にさらにカスタマイズされた運転体験を提供できるようになります。

写真

さらに、実験結果によると、異なる運転スタイルのドライバーに異なる LLM を使用することで、Talk2Drive フレームワークを使用する自動運転車は実際の路上テストで良好なパフォーマンスを発揮し、ドライバーのさまざまな程度の難解なコマンドを理解し、人間による操作の必要性を効果的に減らし、さまざまな運転スタイルやシナリオに適応することができました。

この成果は、自動運転分野における大規模言語モデルの大きな可能性を示すだけでなく、自動運転技術の将来の発展に向けた新たな道を開くものでもあります。

写真

さまざまなタイプのドライバーの場合、Talk2Drive フレームワークを使用すると、運転中の引き継ぎ率を大幅に削減できます。

テクノロジーが進歩し、最適化されていくにつれて、Talk2Drive フレームワークは、自動運転車に、より安全で快適かつパーソナライズされた運転体験を提供できるようになります。この画期的な研究は、自動運転と人間とコンピュータの相互作用の統合と進歩を示すだけでなく、人間中心でよりインテリジェントな未来の交通時代の到来を告げるものでもあります。

研究チーム

パデュー大学のデジタルツインラボは、大規模言語モデルと自動運転の交差点におけるイノベーションと探求に取り組んでいます。

この分野に関心のある世界中の研究者、エンジニア、業界関係者は、ぜひ当プロジェクトのウェブサイトにアクセスして、自動運転技術の開発を共同で推進し、将来の交通手段の可能性を探ってください。

写真

参考文献:

https://arxiv.org/abs/2312.09397

<<: 主任アナリストが、1時間あたり168ドルを消費する人気のGroqの秘密を明かす！ H100の10倍のコストがかかるが、老黄は笑って何も言わなかった

>>: GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

量子プロセッサのパフォーマンスはなぜ変動するのでしょうか? Googleが見つけた答えは、素材に欠陥があるということだ

ブログ

「人と車のインタラクション」に新たなブレークスルー！パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

研究チーム

量子プロセッサのパフォーマンスはなぜ変動するのでしょうか? Googleが見つけた答えは、素材に欠陥があるということだ

糖尿病網膜症のスクリーニングの改善におけるAIの役割

物理学者は人間が「マトリックス」の中で生きていることを証明するのか？宇宙は「シミュレーションシステム」であり、複数のシステムにより情報進化は安定する傾向があることが確認されている

人工知能の長所と短所について知っておくべき10の事実

IEEE: 新興人工知能サイバーセキュリティの課題と解決策

NVIDIA が Tensor RT-LLM を発表、RTX 搭載 PC プラットフォームで大規模言語モデルを 4 倍高速化

ChatGPTは人気があり、Xiaohongshuの技術スタッフとNLPの専門家にその原理と可能性について話を聞きました。

推薦する

llama2.mojo は llama2.c より 20% 高速です。最も新しい言語 Mojo が開発者コミュニティを驚かせています

ダブル12の「ショッピングシーズン」、これらの家庭用ロボットはあなたが「ひっくり返す」のを待っています

マイクロソフトが第1四半期の業績報告を発表: AIサービスの需要が事業成長を牽引

機械学習のバックボーン: モデル構築のためのインフラストラクチャツールは何ですか?

突風か潮か？AIが音声だけで止まってしまったら、一体いつまで苦労し続けることができるのだろうか？

GenAIの変革力は職場に知識をもたらします

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

90年代以降の世代は、分野を超えてNLPを独学で学び、オープンソースライブラリHanLPを作成しました。このライブラリはGitHubで15,000個のスターを獲得しています。

GPT-4 に追いつく!李開復のYi-34Bの新しい結果が発表されました：勝率94.08％はLLaMA2などの主流の大型モデルを超えています