スマートカーの「ChatGPTモーメント」はどこまで進んでいるのでしょうか?

今年の「テクノロジースプリングフェスティバルガラ」CES で最も注目を集めたものは何かと聞かれれば、スマートカーは間違いなくその 1 つになるでしょう。

結局、大きなモデルが車に搭載されると、スマートコックピットは次のように巻き上げられます。

車内のデジタルアシスタントが食事のスケジュールの記録を手伝ってくれます。レストランの予約もできます。

△Snapdragonコックピットプラットフォームエフェクトディスプレイ

ルート計画もより巧妙になりました。デジタルアシスタントはあなたの習慣に基づいて積極的に尋ねます。「途中でコーヒーを買いますか？」

△Snapdragonコックピットプラットフォームエフェクトディスプレイ

スマートカーの上流と下流のメーカーが次々とその実力を披露する中、最前線で展示会に参加した多くの友人がため息をついたのも不思議ではない。CESはまるで自動車ショーだ。

実際、ビッグモデルの応用の焦点がクラウド側からデバイス側に移るにつれて、携帯電話メーカーはデバイス側でビッグモデルを展開しているだけでなく、自動車におけるビッグモデルも焦点の1つになっています。

スマートカーは現在最も重要なスマートモバイル端末の一つであり、大型モデルはAIの大規模応用の鍵となると考えられています。

スマートコックピットはビッグモデルと生成AI機能に基づいて構築されているだけでなく、テスラが白熱した議論を巻き起こしたエンドツーエンドの自動運転ソリューションは、ビッグモデルを通じて認識、予測、計画のすべてのモジュールを接続するという新しい技術トレンドも表しています。

つまり、スマートコックピットから自動運転まで、あらゆるものをビッグモデルが再構築することでもたらされる「模型大国時代」において、あらゆる面で「自動車ロボット」の真の実現がビッグモデルを中心に展開されつつあるのだ。

そこで質問です。

スマートカーには本当に大型モデルが必要でしょうか?

前述したように、大型モデルにおける最も人気のある2つのトレンドは、自動運転とスマートコックピットです。

自動運転に関しては、CVPR 2023の最優秀論文が自動運転ビッグモデルに授与されたため、業界のコンセンサスが生まれました。

エンドツーエンドの自動運転は業界の未来であり、新たなブレークスルーはビッグモデル技術に基づくものとなるでしょう。

△CVPR 2023 最優秀論文賞

従来のルールベースの自動運転アルゴリズムとは異なり、エンドツーエンドモデルは、手動で設計された複雑な中間表現を必要とせずに、センサー入力(カメラデータなど)に基づいて出力を直接制御する方法を学習できます。

たとえば、エンドツーエンドの自動運転ソリューションでは、モデルに赤信号を無視しないように学習させたい場合、ルールを設計する必要はありません。高品質の信号機ビデオをさらに使用してトレーニングするだけで済みます。

これは、エンドツーエンドモデルが複雑なトラフィックシナリオをより適切に処理できることを意味します。手書きのルールに依存する場合と比較して、このようなモデルは実際のシナリオを推論でき、コーナーケースによって発生するアプリケーション実装の問題をより適切に解決できます。

Quantum位シンクタンクは、「2023年トップ10フロンティアテクノロジートレンドレポート」の中で、エンドツーエンドの自動運転技術は、すべてのモジュールがニューラルネットワーク化されており、ルールへの依存度が低く、インテリジェントな創発能力とクロスシナリオの応用可能性を備えていると指摘した。

CVPR 2023の最優秀論文「計画指向の自動運転」では、研究者らが実験を通じて、バックボーンネットワークを増やすことで知覚スコアが向上し、モデルの予測と計画のパフォーマンスがさらに向上する可能性があることを実証しました。

言い換えれば、モデルが大規模になればなるほど、より豊富な機能表現とより複雑なタスク処理機能が提供され、自動運転シナリオにおける複雑なデータ処理と意思決定をより適切にサポートできるようになります。

大規模モデルによる自動運転はまだ研究段階ですが、生成 AI とスマートコックピットの組み合わせについては、すでに一歩早い具体的な実装事例があります。

これは今年の CES で見ることができます。

例えば、Geely Galaxy E8は車内に大型モデルを搭載し、車内での視聴覚エンターテイメントとAIインタラクションのパーソナライズを実現しました。文勝図大型モデルに基づいて、数秒でカスタマイズされた壁紙を生成し、音楽を正確に推奨し、音楽の雰囲気に基づいて様式化された壁紙を生成することができ、AIデジタルエルフは「個性」を持ち、より人間的になります...

Qualcomm の Snapdragon Digital Chassis コンセプトカーは、エッジサイド生成 AI の効率的な使用例をより直感的に示しています。

たとえば、ダッシュボードに警告灯が表示された場合、ユーザーマニュアルを調べる必要はなく、デジタルアシスタントに質問するだけですぐに回答が得られます。 AI は、その場で修理の予約を手伝うこともできます。

△youtube@ホットハードウェア

重要なのは、車両側に展開されたビッグモデル、つまり端末側AIモデルが、ローカルデータを組み合わせてよりパーソナライズされたコックピットサービスを提供しながら、「車両を離れることなく」ユーザーデータを保護することです。これにより、ユーザーのプライバシーとセキュリティが保護されるだけでなく、クラウド処理によって発生する遅延の問題も軽減されます。

さらに、エンドサイドのコンピューティング能力を最大限に活用することで、ユーザー規模の拡大によってもたらされるクラウドコンピューティング能力へのコスト圧力も大幅に軽減されます。

自動運転の分野にとって、大型モデルの技術の波が現在の技術的ボトルネックを打破する新たな道をもたらしたことは容易に理解できます。そのため、一般のシーンでL4、L5の自動運転を本当に実現するには、大型モデルが不可欠だという判断をする業界関係者もいる。

注目すべきは、クラウド側の基本大規模モデルとその応用は過去 1 年間で急速に進歩したが、大規模モデルを車両に適用するには依然として大きな課題があることです。

まず、データの問題があります。インターネット上の膨大なデータと比較すると、自動運転分野自体のデータ量ははるかに少なく、エンドツーエンドのモデルをトレーニングするには、優秀な人間のドライバーからの高品質なデータがより重要です。

2つ目は計算能力の問題です。インテリジェント運転における道路状況のリアルタイム推論であれ、スマートコックピットにおけるユーザーの意図や機能のスケジュールの理解であれ、エンドサイドのコンピューティング能力に対する需要は高まっています。

3番目に、セキュリティの問題があります。一方で、これはエンドツーエンドの自動運転モデルの説明可能性に関係します。他方では、エンドクラウド統合プロセス中にユーザーのプライバシーデータが漏洩しないようにする方法が問題となります。

ハードウェアの観点から見ると、これらの問題は実際には自動車用チップに高い要求を課します。

「モデルパワー時代」のスマートカーにはどんなチップが必要なのでしょうか？

ここ数年、Snapdragon 8155（第3世代のフラッグシップSnapdragonコックピットプラットフォーム）がコックピットがスマートであるかどうかの事実上の基準の1つになったとすれば、CES「オートショー」で頻繁に登場するもう1つのキーワードは、「モデル時代」におけるスマートカーの新たな競争の方向性を明らかにした。

Snapdragon 8295 （第4世代の最高峰Snapdragonコックピットプラットフォーム）。

国内の新興自動車メーカーからメルセデス・ベンツ、BMWまで、CESで発表された最新の量産車において、Snapdragon 8295は新たな標準となっている。

大型モデルが車に搭載される最新トレンドの中、車載チップの最新の進化の方向性とは？ Snapdragon 8295を例に、詳しく見ていきましょう。

Snapdragon 8295 は 5nm プロセスを使用して製造されています。計算能力の面では、CPUの計算能力は230K DMIPSに達し、Snapdragon 8155の8倍です。GPUは1秒あたり2.9兆回の単精度浮動小数点演算（2.9TFLOPS）または1秒あたり58,000回の半精度浮動小数点演算（5.8TFLOPS）を達成できます。8155と比較して、全体的なパフォーマンスは2倍向上し、3Dレンダリングパフォーマンスは3倍向上しています。車内の11個のスクリーンを同時に駆動でき、市場の他の車載チップをはるかに上回っています。

さらに重要なのは、Snapdragon 8295 にはデュアルコア NPU が搭載されており、AI コンピューティング能力が 8155 の 4TOPS から 30TOPS に直接向上したことです。

このようなパラメータ性能は、車載グレードのチップとしては他をはるかに上回っていると言えます。機能面では、大型モデル、マルチモーダルインタラクション、オフライン音声、さらにはキャビンとベッドの統合やコックピットの統合など、すべて実現の基盤が整っています。

Snapdragon 8295を搭載したJiyue 01を例にとると、クラウドベースの音声認識アルゴリズムモデルを車両側に直接配置し、リアルタイム応答時間を1.5秒から700ミリ秒に短縮できます。

従来の自動駐車に加え、車外からの音声制御による自動駐車も可能。

車内では、Snapdragon 8295のサポートにより、Jiyue 01はさまざまなスピーカーを認識でき、つまり、複数人の同時音声機能をサポートします。オフライン音声ライブラリを使用すると、ネットワークに接続していなくてもフル機能の音声認識を実現できます。

さらに、車内でのインテリジェントなインタラクションは、音声レベルに限定されなくなりました。アイコンタクトや動きを伴うマルチモーダルなインタラクションが車内で実現できるようになりました。例えば、車の窓を開けたい場合、細かい指示をする必要はありません。「窓を開けて」と声をかけて視線を追うだけで、車内のAIが数秒であなたの意図を理解します。

スケーラブルな自動運転 SoC プラットフォームとして、Snapdragon 8295 には視覚認識、駐車、ドライバー検出ソフトウェアスタックなどを含む幅広いソフトウェアエコシステムがあることは特筆に値します。

自動車会社にとって、これは、Snapdragon コックピットプラットフォームをベースにした高度な処理をより便利かつ迅速に実行できることを意味します。

消費者の観点から見ると、コックピットのインテリジェントな体験のアップグレードは、ほんの始まりに過ぎません。

端末側AIがAIスケールの鍵

ビッグモデルによってもたらされる変化の核心は、人間とコンピューターの相互作用の方法の変化です。

大きな期待が寄せられる「スマート空間」として、スマートカーは当然、無視できない技術革新の嵐の中で重要な位置を占めるようになった。

スマートカーの「ChatGPT の瞬間」がいつ来るかを正確に予測できる人は誰もいません。しかし、少なくともソフトウェアとハードウェアの準備に関しては、クアルコムに代表される企業が感染拡大への備えを主導してきた。

実際、端末を中心に徐々に焦点が当てられていく新たな「ChatGPTモーメント」への期待感は、2024年から始まる今回のCESでも随所に感じられると言えるだろう。スマートカーは注目を集めていますが、すべてではありません。

人気のAI携帯型ゲーム機Rabbit R1からAI PC、AR/VR、具現化された知能ロボットまで、AIと端末の組み合わせはCES会場のほぼ隅々まで広がっています。

「モデルパワー時代」という新たな段階における変化の傾向もますます明らかになってきており、エンドサイドでのビッグモデル/生成AI技術の実装が、新たなAIチャンスの勃興の鍵となっている。

この点に関して、クアルコムの社長兼CEOであるアモン氏はCESの基調講演で次のように述べた。

生成AIの開発は第一段階から第二段階へと移行しています。現在、業界全体でプロセッサに生成 AI を実装しており、次のステップは使用シナリオとアプリケーションの開発になります。

主な理由は、データがどこにあっても AI 推論が実行される必要があるということです。

一方で、大規模モデルアプリケーションのユーザー数の増加やモデルパラメータの規模の拡大に伴い、クラウドコンピューティング推論のコストは飛躍的に増加しており、コストのバランスをとるためにはエッジのコンピューティングパワーを最大限に活用する必要があります。一方、端末が AI ビッグモデルのユースケースを実行できる場合にのみ、個人データは保護されているという前提の下で十分に活用され、真にパーソナライズされたビッグモデルアプリケーションが実現されます。

つまり、2024年の初めに、「モデルパワー時代」の終末変革の一角がさらに一般に公開されたことになります。

変化の嵐はここで止まらず、今年はスマート端末を通じて、よりインテリジェントな変化があなたや私の生活に近づくことが予想されます。

<<: ザッカーバーグはオープンソースのAGIを攻撃するために数百億ドルを投資します！ 600,000 個の H100 を消費して GPT-4 の計算能力を 50 倍に増加

>>: マスク氏、さらに 4 人の「民間」宇宙飛行士を宇宙に送り出す!スペースXは12回の有人ミッションを成功させた