北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

半年以上にわたる好調なビジネスを経て、国内の大型モデル分野は中盤戦に突入し、長年垂直分野に深く関わってきた機関や企業は、業界特有の優位性を活かして大型モデル戦場に参入し始めました。

最近、北京交通大学は、中国コンピュータ学会のインテリジェント交通部門、祖智多模型公司と協力し、独自に開発した国内初の総合交通モデル「TransGPT Zhiyuan」を正式にリリースし、オープンソース化した。

プロジェクトアドレス: https://github.com/DUOMO/TransGPT

TransGPT Zhiyuan のトレーニングは、交通分野の約 346,000 件のテキストデータ (現場での事前トレーニングに使用) と交通分野の約 58,000 件の会話データ (微調整に使用) に基づいており、リアルタイムの APP アクセス (地図、公共交通機関、その他のアプリケーション) をサポートできます。現在、TransGPT Zhiyuan はオープンソース化されており、関連リソースは学術研究に完全に公開されているだけでなく、電子メールで申請して正式な商用ライセンスを取得した後、無料で商用目的に使用することもできます。

TransGPT は、一般的なマルチモーダル交通大型モデル製品とは異なり、交通状況予測、インテリジェントコンサルティングアシスタント、公共交通サービス、交通計画と設計、交通安全教育、支援管理、交通事故報告と分析、自動運転支援システムなどの機能を含め、実際の交通シナリオで実用的な役割を果たすことに主に重点を置いています。

特徴

「TransGPT 総合トラフィックモデル」の主な機能と特徴は次のとおりです。

1. 交通安全教育:交通ビッグモデルを使用して、安全運転のアドバイス、交通ルールの説明などの交通安全教育資料を作成できます。

2. インテリジェントな旅行アシスタント: 車載のインテリジェントなアシスタントは、大規模な交通モデルを使用して、より自然で複雑な会話を理解および生成し、ドライバーがルート情報、交通状況の更新、天気予報などを入手できるように支援します。列車番号、運賃、ルートなど、公共交通機関のサービスに関する質問に自動的に回答します。これにより、サービスの効率が向上し、乗客の体験が向上します。

3. インテリジェントな交通管理: 車両、道路、信号などの情報をリアルタイムで監視および分析することで、交通の流れをインテリジェントに調整し、交通渋滞を軽減します。ソーシャル メディアやニュース レポートからのテキスト情報を分析して、交通の流れ、交通渋滞、事故の可能性を予測します。同時に、このモデルは交通事故の履歴や特徴を分析し、交通事故の発生を減らすための適切な対策や計画を提供することができます。

4. スマートな交通計画: 交通ビッグモデルは、交通計画の提案に対する一般からのフィードバックや意見を分析し、意思決定者により包括的な情報を提供するのに役立ちます。

5. 交通事故の報告と分析: 交通ビッグモデルは、交通事故の報告を迅速に理解して分類し、事故の原因の予備分析を提供するのに役立ちます。

6. 交通政策研究: 大規模な交通モデルは、交通政策に関する一般のフィードバックを分析したり、交通政策の影響に関するレポートを生成したりするために使用できます。これにより、政策立案者は政策の実際の効果をよりよく理解できるようになります。

TransGPT輸送モデルはすでに、BIMモデル監査、インテリジェント運用と保守、インテリジェントコンサルティングなどのシナリオに適用できる能力を備えており、鉄道プロジェクトのデジタル変革とインテリジェント改善を大幅に促進します。ハン・ウェンジュアン氏のチームは、交通ビッグモデルはTransformerアーキテクチャに基づくテキストビッグモデル、マルチモーダルビッグモデル、リアルタイムシーンデータ呼び出し機能を採用し、包括的な交通ビッグモデルをインフラストラクチャとして、交通細分化された業界アプリケーションによって補完された全体的なアーキテクチャを形成していると紹介しました。運転計画、公共交通機関計画、(逆)ジオコーディングクエリなどのアプリケーションシナリオを含むリアルタイムアプリケーションをサポートし、鉄道輸送などの分野のデジタル変革とインテリジェントな改善を促進します。

データ

TransGPT の背後にある北京交通大学のチームは、長年にわたり交通業界に深く関わっており、データの障壁を形成しているため、包括的な交通モデルを構築する上で多くの固有の利点があります。そのデータ コンテンツは、次の交通業界をカバーしています。

データ ソースには次のものが含まれます。

モデル

現在、オープンソース コンテンツには以下が含まれます。

  • モデル TransGPT
  • データセット TransGPT-DATA-sft (市販)
  • データセット TransGPT-DATA-pt (市販)

言語モデル

研究者らは、chinese-alpaca-plus-7b-hf モデル フレームワークに基づいて、包括的な交通モデルの言語モデル バージョンをトレーニングしました。一般ドメインの事前トレーニング、トラフィックドメインの事前トレーニング、教師あり微調整、報酬モデリング、強化学習トレーニングを実現しました。

トラフィック ドメインでのトレーニング プロセスは次のとおりです。

1. オリジナルのpdf、docx、doc形式のファイルからテキストを抽出します

2. LLMを使用してドキュメントに基づいてダイアログデータを生成します(ダイアログデータ生成方法の微調整についてはLLMforDialogDataGenerateを参照してください)

3.pt トレーニング コードについては、supervised_finetuning.py を参照してください。

4. sft トレーニング コードについては、supervised_finetuning.py を参照してください。

マルチモーダルモデル

画像とテキスト間のきめ細かな対応は、マルチモーダルな複雑なシーン、特に複数の画像があり、画像の順序、絶対位置、相対位置が重要な複雑な環境では課題となります。画像の位置を正確に示し、画像表現とテキスト表現を区別するために、研究者は画像トークン(つまり<\image n>)を使用し、モデルでは複数の画像入力(<\image 1>、<\image 2>)を許可しています。

LLM の利点を最大限に活用するために、研究者は強力な LLM (Vicuna) をバックボーンとして使用しました。トレーニングプロセス中、言語モデル (LLM) とビジュアルエンコーダーのパラメータは固定され、LLM とビジュアルエンコーダー間の接続モジュール (Q-former) のパラメータは固定解除され、交通現場データセットで微調整されます。これにより、LLM とビジュアル エンコーダーの事前トレーニング済みの知識を活用しながら、交通マルチモーダル シナリオの特定のニーズに適応させることができます。

マルチモーダル モデルのトレーニングは、次の 3 つのステップで構成されます。

1. 事前トレーニング: 事前トレーニング済みのビジュアル エンコーダーと LLM は固定されたままで、Q-Former のみが LAION-400M のようなトレーニングを通じて、テキストに最も関連し、LLM によって説明されるビジュアル表現を学習する必要があります。

2. マルチモーダル命令の微調整: [InstructBLIP](https://github.com/salesforce/LAVIS/projects/instructblip)と同様に、マルチモーダル命令の微調整を実行して、VLM のパフォーマンスを向上させます。

3. マルチモーダルコンテキスト指示の微調整: データセットに対してマルチモーダルコンテキスト指示の微調整をさらに実行し、VLM の複数画像入力を処理する機能を有効にします。この段階では、マルチモーダル環境で LLM の優れた推論能力を最大限に発揮することが可能になります。

レビュー

研究者らは、トラフィックベンチマークのゼロショット評価を実施しました。

1. 交通安全教育:安全運転のアドバイス、交通ルールの説明など、交通安全教育資料を作成します。

2. 交通状況予測: ソーシャル メディアやニュース レポートからのテキスト情報を分析して、交通の流れ、交通渋滞、事故の可能性を予測します。

3. 事故報告と分析: 交通事故報告書を理解し、事故の原因の予備分析を提供します。

4. 交通計画: 交通計画の提案に対する一般からのフィードバックと意見を分析し、意思決定者により包括的な情報を提供します。

最後に

TransGPTは運輸業界のビッグモデルを主な原動力として、現代の情報技術を使用して、認識、通信、制御、意思決定、コラボレーションなどの機能を統合し、輸送施設、輸送ツール、輸送管理、輸送サービスのインテリジェンスを実現し、業界の生産効率とサービス品質を向上させ、運輸業界に大きな変化をもたらします。実際の応用業界シナリオからのフィードバックにより、運輸業界における大型モデルの技術的反復がさらに加速され、国内の大型輸送モデルの競争力が向上します。 「TransGPT総合交通モデル」は、「交通業界の専門家とエンジニア」に変身し、交通業界の政策立案者、実行者、エンジニア、運用・保守担当者、一般ユーザーとコミュニケーションをとり、協力し、サポートと補助機能を提供し、ソリューションの分析と意思決定の推奨を支援します。

北京交通大学は以前から交通の主線に深く関わっており、人工知能交通産業のビッグモデルの能力においてすでに一定の基礎を築き、一定の産業障壁、データ障壁、知識障壁を形成し、鉄道工学、道路工学、橋梁工学、トンネル工学、道路輸送、水上輸送、都市公共交通、交通経済、交通安全など交通産業のビッグモデルの優位性を徐々に強化してきました。

包括的な輸送モデルの誕生は単なる出発点に過ぎず、最終的には特定のセグメント化された輸送アプリケーション シナリオに基づくものになります。今後、チームはTransGPT総合交通モデルを基盤として、交通知識モデルを中心にリアルタイム情報をチャネルとし、自律予測、早期警報、プロアクティブサービスを備えた統合交通システムを構築し、交通参加者に多様なサービスを提供することで、人、車両、道路の相互作用を新たな形で表現し、リアルタイム、正確性、効率性、安全性、省エネの目標を達成します。

<<:  Amazon クラウド テクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティング パラダイムを構築できるようになりました。

>>:  ChatGPTの現在の時代では、ベクトルデータベースには大規模モデル用のスーパーブレインが搭載されています

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「理解する」シナリオ + 「理解する」テクノロジー: スマート交通で旅行が予測可能になる

【51CTO.comオリジナル記事】 [[337243]]よくよく数えてみると、一般的に誰もが悩まさ...

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...

【WOT2018】不正防止、電力、医療分野におけるAI技術の最先端実践

[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...

外国人大学生がAIモデルを発明:人間の目では真偽の判別が難しい中国の山水画を素早く生成できる

最近、プリンストン大学の学部生であるアリス・シューさんが卒業論文でプリンストン2020年度優秀卒業論...

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生...

待望のAIは人工知能か、それとも人工的な愚かさか?

[[399557]]人工知能という言葉が初めて世間の注目を集めたのは、1956 年にダートマス大学...

音声認識の次のピークは「人間の領域」でしょうか?

[[208154]]ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単...

米国は戦闘における人工知能の活用を推進し続けている

海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...

Megvii Technologyがロボット協調ネットワーク頭脳「Hetu」をリリース、エコシステムの改善に20億元を投資

現在、モノのインターネットの将来の発展方向は非常に明確であり、それが AIoT です。 AIは頭脳で...

10年後の市場規模は1.3兆ドル。「モデル電源時代」到来

半年以上にわたる大規模なモデル嵐の後、AIGC 市場には新たな変化が起こり始めました。クールな技術デ...

トリソララン人は救われた!ディープラーニングは三体問題を解決する

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

2020年のスマートセキュリティ技術の開発動向

インテリジェントセキュリティ技術とは、画像の取得、伝送、保存、ビデオ分析、ビッグデータ処理のほか、マ...