北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

半年以上にわたる好調なビジネスを経て、国内の大型モデル分野は中盤戦に突入し、長年垂直分野に深く関わってきた機関や企業は、業界特有の優位性を活かして大型モデル戦場に参入し始めました。

最近、北京交通大学は、中国コンピュータ学会のインテリジェント交通部門、祖智多模型公司と協力し、独自に開発した国内初の総合交通モデル「TransGPT Zhiyuan」を正式にリリースし、オープンソース化した。

プロジェクトアドレス: https://github.com/DUOMO/TransGPT

TransGPT Zhiyuan のトレーニングは、交通分野の約 346,000 件のテキストデータ (現場での事前トレーニングに使用) と交通分野の約 58,000 件の会話データ (微調整に使用) に基づいており、リアルタイムの APP アクセス (地図、公共交通機関、その他のアプリケーション) をサポートできます。現在、TransGPT Zhiyuan はオープンソース化されており、関連リソースは学術研究に完全に公開されているだけでなく、電子メールで申請して正式な商用ライセンスを取得した後、無料で商用目的に使用することもできます。

TransGPT は、一般的なマルチモーダル交通大型モデル製品とは異なり、交通状況予測、インテリジェントコンサルティングアシスタント、公共交通サービス、交通計画と設計、交通安全教育、支援管理、交通事故報告と分析、自動運転支援システムなどの機能を含め、実際の交通シナリオで実用的な役割を果たすことに主に重点を置いています。

特徴

「TransGPT 総合トラフィックモデル」の主な機能と特徴は次のとおりです。

1. 交通安全教育：交通ビッグモデルを使用して、安全運転のアドバイス、交通ルールの説明などの交通安全教育資料を作成できます。

2. インテリジェントな旅行アシスタント: 車載のインテリジェントなアシスタントは、大規模な交通モデルを使用して、より自然で複雑な会話を理解および生成し、ドライバーがルート情報、交通状況の更新、天気予報などを入手できるように支援します。列車番号、運賃、ルートなど、公共交通機関のサービスに関する質問に自動的に回答します。これにより、サービスの効率が向上し、乗客の体験が向上します。

3. インテリジェントな交通管理: 車両、道路、信号などの情報をリアルタイムで監視および分析することで、交通の流れをインテリジェントに調整し、交通渋滞を軽減します。ソーシャルメディアやニュースレポートからのテキスト情報を分析して、交通の流れ、交通渋滞、事故の可能性を予測します。同時に、このモデルは交通事故の履歴や特徴を分析し、交通事故の発生を減らすための適切な対策や計画を提供することができます。

4. スマートな交通計画: 交通ビッグモデルは、交通計画の提案に対する一般からのフィードバックや意見を分析し、意思決定者により包括的な情報を提供するのに役立ちます。

5. 交通事故の報告と分析: 交通ビッグモデルは、交通事故の報告を迅速に理解して分類し、事故の原因の予備分析を提供するのに役立ちます。

6. 交通政策研究: 大規模な交通モデルは、交通政策に関する一般のフィードバックを分析したり、交通政策の影響に関するレポートを生成したりするために使用できます。これにより、政策立案者は政策の実際の効果をよりよく理解できるようになります。

TransGPT輸送モデルはすでに、BIMモデル監査、インテリジェント運用と保守、インテリジェントコンサルティングなどのシナリオに適用できる能力を備えており、鉄道プロジェクトのデジタル変革とインテリジェント改善を大幅に促進します。ハン・ウェンジュアン氏のチームは、交通ビッグモデルはTransformerアーキテクチャに基づくテキストビッグモデル、マルチモーダルビッグモデル、リアルタイムシーンデータ呼び出し機能を採用し、包括的な交通ビッグモデルをインフラストラクチャとして、交通細分化された業界アプリケーションによって補完された全体的なアーキテクチャを形成していると紹介しました。運転計画、公共交通機関計画、（逆）ジオコーディングクエリなどのアプリケーションシナリオを含むリアルタイムアプリケーションをサポートし、鉄道輸送などの分野のデジタル変革とインテリジェントな改善を促進します。

データ

TransGPT の背後にある北京交通大学のチームは、長年にわたり交通業界に深く関わっており、データの障壁を形成しているため、包括的な交通モデルを構築する上で多くの固有の利点があります。そのデータコンテンツは、次の交通業界をカバーしています。

データソースには次のものが含まれます。

モデル

現在、オープンソースコンテンツには以下が含まれます。

モデル TransGPT
データセット TransGPT-DATA-sft (市販)
データセット TransGPT-DATA-pt (市販)

言語モデル

研究者らは、chinese-alpaca-plus-7b-hf モデルフレームワークに基づいて、包括的な交通モデルの言語モデルバージョンをトレーニングしました。一般ドメインの事前トレーニング、トラフィックドメインの事前トレーニング、教師あり微調整、報酬モデリング、強化学習トレーニングを実現しました。

トラフィックドメインでのトレーニングプロセスは次のとおりです。

1. オリジナルのpdf、docx、doc形式のファイルからテキストを抽出します

2. LLMを使用してドキュメントに基づいてダイアログデータを生成します（ダイアログデータ生成方法の微調整についてはLLMforDialogDataGenerateを参照してください）

3.pt トレーニングコードについては、supervised_finetuning.py を参照してください。

4. sft トレーニングコードについては、supervised_finetuning.py を参照してください。

マルチモーダルモデル

画像とテキスト間のきめ細かな対応は、マルチモーダルな複雑なシーン、特に複数の画像があり、画像の順序、絶対位置、相対位置が重要な複雑な環境では課題となります。画像の位置を正確に示し、画像表現とテキスト表現を区別するために、研究者は画像トークン（つまり<\image n>）を使用し、モデルでは複数の画像入力（<\image 1>、<\image 2>）を許可しています。

LLM の利点を最大限に活用するために、研究者は強力な LLM (Vicuna) をバックボーンとして使用しました。トレーニングプロセス中、言語モデル (LLM) とビジュアルエンコーダーのパラメータは固定され、LLM とビジュアルエンコーダー間の接続モジュール (Q-former) のパラメータは固定解除され、交通現場データセットで微調整されます。これにより、LLM とビジュアルエンコーダーの事前トレーニング済みの知識を活用しながら、交通マルチモーダルシナリオの特定のニーズに適応させることができます。

マルチモーダルモデルのトレーニングは、次の 3 つのステップで構成されます。

1. 事前トレーニング: 事前トレーニング済みのビジュアルエンコーダーと LLM は固定されたままで、Q-Former のみが LAION-400M のようなトレーニングを通じて、テキストに最も関連し、LLM によって説明されるビジュアル表現を学習する必要があります。

2. マルチモーダル命令の微調整: [InstructBLIP](https://github.com/salesforce/LAVIS/projects/instructblip)と同様に、マルチモーダル命令の微調整を実行して、VLM のパフォーマンスを向上させます。

3. マルチモーダルコンテキスト指示の微調整: データセットに対してマルチモーダルコンテキスト指示の微調整をさらに実行し、VLM の複数画像入力を処理する機能を有効にします。この段階では、マルチモーダル環境で LLM の優れた推論能力を最大限に発揮することが可能になります。

レビュー

研究者らは、トラフィックベンチマークのゼロショット評価を実施しました。

1. 交通安全教育：安全運転のアドバイス、交通ルールの説明など、交通安全教育資料を作成します。

2. 交通状況予測: ソーシャルメディアやニュースレポートからのテキスト情報を分析して、交通の流れ、交通渋滞、事故の可能性を予測します。

3. 事故報告と分析: 交通事故報告書を理解し、事故の原因の予備分析を提供します。

4. 交通計画: 交通計画の提案に対する一般からのフィードバックと意見を分析し、意思決定者により包括的な情報を提供します。

最後に

TransGPTは運輸業界のビッグモデルを主な原動力として、現代の情報技術を使用して、認識、通信、制御、意思決定、コラボレーションなどの機能を統合し、輸送施設、輸送ツール、輸送管理、輸送サービスのインテリジェンスを実現し、業界の生産効率とサービス品質を向上させ、運輸業界に大きな変化をもたらします。実際の応用業界シナリオからのフィードバックにより、運輸業界における大型モデルの技術的反復がさらに加速され、国内の大型輸送モデルの競争力が向上します。「TransGPT総合交通モデル」は、「交通業界の専門家とエンジニア」に変身し、交通業界の政策立案者、実行者、エンジニア、運用・保守担当者、一般ユーザーとコミュニケーションをとり、協力し、サポートと補助機能を提供し、ソリューションの分析と意思決定の推奨を支援します。

北京交通大学は以前から交通の主線に深く関わっており、人工知能交通産業のビッグモデルの能力においてすでに一定の基礎を築き、一定の産業障壁、データ障壁、知識障壁を形成し、鉄道工学、道路工学、橋梁工学、トンネル工学、道路輸送、水上輸送、都市公共交通、交通経済、交通安全など交通産業のビッグモデルの優位性を徐々に強化してきました。

包括的な輸送モデルの誕生は単なる出発点に過ぎず、最終的には特定のセグメント化された輸送アプリケーションシナリオに基づくものになります。今後、チームはTransGPT総合交通モデルを基盤として、交通知識モデルを中心にリアルタイム情報をチャネルとし、自律予測、早期警報、プロアクティブサービスを備えた統合交通システムを構築し、交通参加者に多様なサービスを提供することで、人、車両、道路の相互作用を新たな形で表現し、リアルタイム、正確性、効率性、安全性、省エネの目標を達成します。

<<: Amazon クラウドテクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティングパラダイムを構築できるようになりました。

>>: ChatGPTの現在の時代では、ベクトルデータベースには大規模モデル用のスーパーブレインが搭載されています