最近、天地FT-Data Rankerコンテストが終了し、天一クラウドインテリジェントエッジビジネスユニットのAIチーム(以下、天一クラウドAIチーム)は、大規模言語モデル(LLM)トレーニングデータ強化における優れた研究により、大規模言語モデル微調整データコンテスト-7Bモデルトラックで優勝しました。 FT-Data Rankerコンペティションは、大規模言語モデル研究のためのデータ中心のコンペティションで、北京大学やHantecを含む著名な大学、研究機関、企業から約400の優秀なチームが参加しました。天一クラウドは激しい競争の中で際立っており、強力な技術革新能力を発揮しました。 データは、大規模言語モデル (LLM) の機能を構築する上で重要な役割を果たします。データセットのより優れた構築と処理は、大規模言語モデルの分野での研究の焦点となっています。このコンペティションの核心は、データセットの品質を独立して正確に評価・改善し、ベンチマーク主導のデータ開発プロセスの形成を加速し、大規模言語モデルのデータ処理能力を強化し、データ品質とデータ最適化に関する分野の理解を深めることです。このコンテストでは、微調整段階のデータに特に重点が置かれ、参加者は元のデータセットをクリーンアップ、フィルタリング、強化し、新しいデータセットを使用して特定のモデルを微調整し、テスト セットでパフォーマンスをランク付けする必要があります。 コンテストの総合選抜タスクでは、天一雲AIチームが独自にデータ処理フローを構築し、複数の文書重複除去と文字列フィルタリング演算子を使用して低品質の大規模なオリジナルコーパスを処理し、高品質のモデルトレーニングデータを取得しました。同時に、テキスト要約タスクでは、天一雲AIチームはパラダイム転送(Paradigm Transfer)とモデル能力蒸留(Distillation)の方法を革新的に採用し、生成モデルを使用してオリジナルコーパス内の質問と回答を要約データとして処理および移行し、モデルのランダム性を0に設定して、トレーニングデータを間接的に拡張しました。上記の方法と戦略に基づいて、チームは元のコーパスに基づいて豊富で多様なタスクトレーニングセットを構築し、モデルが競争タスクをよりよく学習して理解できるようにしました。この計画の革新性と実用性は審査員から高く評価されました。 このコンテストでチームが使用した大規模言語モデルトレーニングデータ強化技術は、天一クラウドチームのモデル開発・制作業務で広く活用されています。例えば、天一クラウドの政務ビッグモデル「匯澤」の研究開発では、トレーニングデータ強化戦略とアルゴリズムを幅広く採用することで、モデルのさまざまな機能が向上しました。これにより、「匯澤」は包括的な政務知識、強力な意図理解能力、幅広い応用、安全性と信頼性などの利点を備え、政策相談、政務指導、12345席支援、スマートオフィスなどのシーンを効率的に強化し、都市ガバナンスのレベル向上に貢献します。 天一クラウドは今後も人工知能関連技術と実用化の革新を推進し、より包括的でインテリジェントな製品とサービスで数千の業界のデジタル変革を実現していきます。 |
<<: word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった
>>: OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます
最近、世界で最も権威のあるIT市場調査およびコンサルティング会社であるガートナーは、新しいテクノロジ...
テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...
ちょうど今、マスク氏は、ニューラリンクインプラントを装着した最初の人間患者が、思考によってコンピュー...
機械学習では、製品やソリューションを構築する方法が多数あり、それぞれが異なることを前提としています。...
最近発表された産業用人工知能および人工知能市場レポート 2021-2026 のデータによると、わずか...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
9 月 13 日、Microsoft は Windows 11 ビルド 22621.2338 および...
近年、生成的事前トレーニング済みモデル (GPT など) の台頭により、自然言語処理の分野に革命が起...
負荷分散とは負荷分散(英語名は Load Balance)とは、複数のサーバーを対称的に構成したサー...
11月30日、エヌビディアのCEOジェンスン・フアン氏は水曜日に開催されたニューヨーク・タイムズの年...
モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...
[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...
通常の「道路の汚れ」でも、インテリジェントな自動運転車を混乱させ、1 秒以内に制御を失い車線から外れ...