最近、天地FT-Data Rankerコンテストが終了し、天一クラウドインテリジェントエッジビジネスユニットのAIチーム(以下、天一クラウドAIチーム)は、大規模言語モデル(LLM)トレーニングデータ強化における優れた研究により、大規模言語モデル微調整データコンテスト-7Bモデルトラックで優勝しました。 FT-Data Rankerコンペティションは、大規模言語モデル研究のためのデータ中心のコンペティションで、北京大学やHantecを含む著名な大学、研究機関、企業から約400の優秀なチームが参加しました。天一クラウドは激しい競争の中で際立っており、強力な技術革新能力を発揮しました。 データは、大規模言語モデル (LLM) の機能を構築する上で重要な役割を果たします。データセットのより優れた構築と処理は、大規模言語モデルの分野での研究の焦点となっています。このコンペティションの核心は、データセットの品質を独立して正確に評価・改善し、ベンチマーク主導のデータ開発プロセスの形成を加速し、大規模言語モデルのデータ処理能力を強化し、データ品質とデータ最適化に関する分野の理解を深めることです。このコンテストでは、微調整段階のデータに特に重点が置かれ、参加者は元のデータセットをクリーンアップ、フィルタリング、強化し、新しいデータセットを使用して特定のモデルを微調整し、テスト セットでパフォーマンスをランク付けする必要があります。 コンテストの総合選抜タスクでは、天一雲AIチームが独自にデータ処理フローを構築し、複数の文書重複除去と文字列フィルタリング演算子を使用して低品質の大規模なオリジナルコーパスを処理し、高品質のモデルトレーニングデータを取得しました。同時に、テキスト要約タスクでは、天一雲AIチームはパラダイム転送(Paradigm Transfer)とモデル能力蒸留(Distillation)の方法を革新的に採用し、生成モデルを使用してオリジナルコーパス内の質問と回答を要約データとして処理および移行し、モデルのランダム性を0に設定して、トレーニングデータを間接的に拡張しました。上記の方法と戦略に基づいて、チームは元のコーパスに基づいて豊富で多様なタスクトレーニングセットを構築し、モデルが競争タスクをよりよく学習して理解できるようにしました。この計画の革新性と実用性は審査員から高く評価されました。 このコンテストでチームが使用した大規模言語モデルトレーニングデータ強化技術は、天一クラウドチームのモデル開発・制作業務で広く活用されています。例えば、天一クラウドの政務ビッグモデル「匯澤」の研究開発では、トレーニングデータ強化戦略とアルゴリズムを幅広く採用することで、モデルのさまざまな機能が向上しました。これにより、「匯澤」は包括的な政務知識、強力な意図理解能力、幅広い応用、安全性と信頼性などの利点を備え、政策相談、政務指導、12345席支援、スマートオフィスなどのシーンを効率的に強化し、都市ガバナンスのレベル向上に貢献します。 天一クラウドは今後も人工知能関連技術と実用化の革新を推進し、より包括的でインテリジェントな製品とサービスで数千の業界のデジタル変革を実現していきます。 |
<<: word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった
>>: OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
生成 AI は、インターネット上の重要なコンテンツ ソースとなっています。AI によって生成されたテ...
[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
10月10日、人工知能チャットボットChatGPTのモバイル分野での取り組みは大きな成果をもたらし...
AI とエッジ コンピューティングの融合により、多くの業界が変革されるでしょう。移植性を向上させ、モ...
序文多くの人は、BitMap は文字通りビットマップを意味すると考えています。実際、より正確には、ビ...
「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...
以前にも似たような質問に回答したことがありますが、コメント欄には大きな意見の相違があります。自動運転...
最近、Deepin OS 20.05がリリースされ、追加された顔認識機能がコミュニティの注目を集めて...
[[342701]] スマートホーム革命はかなり前から本格化しています。住宅所有者はデータと IoT...