このオープンソース プロジェクトがあれば、適切な中国語 NLP データセットが見つからないと心配する必要がなくなります。142 のデータセットがあるので、必ず自分に合ったものが見つかります。
中国語 NLP データセット検索: https://www.cluebenchmarks.com/dataSet_search.html NLP 学習におけるこの後戻りできない道では、最も高度なアルゴリズムと高品質のサンプルコードでは常に英語のデータセットが使用されていることがわかります。しかし、モデルを中国世界に移行したいと考えたとき、公開されている高品質のデータセットの不足が克服できない障害となりました。たとえば、最も単純な言語モデルと単語埋め込みモデルでは、自然な中国語のテキストのセグメントのみが必要です。しかし、実際には、有用な大規模な公開コーパスはほとんどないことがわかります。 GitHub などのプラットフォームで中国語 NLP データセットを収集するさまざまなプロジェクトを見つけて、ニーズに応じて選択する必要があります。注目すべきは、中国国内のデータセットの多くは非常に古く、その使用はより面倒であるということです。現時点では、私たち自身の判断と試行錯誤が必要です。 しかし、この記事では、現時点で最も包括的な中国語 NLP データセット情報収集プロジェクトとなる可能性のある、新しい中国語 NLP データ検索プロジェクトを紹介します。このプロジェクトでは、100 件を超える中国語 NLP データ情報を収集し、その結果を検索形式で表示しました。キーワードやデータセットが属する分野などの情報を入力するだけで、対応するデータセットを見つけることができます。 各検索結果には、データセットの基本情報やアクセス リンクなどの重要な情報が表示されるため、データセットをすばやくフィルター処理できます。各分野には類似したデータセットが多数存在するため、これらの簡単な説明は非常に有意義です。 利用可能なデータセットを確認したい場合は、すべてのデータセットに関する情報が掲載されている検索プロジェクトの GitHub アドレスを直接確認できます。 これは非常に完全な中国語NLPデータセットですこのプロジェクトの NLP データセットには、NER、QA、感情分析、テキスト分類、テキスト割り当て、テキスト要約、機械翻訳、ナレッジグラフ、コーパス、読解など、10 のカテゴリの 142 のデータセットが含まれています。 具体的には、各データセットについて、プロジェクト作成者はデータセット名、更新時間、データセットプロバイダー、説明、キーワード、カテゴリ、論文アドレスなどの情報を提供します。 プロジェクトアドレス: https://github.com/CLUEbenchmark/CLUEDatasetSearch このプロジェクトは、中国語の NLP データセットを分類します。 ただし、プロジェクト全体には多くの種類のデータセットが含まれているため、Synced では感情分析データセットとテキスト分類データセットについてのみ簡単に紹介します。 感情分析 自然言語処理 (NLP) の一般的なアプリケーションとして、感情分析は、テキストの感情的な内容を抽出することを目的とした分類方法に特に適しています。このプロジェクトでは、NLPCC 2013/2014、Weibo Emotions Corpus、Zhijiang Cup E-commerce Comment Mining Competition、2019 Sohu Campus Algorithm Competition データセットなど、11 の感情分析データセットのソースを紹介します。 プロジェクト内の中国語感情分析データセットの詳細。 テキスト分類 自然言語処理で最も一般的に使用される基本的なアプリケーションとして、テキスト分類用のデータセットはすでに多数存在します。このプロジェクトでは、Toutiao 中国語ニュース (テキスト) 分類、THUCNews 中国語テキスト分類、2017 Zhihu Kanshan Cup 機械学習チャレンジ、USTC ニュース分類コーパスなど、19 のテキスト分類データセットのソースを紹介します。 プロジェクト内のいくつかのテキスト分類データセットの詳細。 最後に、開発者はデータセット情報をアップロードして、自分の強みを発揮することもできます。5つ以上のデータセット情報をアップロードすると、審査に合格した後、このプロジェクトの貢献者になることができます。現時点では、142 のデータセットはすでに非常に完成しているようですが、より多くの NLP サブフィールド タスクについては、それらをまとめて維持する必要があります。 |
<<: 流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる
>>: 脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド
この「横歩き」マイクロロボットはとってもかわいいです!サイエンス・ロボティクス誌5月号に、サブミリメ...
多くの企業は、顧客エンゲージメントと収益を向上させるための会話型 AI の重要性を急速に認識し始めて...
小売業界は、経済の逆風と消費者の期待の高まりによる圧力の増大に直面しています。消費者のニーズと現在の...
チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...
新たな科学技術革命と産業変革が加速する中、デジタル技術がもたらす成長の配当をすべての人がいかに共有で...
Baidu Smart Cloud は、「クラウドとインテリジェンスの統合」という独自の利点により...
[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...
AlphaGoとイ・セドルの戦いの後、ディープラーニング技術は国内で非常に人気が高まった。多くの技術...
Tinygrad は、ニューラル ネットワークを理解して実装するためのシンプルで直感的なアプローチ...