10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

このオープンソース プロジェクトがあれば、適切な中国語 NLP データセットが見つからないと心配する必要がなくなります。142 のデータセットがあるので、必ず自分に合ったものが見つかります。

[[316857]]

中国語 NLP データセット検索: https://www.cluebenchmarks.com/dataSet_search.html

NLP 学習におけるこの後戻りできない道では、最も高度なアルゴリズムと高品質のサンプルコードでは常に英語のデータセットが使用されていることがわかります。しかし、モデルを中国世界に移行したいと考えたとき、公開されている高品質のデータセットの不足が克服できない障害となりました。たとえば、最も単純な言語モデルと単語埋め込みモデルでは、自然な中国語のテキストのセグメントのみが必要です。しかし、実際には、有用な大規模な公開コーパスはほとんどないことがわかります。

GitHub などのプラットフォームで中国語 NLP データセットを収集するさまざまなプロジェクトを見つけて、ニーズに応じて選択する必要があります。注目すべきは、中国国内のデータセットの多くは非常に古く、その使用はより面倒であるということです。現時点では、私たち自身の判断と試行錯誤が必要です。

しかし、この記事では、現時点で最も包括的な中国語 NLP データセット情報収集プロジェクトとなる可能性のある、新しい中国語 NLP データ検索プロジェクトを紹介します。このプロジェクトでは、100 件を超える中国語 NLP データ情報を収集し、その結果を検索形式で表示しました。キーワードやデータセットが属する分野などの情報を入力するだけで、対応するデータセットを見つけることができます。

各検索結果には、データセットの基本情報やアクセス リンクなどの重要な情報が表示されるため、データセットをすばやくフィルター処理できます。各分野には類似したデータセットが多数存在するため、これらの簡単な説明は非常に有意義です。

利用可能なデータセットを確認したい場合は、すべてのデータセットに関する情報が掲載されている検索プロジェクトの GitHub アドレスを直接確認できます。

これは非常に完全な中国語NLPデータセットです

このプロジェクトの NLP データセットには、NER、QA、感情分析、テキスト分類、テキスト割り当て、テキスト要約、機械翻訳、ナレッジグラフ、コーパス、読解など、10 のカテゴリの 142 のデータセットが含まれています。

具体的には、各データセットについて、プロジェクト作成者はデータセット名、更新時間、データセットプロバイダー、説明、キーワード、カテゴリ、論文アドレスなどの情報を提供します。

プロジェクトアドレス: https://github.com/CLUEbenchmark/CLUEDatasetSearch

このプロジェクトは、中国語の NLP データセットを分類します。

ただし、プロジェクト全体には多くの種類のデータセットが含まれているため、Synced では感情分析データセットとテキスト分類データセットについてのみ簡単に紹介します。

感情分析

自然言語処理 (NLP) の一般的なアプリケーションとして、感情分析は、テキストの感情的な内容を抽出することを目的とした分類方法に特に適しています。このプロジェクトでは、NLPCC 2013/2014、Weibo Emotions Corpus、Zhijiang Cup E-commerce Comment Mining Competition、2019 Sohu Campus Algorithm Competition データセットなど、11 の感情分析データセットのソースを紹介します。

プロジェクト内の中国語感情分析データセットの詳細。

テキスト分類

自然言語処理で最も一般的に使用される基本的なアプリケーションとして、テキスト分類用のデータセットはすでに多数存在します。このプロジェクトでは、Toutiao 中国語ニュース (テキスト) 分類、THUCNews 中国語テキスト分類、2017 Zhihu Kanshan Cup 機械学習チャレンジ、USTC ニュース分類コーパスなど、19 のテキスト分類データセットのソースを紹介します。

プロジェクト内のいくつかのテキスト分類データセットの詳細。

最後に、開発者はデータセット情報をアップロードして、自分の強みを発揮することもできます。5つ以上のデータセット情報をアップロードすると、審査に合格した後、このプロジェクトの貢献者になることができます。現時点では、142 のデータセットはすでに非常に完成しているようですが、より多くの NLP サブフィールド タスクについては、それらをまとめて維持する必要があります。

<<:  流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

>>:  脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

ブログ    
ブログ    

推薦する

専門家の視点:量子コンピューティングの開発動向

量子コンピューティングとは、量子理論の原理に基づいたコンピューター技術の開発に焦点を当てた研究分野を...

人工知能とモノのインターネットはどこへ向かうのでしょうか?

モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...

...

水に溶けるロボットを見たことがありますか?ゼラチンと砂糖の3Dプリント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

数十年にわたる開発を経て、工場現場、銀行支店、製油所など、ほとんどの業界で自動化が見られるようになり...

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。最近、CMU...

中国が米国を追い落とすのに40年かかり、特許申請は20年間で200倍に増加した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...

機械学習でサンプルが不均衡な場合はどうすればよいでしょうか?

銀行が新規顧客が債務不履行になるかどうかを判断する際、債務不履行にならない顧客と債務不履行になる顧客...

まだ人工知能を理解していないのですね?チューリングに「直接」説明してもらってはいかがでしょうか?

[[335755]]タイムトラベルの超能力を与えられたら、どの歴史上の人物と話をして過去に戻りたい...

...

...

数量を増やして価格を下げます! OpenAIが史上最強のChatGPTをリリース。誰でもGPTをカスタマイズ可能。GPTストアは今月開始予定

まもなく、すべての GPT コレクションが GPT ストアを通じてアクセスできるようになります。はい...