10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

このオープンソース プロジェクトがあれば、適切な中国語 NLP データセットが見つからないと心配する必要がなくなります。142 のデータセットがあるので、必ず自分に合ったものが見つかります。

[[316857]]

中国語 NLP データセット検索: https://www.cluebenchmarks.com/dataSet_search.html

NLP 学習におけるこの後戻りできない道では、最も高度なアルゴリズムと高品質のサンプルコードでは常に英語のデータセットが使用されていることがわかります。しかし、モデルを中国世界に移行したいと考えたとき、公開されている高品質のデータセットの不足が克服できない障害となりました。たとえば、最も単純な言語モデルと単語埋め込みモデルでは、自然な中国語のテキストのセグメントのみが必要です。しかし、実際には、有用な大規模な公開コーパスはほとんどないことがわかります。

GitHub などのプラットフォームで中国語 NLP データセットを収集するさまざまなプロジェクトを見つけて、ニーズに応じて選択する必要があります。注目すべきは、中国国内のデータセットの多くは非常に古く、その使用はより面倒であるということです。現時点では、私たち自身の判断と試行錯誤が必要です。

しかし、この記事では、現時点で最も包括的な中国語 NLP データセット情報収集プロジェクトとなる可能性のある、新しい中国語 NLP データ検索プロジェクトを紹介します。このプロジェクトでは、100 件を超える中国語 NLP データ情報を収集し、その結果を検索形式で表示しました。キーワードやデータセットが属する分野などの情報を入力するだけで、対応するデータセットを見つけることができます。

各検索結果には、データセットの基本情報やアクセス リンクなどの重要な情報が表示されるため、データセットをすばやくフィルター処理できます。各分野には類似したデータセットが多数存在するため、これらの簡単な説明は非常に有意義です。

利用可能なデータセットを確認したい場合は、すべてのデータセットに関する情報が掲載されている検索プロジェクトの GitHub アドレスを直接確認できます。

これは非常に完全な中国語NLPデータセットです

このプロジェクトの NLP データセットには、NER、QA、感情分析、テキスト分類、テキスト割り当て、テキスト要約、機械翻訳、ナレッジグラフ、コーパス、読解など、10 のカテゴリの 142 のデータセットが含まれています。

具体的には、各データセットについて、プロジェクト作成者はデータセット名、更新時間、データセットプロバイダー、説明、キーワード、カテゴリ、論文アドレスなどの情報を提供します。

プロジェクトアドレス: https://github.com/CLUEbenchmark/CLUEDatasetSearch

このプロジェクトは、中国語の NLP データセットを分類します。

ただし、プロジェクト全体には多くの種類のデータセットが含まれているため、Synced では感情分析データセットとテキスト分類データセットについてのみ簡単に紹介します。

感情分析

自然言語処理 (NLP) の一般的なアプリケーションとして、感情分析は、テキストの感情的な内容を抽出することを目的とした分類方法に特に適しています。このプロジェクトでは、NLPCC 2013/2014、Weibo Emotions Corpus、Zhijiang Cup E-commerce Comment Mining Competition、2019 Sohu Campus Algorithm Competition データセットなど、11 の感情分析データセットのソースを紹介します。

プロジェクト内の中国語感情分析データセットの詳細。

テキスト分類

自然言語処理で最も一般的に使用される基本的なアプリケーションとして、テキスト分類用のデータセットはすでに多数存在します。このプロジェクトでは、Toutiao 中国語ニュース (テキスト) 分類、THUCNews 中国語テキスト分類、2017 Zhihu Kanshan Cup 機械学習チャレンジ、USTC ニュース分類コーパスなど、19 のテキスト分類データセットのソースを紹介します。

プロジェクト内のいくつかのテキスト分類データセットの詳細。

最後に、開発者はデータセット情報をアップロードして、自分の強みを発揮することもできます。5つ以上のデータセット情報をアップロードすると、審査に合格した後、このプロジェクトの貢献者になることができます。現時点では、142 のデータセットはすでに非常に完成しているようですが、より多くの NLP サブフィールド タスクについては、それらをまとめて維持する必要があります。

<<:  流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

>>:  脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

農業ロボットは好機を迎え、10億ドル規模のビジネスになりつつある

最近、国連経済社会局は「世界人口見通し2022」を発表しました。この報告書によると、世界の人口は20...

...

人工知能とビッグデータとは何ですか?彼らの間にはどのような関係があるのでしょうか?

ビッグデータとは、従来のソフトウェアツールでは一定期間内に収集、管理、処理できないデータの集合を指し...

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えら...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

...

...

Facebook は顔認識を中止することで本当にリスクを回避しているのでしょうか?人種差別は致命的である

名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...

警告! AIによる偽動画で顔認証を騙し、銀行口座開設が可能になる可能性

共同通信社のウェブサイトの最近の報道によると、日立製作所の研究チームが人工知能学会で論文を発表した。...

ChatGPTの10の実用的なビジネスユースケース

ChatGPT のビジネスユースケースは数多く登場していますが、組織は自社の特定のニーズに最適なシナ...

リスト管理?機械学習のためのデータセット

[[440033]]データが機械学習において重要な役割を果たすことは否定できません。各機械学習モデル...

世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ディープラーニング Pytorch フレームワーク Tensor

[[433522]] 1 テンソル刈り込み操作テンソル内の要素を範囲でフィルタリングする勾配クリッ...

...