100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

[[228774]]

ビッグデータ概要

編集者: Wanjun、VVN、Zhang Lijun、Yunzhou

ここに、100 を超えるオープン ソースの自然言語処理テキスト データセット (生の非構造化テキスト データ) のアルファベット順リストがあります。データをダウンロードして、自分で調べてみましょう。

データセット

1. Apache Software Foundation 公開電子メール アーカイブ: 2011 年 7 月 11 日時点で公開されている Apache Software Foundation のすべての電子メール アーカイブ。 (200GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2. Blogger オリジナル コーパス: 2004 年 8 月に blogger.com から収集された 19,320 人のブロガーの投稿が含まれています。 681,288 件の投稿と 140 万語以上。 (298MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. Amazon Food Reviews [Kaggle]: 2012 年 10 月以前に Amazon ユーザーが投稿した 568,454 件の食品レビューが含まれています。 (240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4. Amazon レビュー: スタンフォードは 3,500 万件の Amazon レビューを収集しました。 (11GB)

https://snap.stanford.edu/data/web-Amazon.html

5. ArXiv: 収録されているすべての論文の全文(270GB)+ ソースファイル(190GB)

http://arxiv.org/help/bulk_data_s3

6. ASAP Automatic Essay Scoring [Kaggle]:このコンペティションには 8 つのエッセイ集があります。各エッセイは、単一のプロンプトに対する応答から生成されます。選ばれたエッセイの長さは 150 語から 550 語の範囲です。エッセイの中には、情報源に依存するものもあれば、そうでないものもあります。すべてのエッセイは7年生から10年生の生徒によって書かれています。すべてのエッセイは二重採点システムを使用して手動で採点されます。 (100MB)

https://www.kaggle.com/c/asap-aes/data

7. ASAP Short Answer Scoring [Kaggle]: 各データセットは、単一のプロンプトに対する応答から生成されます。選択された回答の平均長さは 50 語でした。一部の応答はソース情報に依存しますが、他の応答は依存しません。すべての回答は10年生の生徒によって書かれました。すべての回答は二重採点システムを使用して手動で採点されました。 (35MB)

https://www.kaggle.com/c/asap-sas/data

8. 政治ソーシャル メディアの分類: 政治家のソーシャル メディア メッセージを内容別に分類します。 (4MB)

https://www.crowdflower.com/data-for-everyone/

9. CLiPS Stylistics Investigation (CSI) コーパス: 記事とレビューの 2 種類の学生の文章が毎年拡張されます。このコーパスの目的は主に文体研究ですが、他の研究にももちろん使用できます。 (データセットは申請により取得する必要があります)

http://www.clips.uantwerpen.be/datasets/csi-corpus

10. ClueWeb09 FACC: Freebase アノテーション付き ClueWeb09 (72GB)

http://lemurproject.org/clueweb09/FACC1/

11. ClueWeb11 FACC: Freebase アノテーション付き ClueWeb11 (92GB)

http://lemurproject.org/clueweb12/FACC1/

12. Common Crawler Corpus: 50 億以上の Web ページ (541 TB) のクローラー データで構成されています。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

13. コーネル映画ダイアログコーパス: オリジナルの映画脚本から抽出された豊富なメタデータダイアログのコレクション: 617 本の映画から 10,292 組の登場人物間の 220,579 の会話。 (9.5MB)

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

14. ビジネス情報: 企業がソーシャル メディアで話題にしている内容を分類します。ボランティアは、企業の声明を情報提供型(企業またはその活動に関する客観的な声明)、会話型(ユーザーへの返信など)、または実行可能型(投票を依頼したり、ユーザーにリンクをクリックするよう依頼するメッセージなど)に分類するよう求められました。 (600KB)

http://aws.amazon.com/de/datasets/common-crawl-corpus/

15. Crosswikis: 英語のフレーズとWikipediaの記事をリンクするデータベース。 (11GB)

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

16. Wikipedia から構造化された情報を抽出し、その情報を Web 上で利用できるようにするための Web コミュニティによる共同作業。 (17GB)

http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

17. 死刑囚監房:1984年以降に処刑されたすべての受刑者の最後の言葉。 (HTML テーブル)

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

18. Del.icio.us: delicious.com のブックマーク数は 125 万件。

翻訳元:

19. ソーシャル メディア上の災害に関するツイート: 災害イベントに関係しているかどうかが注釈として付けられた 10,000 件のツイート。 (2MB)

https://www.crowdflower.com/data-for-everyone/

20. 経済ニュース記事: ニュース記事が米国経済に関連しているかどうかを判断します。関連している場合は、記事のトーンがどのようなものかを判断します。期間は 1951 年から 2014 年までです。 (12MB)

https://www.crowdflower.com/data-for-everyone/

21. エンロンの電子メールデータ: 151 人のマネージャーを対象とした 1,227,255 件の電子メールと 493,384 個の添付ファイルが含まれています。 (210GB)

http://aws.amazon.com/de/datasets/enron-email-data/

22. イベント登録: 世界中の 100,000 のメディアからのニュース記事にリアルタイムでアクセスできる無料ツール。 APIインターフェースがあります。 (クエリツール)

イベントレジストリ

23. Examiner.com — ニュースの見出しフィッシング スパム [Kaggle]: 現在は閉鎖されたフィッシング サイト The Examiner が 2010 年から 2015 年にかけて公開した、クラウドソーシングによる 300 万件のニュースの見出し。 (200MB)

https://www.kaggle.com/therohk/examine-the-examiner

24. 連邦調達データ センター (USASpending.gov) からの連邦契約: USASpending.gov の連邦調達データ センターからのすべての連邦契約のデータベース。 (180GB)

詳しくは、https://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/ をご覧ください。

25. Flickr 個人分類: 個人タグのツリー構造データセット。 (40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

26. Freebase データベース: Freebase の現在のすべての事実と推論のデータベース (26 GB)

フリーベースデータダンプ

27. Freebase シンプルトピック: Freebase 内の各トピックに関する基本的な識別可能な事実のデータベース (5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

28. Freebase Quadbase: Freebase [LZ1] の現在のすべての事実と推論のデータベース。 (35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

29. GigaOM Wordpress チャレンジ [Kaggle]: ブログ投稿、メタデータ、ユーザー設定。 (1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

30. Google ブックスの n-gram: Amazon S3 で hadoop 形式のファイルとしても利用できます。 (2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

31. Google Web 5-grams: 英語の単語の n-gram シーケンスとその観測頻度カウント (24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

32. Gutenberg 電子書籍リスト: 注釈付き電子書籍リスト (2MB)

http://www.gutenberg.org/wiki/Gutenberg:オフラインカタログ

33. カナダ議会のテキスト ブロック: カナダ第 36 議会の公式記録 (Hansards) からの 130 万の標準テキスト ブロック (文または小さな断片)。 (82MB)

http://www.isi.edu/natural-language/download/hansard/

34. ハーバード大学図書館: ハーバード大学図書館のコレクションに所蔵されている書籍、雑誌、電子リソース、原稿、アーカイブ資料、楽譜、オーディオ、ビデオ、その他の資料を含む 1,200 万冊以上の資料の書誌レコード。 (4ギガバイト)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

35. ヘイトスピーチの識別: ボランティアは短いテキストを確認し、a) ヘイトスピーチが含まれているか、b) 不快ではあるがヘイトスピーチではないか、c) まったく不快ではないかを判断します。約 15,000 行が含まれており、各テキスト文字列には 3 人のボランティア審査員がいます。 (3MB)

https://github.com/t-davidson/hate-speech-and-offensive-language

36. ヒラリー・クリントンの電子メール [Kaggle]: クリントンの電子メール約 7,000 ページをまとめました。 (12MB)

https://www.kaggle.com/kaggle/hillary-clinton-emails

37. Home Depot 製品検索相関 [Kaggle]: Home Depot Web サイトからの多くの製品と顧客の検索用語が含まれています。課題は、検索用語と製品の組み合わせの関連性スコアを予測することです。グラウンドトゥルースラベルを作成するために、ホームデポは検索/製品のペアを複数の評価者にクラウドソーシングしました。 (65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

38. テキスト内のキーフレーズ(質問/回答のペアとテキストの構成)を特定し、文脈テキストが質問/回答に関連しているかどうかを判断します。 (8MB)

https://www.crowdflower.com/data-for-everyone/

39. アメリカのテレビ番組「Jeopardy」: 過去の「Jeopardy」番組からの 216,930 問のコレクション。 (53MB)

http://www.reddit.com/r/datasets/comments/1u​​yd0t/200000_jeopardy_questions_in_a_json_file/

40. 200k English Plaintext Jokes: さまざまなソースからの 208,000 個のプレーンテキスト ジョークのアーカイブ。

https://github.com/taivop/joke-dataset より

41. ヨーロッパ言語機械翻訳: (612MB)

http://statmt.org/wmt11/translation-task.html#download

42. 製品安全データシート: 230000 製品安全データシート。 (3GB)

マテリアルセーフティデータシート

43. 百万件のニュースの見出し - ABC オーストラリア [Kaggle]: 2003 年から 2017 年にかけて ABC ニュース オーストラリアが公開した 130 万件のニュースの見出し。 (56MB)

https://www.kaggle.com/therohk/million-headlines

44. MCTest: テキストマシンの理解と質問応答を研究するために使用できる 660 のストーリーと関連する質問の無料で入手可能なコレクション (1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

45. Negra: ドイツの新聞テキストの文法的注釈付きコーパス。すべての大学および非営利団体で無料でご利用いただけます。取得するには契約書に署名し、申請書を送付する必要があります。

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

46. ニュースの見出し — Times of India [Kaggle]: 2001 年から 2017 年にかけて Times of India が発行した 270 万件のニュースの見出し。 (185MB)

https://www.crowdflower.com/data-for-everyone/

47. ニュース記事と Wikipedia ページのペアリング: ボランティアは短い記事を読み、それに最もよく一致する 2 つの Wikipedia 記事を尋ねられました。 (6MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

48. 2015 NIPS 論文 (バージョン 2) [Kaggle]: 2015 NIPS 論文の全文。 (335MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

49. New York Times の Facebook データ: New York Times のすべての Facebook 投稿。 (5MB)

http://minimaxir.com/2015/07/facebook-scraper/

50. Global News Weekly Feed [Kaggle]:2017年8月の1週間に世界中で20以上の言語で公開された140万件のニュースイベントのデータセット。 (115MB)

https://www.kaggle.com/therohk/global-news-week

51. 文と概念のペアの正確さ: ボランティアは 2 つの概念に関する文を読みます。たとえば、「犬は動物です」や「船長は所有者と同じ意味を持ちます」など、文章が正しいかどうかを尋ねられ、1〜5の評価が下されました。 (700KB)

https://www.crowdflower.com/data-for-everyone/

52. 公共図書館データベース: 公共図書館内のすべてのレコードに対する変更のコレクション。 (16ギガバイト)

https://openlibrary.org/developers/dumps

53. キャラクターコーパス: スタイルと性格の予測に関する実験のための著者による記事のコレクション。これは 145 人の学生による 145 件のオランダ語の記事で構成されています。 (申込み必要)

http://www.clips.uantwerpen.be/datasets/personae-corpus

54. Reddit コメント: 2015 年 7 月時点の Reddit フォーラム上のすべての公開コメント。合計17億件のコメント。 (250GB)

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

55. Reddit コメント (2015 年 5 月): Kaggle サブデータセット (8GB)

https://www.kaggle.com/reddit/reddit-comments-may-2015

56. Reddit 投稿コーパス: 2006 年 1 月から 2015 年 8 月 31 日までの間に公開されたすべての Reddit 投稿。 (42GB)

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

57. ロイターコーパス: 自然言語処理、情報検索、機械学習システムの研究開発のためのロイターのニュースレポートを含むデータセット。このコーパスは「Reuters Quotes 1」または RCV1 とも呼ばれ、テキスト分類で広く使用されている有名な Reuters 21578 データセットよりもはるかに大きいです。コーパスデータは、契約書に署名して電子メールを送信することによって取得する必要があります。 (2.5GB)

https://trec.nist.gov/data/reuters/reuters.html

58. SaudiNewsNet: サウジアラビアのさまざまなオンライン新聞から抽出された 31,030 件の見出しとメタデータ。 (2MB)

https://github.com/ParallelMazen/SaudiNewsNet

59. スパム SMS データセット: 正当/違法としてマークされ、エンコードされていない実際の英語 SMS メッセージ 5574 件。 (200KB)

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

60. サウスパーク データセット: シーズン、エピソード、キャラクター、セリフのスクリプト情報を含む CSV ファイル。 (3.6MB)

https://github.com/BobAdamsEE/SouthParkData

61. Stackoverflow: StackOverflow およびその他の StackExchange 上の 730 万件の質問と回答 (Q&A ツール)。

http://data.stackexchange.com/

62. Cheng-Caverlee-lee Twitter ユーザー位置情報データセット: 2009 年 9 月から 2010 年 1 月までのツイート位置情報。 (400MB)

https://archive.org/details/twitter_cikm_2010

63. ニューイングランド・ペイトリオッツの「空気抜け」事件に関する Twitter の感情: 2015 年のスーパーボウルの前に、空気抜けしたフットボールとペイトリオッツが不正行為を行っていたかどうかについて多くの議論がありました。このデータセットは、スキャンダル発生期間中の Twitter の感情を提供し、事件全体について一般大衆がどのように感じていたかを評価します。 (2MB)

https://www.figure-eight.com/data-for-everyone/

64. Twitter 上の左派イベントに関する世論の分析: 中絶合法化、フェミニズム、ヒラリー・クリントンなど、さまざまな左派イベントに関するツイート。ツイートは、内容に基づいて賛成、反対、中立、またはどちらでもないに分類されます。 (600KB)

https://www.figure-eight.com/data-for-everyone/

65. Twitter の Sentiment140 (感情分析データセット): ブランド/キーワード、論文や研究アイデアを含む Web サイトに関するツイート。 (77MB)

http://help.sentiment140.com/for-students/

66. Twitter における自動運転車に関する世論の分析: 寄稿者はツイートを読み、ツイートにおける自動運転車に対する態度を「非常に肯定的」、「やや肯定的」、「中立的」、「やや否定的」、「非常に否定的」に分類しました。ツイートが自動運転車に関するものでない場合は、ラベルを付ける必要がある。 (1MB)

https://www.figure-eight.com/data-for-everyone/

67. Twitterでの東京に向けたツイート:東京からのツイート20万件。 (47MB)

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

68. Twitter 上の英国を対象としたツイート: 英国からのツイート 170,000 件。 (47MB)

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

69. Twitter 上の米国向けツイート: 米国からのツイート 20 万件。 (45MB)

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

70. 米国の主要航空会社に関する Twitter の感情 (Kaggle データセット): これは、米国の主要航空会社の問題に関する感情分析タスクです。このデータセットは 2015 年 2 月のツイートをクロールし、投稿者はそれらを肯定的、否定的、中立的に分類しました。否定的と分類されたツイートについては、理由も示されました (「フライトの遅延」や「サービスの態度が悪い」など)。 (2.5MB)

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

71. ニュースの見出しに基づく米国経済のパフォーマンス: ニュースの見出しと抜粋を米国経済との関連性で並べ替えます。 (5MB)

https://www.figure-eight.com/data-for-everyone/

72. Urban Dictionary の単語と定義: 2016 年 5 月時点の Urban Dictionary の 260 万語すべての単語、定義、著者、投票を整理した CSV コーパス。 (238MB)

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

73. Amazon の Wesbury Lab Usenet コーパス: 2005 年から 2010 年までの 47,860 の英語ニュースグループからのメールの匿名編集 (40 GB)

http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

74. Wesbury Lab の Wikipedia コーパス: 2010 年 4 月時点の Wikipedia の英語セクションにあるすべての記事のスナップショット。ウェブサイトでは、データの処理方法(すべてのリンクと無関係な素材(ナビゲーション テキストなど)の削除)について詳しく説明しています。コーパスは、スタンフォード NLP で使用されるタグなしの生のテキストです。

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

75. スタンフォードNLP ジャンプリンク:

https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

76. Wikipedia 抽出 (WEX): 処理済みの英語版 Wikipedia (66GB)

http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

77. Wikipedia XML データ: XML に埋め込まれたウィキテキスト ソースとメタデータの形式で、すべてのウィキメディアの完全なコピー。 (500GB)

出典: amazon.com

78. Yahoo Answers からの包括的な質問と回答: 2007 年 10 月 25 日現在の Yahoo Answers コーパスには、4,483,032 件の質問と回答が含まれています。 (3.6GB)

http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

79. Yahoo Answers のフランス語の質問: 2006 年から 2015 年までの Yahoo Answers コーパスのサブセットで、170 万件のフランス語の質問と回答が含まれています。 (3.8GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

80. Yahoo Answers「ハウツー」質問 [LZ2]: 2007 年 10 月 25 日の言語特性に基づいて選択された Yahoo Answers コーパスのサブセット。142,627 件の質問と回答が含まれています。 (104MB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

81. Yahoo が公開 Web ページから抽出した HTML ページ: 複雑な HTML 形式のページが少数と、複雑な形式のページが 267 万ページ含まれています。 (50GB以上)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

82. Yahoo が公開 Web ページから抽出したメタデータ: RDF 形式の 1 億トリプル (2 GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

83. Yahoo! N-Gram 表現: このデータセットには、IR 研究で一般的に使用されるクエリ書き換えタスクや、NLP 研究で一般的に使用される単語と文の類似性分析タスクに使用できる N-gram 表現が含まれています。 (2.6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

84. Yahoo! N-gram データ (バージョン 2.0): 12,000 のニュース系サイトからクロールされた 1,460 万のドキュメント (1 億 2,600 万の一意の文、34 億の連続語) のコーパスから抽出された n-gram データ (n=1-5) (12 GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

85. Yahoo 検索ログの関連性判定: 匿名 Yahoo 検索ログの関連性判定 (1.3GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

86. Yahoo! 英語版 Wikipedia 意味注釈付きスナップショット: 2006 年 11 月 4 日から公開されている NLP ツールを使用して処理された英語版 Wikipedia が含まれており、エントリ数は合計 1,490,688 件です。 (6GB)

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

87. Yelp: レストランランキングと220万件のレビュー

https://www.yelp.com/dataset

88. YouTube: 170 万件の YouTube 動画の説明 (トレント形式)

https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

リソース

89. 優れた公開 NLP データセット (その他のリストも含む)

https://github.com/awesomedata/awesome-public-datasets

90. Amazon パブリックデータセット

詳しくはこちら

91. CrowdFlower データセット(特定のタスクのためにクラウドソーシングによって得られた多数の小規模な調査とデータが含まれています)

https://www.crowdflower.com/data-for-everyone/

92. Kaggleデータセット

https://www.kaggle.com/datasets

93. Kaggleコンペティション(Kaggleコンペティションのデータがコンペティション以外でも使用できることを確認してください)

https://www.kaggle.com/competitions

94. オープンライブラリ

https://openlibrary.org/developers/dumps

95. Quora(主に注釈付きコーパス)

https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus

96. Reddit データセット (多数のデータセットがあり、そのほとんどはアマチュアによってクロールされていますが、データの編成とライセンスは標準化されていない可能性があります)

https://www.reddit.com/r/datasets

97. Rs.io: データセットの長いリスト

統計のための興味深いデータセット100個

98. Stackexchange: 公開データ

http://opendata.stackexchange.com/

99. スタンフォード NLP グループ (主に注釈付きコーパスと TreeBank、および実用的な NLP ツール)

スタンフォード大学

100. Webscope、Yahoo Research のデータ セット (このデータを使用している論文のリストも含まれています)

http://webscope.sandbox.yahoo.com/

関連レポート: https://github.com/niderhoff/nlp-datasets/blob/master/README.md

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  ロボットアームをAIボーイフレンドに変えた女性プログラマーは何を考えているのか?

>>:  貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

10月27日、外国メディアは、人工知能企業Jina AIがこのほど、第2世代のテキスト埋め込みモデル...

無料の Python 機械学習コース 8: 精度と再現率

機械学習における偏ったデータセットの扱い方偏ったデータセットで効果的な機械学習アルゴリズムを開発する...

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。簡単に言え...

在庫: 過去2年間の人工知能と機械学習の分野でのいくつかの買収

世界的なテクノロジー大手がトップクラスの人工知能の人材と技術をめぐる競争に参入し、市場は活況を呈して...

Facebook がひっそりと AI 技術ツールを開発: 自動的にコードをスキャンして脆弱性を発見

北京時間9月14日朝のニュースによると、FacebookはSapFixと呼ばれる人工知能(AI)ツー...

IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

[51CTO.com 速訳] IBMは、人工知能技術を使って人々の意見を要約することを目指すProj...

トランスフォーマーの簡易版がここにあります、ネットユーザー:今年の論文

Transformer アーキテクチャは、ディープラーニング分野における最近の多くの成功の原動力であ...

DeepMindは、オンラインで攻撃的な言葉を出力することに特化したZaun AIを提案している

言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします...

AIはワールドカップ賭博の「必殺武器」となるが、その精度は「イカ・リュー」ほど高くない

[[234677]]画像出典: Visual China韓国がドイツを2対0で破った後、私の別のグル...

AI体温測定:仕事再開の波の中で構築された最初の防疫「障壁」

[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...

2019 AIIA開発者会議記者会見が北京で開催

10月10日、2019 AIIA人工知能開発者会議の記者会見が北京で開催されました。 2019年AI...

機械学習のユニットテスト方法

過去 1 年間、私は仕事時間のほとんどをディープラーニングの研究とインターンシップに費やしてきました...

2020年の人工知能レビュー:AIが時代に知性をもたらす

2020年は人工知能(AI)にとって節目の年です。今年、新型コロナウイルス感染症のパンデミックが世界...

...