【数据】情感分析数据集

数据集是机器学习无法忽视的话题,我们根据数据集的类型,分门别类地收集一些常用的数据集,方便大家快速找到自己需要的数据集。

Yelp

https://www.kaggle.com/yelp-dataset/yelp-dataset

这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2)。

  • Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本。
  • Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本。

IMDb

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

电影评论情感二分类。包含同等数量的正负情感样本,各自有 25000 条样本。

Movie Review(MR)

Thumbs up?: sentiment classification using machine learning techniques

电影文本正负情感二分类,总共包含 10662 条样本。经常使用 随机切割的10折交叉验证 来测试这个数据集。

The Stanford Sentiment Treebank(SST)

Recursive deep models for semantic compositionality over a sentiment treebank

上一个数据集 MR 的扩展版本。有两个版本可以用。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.

  • SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本。
  • SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本。

MPQA

Annotating expressions of opinions and emotions in language

多视角问答数据集,是一个意见语料库,有两个标签。一共有 10606 条样本。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本。

Amazon

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products

来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类。

  • 二分类版本 有 3600000 条训练样本和 400000 条测试数据。
  • 五分类版本 有 3000000 条训练样本和 650000 条测试样本。

其他常见

  • SemEval-2014 Task 4

Semeval-2016 task 5: Aspect based sentiment analysis

  • Twitter

Adaptive recursive neural network for target-dependent twitter sentiment classification

  • SentiHood

Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods

参考文献

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: