【數據】情感分析數據集

數據集是機器學習無法忽視的話題,我們根據數據集的類型,分門別類地收集一些常用的數據集,方便大家快速找到自己需要的數據集。

Yelp

https://www.kaggle.com/yelp-dataset/yelp-dataset

這個數據集有兩個,一個是有5個評級標籤的(Yelp-5),一個是正負情感標籤的(Yelp-2)。

  • Yelp-5 每一類有 650000 條訓練樣本和 50000 條測試樣本。
  • Yelp-2 每一類有 560000 條訓練樣本和 38000 條測試樣本。

IMDb

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

電影評論情感二分類。包含同等數量的正負情感樣本,各自有 25000 條樣本。

Movie Review(MR)

Thumbs up?: sentiment classification using machine learning techniques

電影文本正負情感二分類,總共包含 10662 條樣本。經常使用 隨機切割的10折交叉驗證 來測試這個數據集。

The Stanford Sentiment Treebank(SST)

Recursive deep models for semantic compositionality over a sentiment treebank

上一個數據集 MR 的擴展版本。有兩個版本可以用。一個是包含五個標籤的 SST-1,一個是二分類的 SST-2.

  • SST-1 一共有 11855 條樣本,其中 8544 條訓練樣本,1101 條驗證樣本,2210 條測試樣本。
  • SST-2 6920 條訓練樣本,872 條驗證樣本,1821 條測試樣本。

MPQA

Annotating expressions of opinions and emotions in language

多視角問答數據集,是一個意見語料庫,有兩個標籤。一共有 10606 條樣本。這是一個 不均衡數據集,3311 條正樣本和 7293 條負樣本。

Amazon

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products

來自亞馬遜購物網站的商品評論,也有兩個版本:二分類和多分類。

  • 二分類版本 有 3600000 條訓練樣本和 400000 條測試數據。
  • 五分類版本 有 3000000 條訓練樣本和 650000 條測試樣本。

其他常見

  • SemEval-2014 Task 4

Semeval-2016 task 5: Aspect based sentiment analysis

  • Twitter

Adaptive recursive neural network for target-dependent twitter sentiment classification

  • SentiHood

Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods

參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: