數據集是機器學習無法忽視的話題,我們根據數據集的類型,分門別類地收集一些常用的數據集,方便大家快速找到自己需要的數據集。
Yelp
https://www.kaggle.com/yelp-dataset/yelp-dataset
這個數據集有兩個,一個是有5個評級標籤的(Yelp-5),一個是正負情感標籤的(Yelp-2)。
- Yelp-5 每一類有 650000 條訓練樣本和 50000 條測試樣本。
- Yelp-2 每一類有 560000 條訓練樣本和 38000 條測試樣本。
IMDb
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
電影評論情感二分類。包含同等數量的正負情感樣本,各自有 25000 條樣本。
Movie Review(MR)
Thumbs up?: sentiment classification using machine learning techniques
電影文本正負情感二分類,總共包含 10662 條樣本。經常使用 隨機切割的10折交叉驗證 來測試這個數據集。
The Stanford Sentiment Treebank(SST)
Recursive deep models for semantic compositionality over a sentiment treebank
上一個數據集 MR 的擴展版本。有兩個版本可以用。一個是包含五個標籤的 SST-1,一個是二分類的 SST-2.
- SST-1 一共有 11855 條樣本,其中 8544 條訓練樣本,1101 條驗證樣本,2210 條測試樣本。
- SST-2 6920 條訓練樣本,872 條驗證樣本,1821 條測試樣本。
MPQA
Annotating expressions of opinions and emotions in language
多視角問答數據集,是一個意見語料庫,有兩個標籤。一共有 10606 條樣本。這是一個 不均衡數據集,3311 條正樣本和 7293 條負樣本。
Amazon
https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products
來自亞馬遜購物網站的商品評論,也有兩個版本:二分類和多分類。
- 二分類版本 有 3600000 條訓練樣本和 400000 條測試數據。
- 五分類版本 有 3000000 條訓練樣本和 650000 條測試樣本。
其他常見
- SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysis
Adaptive recursive neural network for target-dependent twitter sentiment classification
- SentiHood
Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods
參考文獻
- Deep Learning Based Text Classification: A Comprehensive Review
閱讀更多 圖網絡與機器學習 的文章