數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。
AG News
Character-level convolutional networks for text classification
來自 ComeToMyHead(一個學術新聞搜索引擎) 2000多個新聞源的新聞文章。這個數據集包括 120000 條訓練樣本和 7600 條測試樣本。每一條樣本是一短文本,有4個類別。
20 Newsgroups
http://qwone.com/~jason/20Newsgroups/
20ng 包含 20 個不同主題的新聞組文章。這個數據集有不同的版本用於不同的用途:文本聚類、文本分類等等。一個常見的版本包含 18821 條樣本。
Sogou News
How to fine-tune bert for text classification?
這個數據集混合了 SogouCA 和 SogouCS 兩個的新聞語料庫。新聞的分類標籤由URL中的域名決定。比如說 http://sports.sohu.com 就是指 sports 這個類別。
Reuters News
https://martin-thoma.com/nlp-reuters
Reuters-21578 是從1987年的 路透社財經新聞 裡收集的。ApteMod是Reuters-21578的多類版本,包含10,788個文檔。它有 90 個分類,7769 條訓練文檔和 3019 條測試文檔。還有許多其他數據集都來自於該數據集的不同子集,例如R8,R52,RCV1和RCV1-v2。
其他常見數據集
- Bing news
Concept-based short text classification and ranking
- NYTimes
Rtexttools: Automatic text classification via supervised learning
- BBC
Practical solutions to the problem of diagonal dominance in kernel document clustering
- Google news
Google news personalization: scalable online collaborative filtering
參考文獻
- Deep Learning Based Text Classification: A Comprehensive Review
閱讀更多 圖網絡與機器學習 的文章