大數據精準營銷中搜狗用戶畫像挖掘
大數據精準營銷
我們將對數據訓練集和測試集進行中文語義分析,特徵值提取,分類模型擬合和預測等步驟操作。 數據庫:user_tag_query.2W.TEST user_tag_query.2W.TRAIN 具體處理流程:
- 文本預處理
- 特徵提取
- 訓練分類器
- 模型預測
結果:
去除停用詞之前:
正常結果bigram+truecut 0.66117
使用unigram+truecut 0.6509
使用bigram+searchcut 0.6633
使用unigram+searchcut 0.6566
使用bigram+falsecut 0.66546
使用unigram+falsecut 0.65675
在去除停止詞之後:
正常結果bigram+truecut 0.6625
uni_truecut 0.64879
bigram+falsecut 0.66625
uni_cutfalse 0.65158
bi_searchcut 0.66596
uni_searchcut 0.65308
libsvm:
c = 0.5,預測值一樣。放棄
c = 1 預測值的四分之三是一致的,所以放棄
c = 4:0.62913 預測值少了一些少數類,多數類比重加大。
c = 10:0.65254
c = 20 0.64746 心好累
c = 30 age預測值都是一,放棄。
c = 50:age預測值都是一,放棄。
bigram:c = 1 :大約需要兩個半小時,放棄。
after corpus:
c = 20:edu全都是5,捨棄
c = 30:age全都是1,捨棄
我們提交14次。
最高分 0.70162 提交次數 60次。
需要相關代碼的可以私信我。