大數據精準營銷中搜狗用戶畫像挖掘

大數據精準營銷中搜狗用戶畫像挖掘


大數據精準營銷中搜狗用戶畫像挖掘


大數據精準營銷中搜狗用戶畫像挖掘


大數據精準營銷

我們將對數據訓練集和測試集進行中文語義分析,特徵值提取,分類模型擬合和預測等步驟操作。 數據庫:user_tag_query.2W.TEST user_tag_query.2W.TRAIN 具體處理流程:

  1. 文本預處理
  2. 特徵提取
  3. 訓練分類器
  4. 模型預測

結果:

去除停用詞之前:

正常結果bigram+truecut 0.66117

使用unigram+truecut 0.6509

使用bigram+searchcut 0.6633

使用unigram+searchcut 0.6566

使用bigram+falsecut 0.66546

使用unigram+falsecut 0.65675

在去除停止詞之後:

正常結果bigram+truecut 0.6625

uni_truecut 0.64879

bigram+falsecut 0.66625

uni_cutfalse 0.65158

bi_searchcut 0.66596

uni_searchcut 0.65308

libsvm:

c = 0.5,預測值一樣。放棄

c = 1 預測值的四分之三是一致的,所以放棄

c = 4:0.62913 預測值少了一些少數類,多數類比重加大。

c = 10:0.65254

c = 20 0.64746 心好累

c = 30 age預測值都是一,放棄。

c = 50:age預測值都是一,放棄。

bigram:c = 1 :大約需要兩個半小時,放棄。

after corpus:

c = 20:edu全都是5,捨棄

c = 30:age全都是1,捨棄

我們提交14次。

最高分 0.70162 提交次數 60次。

需要相關代碼的可以私信我。


分享到:


相關文章: