人工智能中的文本分類技術科技頭條網

2018-10-30 11:03:57 飛馬網FMI

文本分類技術是NLP領域中最常用的技術。為了讓大家進一步瞭解文本分類技術,飛馬網於10月16日晚，邀請到金山軟件黃鴻波老師為大家分享該領域的內容。

以下是這次線上直播的分享實錄：

大家好，我是黃鴻波，來自金山軟件。今天跟大家分享的是人工智能中的文本分類技術。我們在NLP領域中最常用的技術就是文本分類技術，文本分類技術我們之前是用傳統的機器學習，後來我們用深度學習也可以做分類，本次的課程就是圍繞機器學習和深度學習兩個方面來探討文本分類技術是怎麼實現的？以及怎麼操作，有什麼技巧。

本次課程主要從三個方面來講。

一、文本分類的現狀

目前，文本分類現狀相對來講是比較成熟的。

第一個是在垃圾郵件分類中，我們會做一下文本分類，在這個過程中，垃圾郵件、廣告郵件、詐騙郵件都被自動過濾。第二個就是情感分析，文本分類中的情感分析你是分析情感，大多數只是一個證書類的分析，可以用在正負能量的語句的切換判斷等地方。第三個是個性化推薦，最常見的是推薦系統，比如去天貓、京東購物就會有個性化推薦，在搜索引擎中也會有個性化推薦，比如在百度搜索學習NLP方面的內容，在搜這個的時候搜索引擎就會記錄這個關鍵詞。

二、文本分類實踐中常見的誤區

1、深度模型一定要優於傳統的機器學習模型嗎？

首先說文本分類，包括傳統的機器學習方法和深度學習方法。傳統機器學習一般用到四種：頻次法（記錄每一篇文章次數的分佈，把分佈作為機器學習的模型，再訓練成為一個合適的分類模型）、TF-IDF（基於頻次法的改進）、互信息方法（基於文檔中出現詞的相關程度）和N-gram（目前文本文類中最常用的方法）。

基於深度學習的文本分類方法大概有兩種包括三種：CNN、RNN以及RCNN。最常用的是CNN。RCNN。

2、在驗證集上準確率高在線上準確率就高？

也不是。我們在驗證集上做了一個訓練，正確率85%以上，但是在線上的準確率可能不到60%。訓練樣本的多樣性、是否過擬合、是否考慮了其他因素這些都是文本分類中比較容易遇到的問題。

3、準確率是文本分類中最重要的指標？

實際上不是的。在文本分類中最重要的指標有三種：準確率、精確率、召回率。大家比較容易誤解的是準確率和精確率之間的區別。準確率是用來表示所有樣本中最正確樣本的比例，精確率是在一類樣本中有多少是該類的樣本。

4、越複雜的模型效果越好？

如圖，看結果發現，第一個是欠擬合，第二個剛剛好，第三個過擬合。這個排序就是從簡單到複雜，從這個圖很明顯可以看到不是越複雜越好。

三、文本分類策略

主要從兩方面來講。

1、選擇訓練集和測試集的一個策略

如何選擇訓練集和測試集？比較通用的原則是：訓練樣本的多樣性（要訓練的模型是二分類或多分類，一定不要用精度特別高的模型，容易過擬合；相反要具有多樣性，這樣可以避免過擬合）；二八原則（做數據集時，一是單獨收集；一種是訓練集和驗證集全都放在一起，打散，然後在隨機取百分之二十去測試）；比例問題（讓測試集和訓練集比例一樣）。

2、文本分類特徵處理的一個策略