爲政民互動大數據分析建立特徵詞庫

越來越多的地方政府網站已經建立了自己的政民互動平臺,比如,建設熱線平臺讓市民可以諮詢問題和投訴,這樣有利於城市治理優化。隨著自然語言處理技術(NLP)的發展,已經具備條件對文本內容做量化分析和數據挖掘運算。為了達到這個目的,我自己的經驗是:


  • 首先要把原始語料切分成一個個詞語,就是所謂的文本分詞

  • 接著應該將跟研究目的相關的特徵詞篩選出來

  • 這樣就把一行行語句轉換成了一個行列表,每一列對應一個特徵詞,如果一句話含有這個詞,對應的單元格就得1。這樣就把語句標籤化了

  • 有了這個標籤矩陣,可以做各種統計,也可以用數據挖掘算法做深度挖掘

使用GooSeeker研發的分詞打標軟件,就可以實現上面幾點,看到這裡,你可能會疑惑,為什麼第二步還要篩選特徵詞?用過分詞軟件的人就會知道,切分出來的詞語包含了單個字、兩個字、多個字等情況,單字是很難判斷出它的語義,兩個字以上的組合詞才帶有明確的語義特徵,所以,篩選詞語還是有必要的;

雖然現在是AI的時代,我仍然推薦手工篩選特徵詞。其實一點都不low,首先,可以起一個好聽的名字:基於專家經驗的特徵工程。很高大上吧!這不是我杜撰的,所謂特徵工程,可以說是機器學習的奠基石,就是將數據以更加合適的方式展示出來,通常需要大量的人工干預和專家經驗,所以,人工提取特徵詞的方法在大部分場合仍然是最有效的。你可能會問,現在有自動化的特徵工程算法,甚至可以用深度學習方法自動完成特徵選擇過程,為什麼不直接用啊,手工多費勁啊,但是在實際的使用場景裡,作為一個商業分析人員,往往只有一週時間,需要製作一個報告,作為專職的商業分析人員,不可能總是固守一個行業,那麼在這一週既要熟悉這個行業,又要做出一個有可讀性的研究報告,我認為工作量這麼大的機器學習是很難幫上忙的。

根據我的體驗,我要查閱大量資料熟悉這個行業,掌握他們的行話,要打這個基礎,剛好可以借用合適的工具把描述這個行業的特徵詞庫建立起來。隨著量化分析技術的廣泛採用,自然語言處理(NLP)的深入程度和細緻程度越來越高,就是所謂的"畫像",而畫像的層面是很多的,所以,不同行業領域的特徵詞,都需要老練的經驗技能才能選對,不是隨便選出來的。

為政民互動大數據分析建立特徵詞庫

從上圖可以看出,不同的語句或者同一條語句,都可能說不同角度的事情。例如,"流程"是直白地問xxx流程怎麼樣到哪查等,而"時候"可能更傾向於表達一種訴求:我想更快地辦完,行嗎?顯然他們是不同角度的表達。在篩選特徵詞的時候應該把這些角度做些梳理和記錄。

舉一個更有切實體驗的例子

為政民互動大數據分析建立特徵詞庫

這是一個手機消費者畫像的例子,將消費者對手機的感知可以分成4大類進行分析:硬件配置、軟件功能、ID與結構、用戶體驗等,每個大類還可以細分小類。這樣就形成了分級分類結構,也就是把特徵詞進行分類整理。這樣我們就可以對研究對象做不同層面的剖析,可以深度鑽取,也可以橫向比較。

可見,所有這些成果都建立在特徵詞庫的基礎上的,無論後續的數據挖掘算法有多麼高科技,關鍵的特徵詞依然是有效的。

前面說了,在大部分場景下,手工篩選特徵詞是最實用和最經濟的,為了好聽一點,我們稱之為:基於專家經驗的特徵工程。接下來可以交給"高科技的"建模運算,其實主要是調參,那麼手工篩選特徵詞依然是最大比重的一塊,合在一起可以叫做:"專家經驗+調參",不失"高科技"形象。


分享到:


相關文章: