用python重新定義【2019十大網絡流行語】

博學之,審問之,慎思之,明辨之,篤行之。

用python重新定義【2019十大網絡流行語】

“文明互鑑真硬核,

融梗檸檬誰覺得。

霸凌第一九九六,

區塊鏈不知太難了。”


12月1日,《咬文嚼字》編輯部以一首“順口溜”發佈2019年度十大流行語。“文明互鑑”、“區塊鏈”、“硬核”、“融梗”、“××千萬條,××第一條”、“檸檬精”、“996”、“我太難/難了”、“我不要你覺得,我要我覺得”、“霸凌主義”十條流行語入選。


微博評論下有很多網友紛紛表示,XXX為什麼能上榜?XXX為什麼沒上榜?


這點呢,小五表示理解,畢竟採用不同的統計口徑得出的結論可能不同。


那麼,小五乾脆也自己定義個統計口徑,重新“定義”一下【2019十大網絡流行語】


此處致敬一下重新定義的鼻祖——羅老師。


獲取數據


通過搜索“網絡流行語”,可以發現已經有網站幫我們做了整理。


用python重新定義【2019十大網絡流行語】


利用python爬蟲可以獲取該網站的2019年度所有網絡流行語。


<code>def main():
    data = []
    n = 1
    for i in range(4542,5589): 
        dic = {}
        url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
        print('已成功採集{}條數據'.format(n))
        html = restaurant(url)
        doc = pq(html)
        dic['tittle'] = doc('#doctitle').text()
        dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text()
        data.append(dic)
        time.sleep(random.random())
        n = n + 1
    return data  /<code>


爬取成功√


共929個詞語。


我們在獲取這些熱門流行詞的同時,也獲取了他們的一些其他數據,比如瀏覽次數和出現時間。


用python重新定義【2019十大網絡流行語】


但瀏覽次數很難作為評判這個詞語是否熱門的指標,畢竟大家又不是都來這個網站搜索,所以還是需要一個全網的數據才更準確一點。


一開始選擇了百度指數,結果發現很多詞語沒有收錄,需要付費。於是我就選用了搜狗指數!


用python重新定義【2019十大網絡流行語】


將剛才爬取得到的929個網絡流行語,可以根據下面式子來構造url。


<code>urls= 'http://zhishu.sogou.com/index/searchHeat?kwdNamesStr='+str(name)+'&timePeriodType=YEAR&dataType=SEARCH_ALL'/<code>


再循環爬取依次得到他們的年度平均搜索指數。


成功得到2019年度網絡熱門流行詞排行榜(凹凸玩數據版)!


用python重新定義【2019十大網絡流行語】


其中標記綠色的詞語為2018年末出現,在2019年開始流行,在統計時也列入列入2019流行語中。


2019網絡熱門流行詞排行榜


根據上文得到的熱門流行詞排行榜,小五又蒐集了一些網上的資料 ,利用PS來製作了十張流行詞的解釋圖。


下面開始頒獎:


用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】

用python重新定義【2019十大網絡流行語】


一千個人眼中就有一千個哈姆雷特。


相信每個人心裡都有自己的一個流行語排行榜。


不知道小五重新定義的排行榜與你心中的相差多少?


分享到:


相關文章: