博學之,審問之,慎思之,明辨之,篤行之。
“文明互鑑真硬核,
融梗檸檬誰覺得。
霸凌第一九九六,
區塊鏈不知太難了。”
12月1日,《咬文嚼字》編輯部以一首“順口溜”發佈2019年度十大流行語。“文明互鑑”、“區塊鏈”、“硬核”、“融梗”、“××千萬條,××第一條”、“檸檬精”、“996”、“我太難/難了”、“我不要你覺得,我要我覺得”、“霸凌主義”十條流行語入選。
微博評論下有很多網友紛紛表示,XXX為什麼能上榜?XXX為什麼沒上榜?
這點呢,小五表示理解,畢竟採用不同的統計口徑得出的結論可能不同。
那麼,小五乾脆也自己定義個統計口徑,重新“定義”一下【2019十大網絡流行語】
此處致敬一下重新定義的鼻祖——羅老師。
獲取數據
通過搜索“網絡流行語”,可以發現已經有網站幫我們做了整理。
利用python爬蟲可以獲取該網站的2019年度所有網絡流行語。
<code>def main():
data = []
n = 1
for i in range(4542,5589):
dic = {}
url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
print('已成功採集{}條數據'.format(n))
html = restaurant(url)
doc = pq(html)
dic['tittle'] = doc('#doctitle').text()
dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text()
data.append(dic)
time.sleep(random.random())
n = n + 1
return data /<code>
爬取成功√
共929個詞語。
我們在獲取這些熱門流行詞的同時,也獲取了他們的一些其他數據,比如瀏覽次數和出現時間。
但瀏覽次數很難作為評判這個詞語是否熱門的指標,畢竟大家又不是都來這個網站搜索,所以還是需要一個全網的數據才更準確一點。
一開始選擇了百度指數,結果發現很多詞語沒有收錄,需要付費。於是我就選用了搜狗指數!
將剛才爬取得到的929個網絡流行語,可以根據下面式子來構造url。
<code>urls= 'http://zhishu.sogou.com/index/searchHeat?kwdNamesStr='+str(name)+'&timePeriodType=YEAR&dataType=SEARCH_ALL'/<code>
再循環爬取依次得到他們的年度平均搜索指數。
成功得到2019年度網絡熱門流行詞排行榜(凹凸玩數據版)!
其中標記綠色的詞語為2018年末出現,在2019年開始流行,在統計時也列入列入2019流行語中。
2019網絡熱門流行詞排行榜
根據上文得到的熱門流行詞排行榜,小五又蒐集了一些網上的資料 ,利用PS來製作了十張流行詞的解釋圖。
下面開始頒獎:
一千個人眼中就有一千個哈姆雷特。
相信每個人心裡都有自己的一個流行語排行榜。
不知道小五重新定義的排行榜與你心中的相差多少?
閱讀更多 愛編程的大美妞 的文章