11.24 大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

近段時間小楚在研究Python在量化投資的應用,順帶發現了Python的爬蟲功能真的是非常強大,抓取微博、新浪新聞、豆瓣各種APP的海量數據真的是不費吹灰之力。

知乎也算是國民級的APP了,日活躍用戶數少說也在千萬以上,而且知乎的回答跟百度知道不一樣,基本上知乎的回答都是水平比較高、邏輯性很強的,參考意義非常大。那麼你肯定很想知道,能回答出這麼高水平答案的用戶都是什麼人啊?他們有什麼共同的特徵嗎?

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

近日,知乎給小楚推送了一個問題:男生長得好看是一種什麼體驗?點進去發現每個回答裡面都是帥到爆的小哥哥的圖片,這個問題下共有8284條回答,幾萬張靚仔圖片,刷得小楚鼻血都要流出來了。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

看完帥哥後,小楚覺得不夠過癮,既然知乎都推了帥哥,那我雨露均霑肯定要看看漂亮的小姐姐啊。於是,我又去找到了知乎上另一個問題:女孩子長得漂亮是種什麼體驗。這個問題下總共有3000個回答。看到第一個回答的第一張照片,小楚就hold不住了。。。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

來自知乎用戶ID:勾芡兌水

看完後,小楚腎上腺素飆升久久不能自已,積極性一下被調動起來,決定用Python抓取這8000位帥哥和3000位美女的用戶信息,包括知乎暱稱、一句話簡介、職業信息等,看看長得好看的人都有什麼共同特徵。

獨樂樂不如眾樂樂,小楚這就教各位紳士們怎麼用Python進行抓取,小白也不要緊,包會。

1、安裝Python軟件

我們首先下載anaconda,下載地址可以在清華大學鏡像網站下載最新日期的exe安裝包,比官網速度快得多。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

下載安裝後接著打開裡面的jupyter notebook,在輸入框裡輸入:pip install zhihu_oanth,完成後,你就已經配置好了抓取知乎所需一切條件了。

2、登陸你的知乎賬號

輸入以下代碼

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

然後將代碼裡面的手機號換成你自己的知乎手機賬號,密碼換成你自己的賬號密碼。接著點擊運行,此時會出現一個框要你輸入驗證碼,一般你去檢查用戶文件夾,會發現多了一張驗證碼圖片文件,輸入該圖片上的驗證碼,回車搞定。

3、抓取所有回答和用戶信息

(代碼比較長,各位請配合放大鏡閱讀)

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

運行之後,你就得到了男生長得帥是怎麼樣的體驗下的所有8000個回答、贊數和8000位答主們的用戶特徵,包括暱稱、簡介等。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

然後你再輸入df.to_excel('beautifulboys.xlsx'),將8000個回答全部導入一張Excel表裡。

4、將用戶暱稱和簡介做成詞雲的形式

我們提取Excel中的用戶暱稱和簡介,看看帥哥們都喜歡怎麼取名字,以及他們的簡介有什麼共同的地方。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

接著,我們就有了驚喜的發現

帥哥們的詞雲:

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

我們看到帥哥們的暱稱裡都喜歡用“先生”、“一隻”,不少靚仔還喜歡用“少女”呢!(不好意思,我好像明白了什麼)

然後,對提取到的所有簡介做成詞雲。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

果然,簡介的信息量價值就比較大了。從上面的詞雲我們發現,知乎長得帥的男生主要集中在學生,尤其是大學生裡面,這也不難理解,畢竟20多歲才是男生的顏值的巔峰期,30一過就成了油膩大叔了不是嘛。

其次,比較驚喜的是,我們看上圖發現帥哥在設計師行業分佈也比較多,看來大家以後要去找靚仔,可以多去設計公司逛逛。

將抓取代碼中的ID替換成長得漂亮是什麼體驗問題的ID後,我們得到了美女們的詞雲特徵:

美女們的詞雲:

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

知乎美女的暱稱還是喜歡用“豬豬”、“可愛”居多,著很符合精緻的她們。

大數據告訴你知乎上的帥哥美女都集中在哪個行業(附Python代碼)

而從用戶簡介詞雲看出,知乎美女們也是學生居多,職業比較多地集中在教師、設計師行業。

看來,設計師行業的確比較容易出帥哥和美女,兩個詞雲裡面都有設計師這個關鍵詞,畢竟在常人印象裡設計師都是比較嚴苛和挑剔的,如果對自己的顏值沒有信心,也很難設計出優美的作品來!


分享到:


相關文章: