爬取微博影評人數據做職業特徵分析

如果你正在找工作,或者說對某一個行業很感興趣,在現實裡,你可能接觸不到這個圈子裡的從業者,沒有辦法瞭解這個行業的從業者特徵或者是工作動態,這裡給大家推薦一個好方法,就是通過社交圈來了解,比如微博、linkin等平臺,很多人都會給自己打上一個行業/職業的標籤,通過搜索這類標籤,你能夠找到一批目標用戶,通過他們的動態信息可以去做各類調研。

最近電影行業發展勢頭很猛,除了電影本身的因素外,我特別想了解一下影評圈子的從業者,因為他們在推廣和普及電影方面起了很大的作用,所以,我爬取了微博上的個人資料,用來分析影評從業者的特點,下面給大家介紹一下我的分析過程吧。

1,蒐集數據

在微博用戶搜索"影評"關鍵詞,用集搜客爬蟲上的新浪微博關鍵詞搜索博主工具進行採集,微博有限制,最多能爬取50頁,所以,只能爬取到962條數據,採集得到的原始數據表如下圖所示。

採集網址:https://s.weibo.com/user/%25E5%25BD%25B1%25E8%25AF%2584&page=1

新浪微博關鍵詞搜索博主工具:https://www.gooseeker.com/land/weibo.html

爬取微博影評人數據做職業特徵分析

2,數據清洗

2.1,用博主id列判斷有沒有重複數據,結果是沒有重複值,所以這次的樣本數據就是962條。

2.2,微博級別認證情況採集下來的是一串屬性值,下面通過Excel的查找替換功能把這些屬性值替換成相應的微博認證級別。

爬取微博影評人數據做職業特徵分析

2.3,所在地區這一列包含了省份、城市/地區信息,用Excel的分列功能劃分為所在省份和所在城市兩列。

2.4,關注數、粉絲數、微博數都是文本格式,要轉換為數值格式;

2.5,把標籤這一列拷貝到TXT記事本里,然後把空格替換為橫槓-,再拷回Excel裡,用分列功能把一個個標籤解析出來,再統計博主的標籤數量;教育、職業等標籤也可以這樣處理;

2.6,清洗完成後的數據表如下。

爬取微博影評人數據做職業特徵分析

3,數據統計分析

3.1,博主性別比例

爬取微博影評人數據做職業特徵分析

統計博主的性別數量,發現在影評行業裡,男性從業者佔比66%,大約是女性的兩倍之多,說明這個行業目前是男性主導。

3.2,博主級別分佈情況

爬取微博影評人數據做職業特徵分析

從博主的認證情況來看,認證用戶、無認證用戶的佔比分別是46%、54%,比例接近1:1,而影評人自身的媒體屬性,就需要有一定的權威性和影響力,這麼高的認證比例,也說明了微博認證對從業者的發展有一定的保障和推動作用。

另外,認證用戶裡分為個人、機構兩種,個人又會根據每月的微博閱讀量有沒有超過1千萬而分成金V、橙V兩種,從上面看出,橙V用戶佔比38%,是金V用戶的6倍之多,說明,要做到金V級別確實不容易;

3.3,平均微博數

爬取微博影評人數據做職業特徵分析

爬取微博影評人數據做職業特徵分析

從上面第一個圖看出,個人金V用戶發佈的平均微博數是最多的,遠遠超過總平均微博數,其次是個人橙V、微博達人;第二個圖,超過平均微博數的博主中,個人橙V用戶是最多的,其次是個人金V、普通用戶、微博達人,機構藍V用戶最少,也從側面說明了一個道理,不是發的微博越多就能成為金V用戶,本身要足夠好才能吸引其他人去閱讀轉發;

3.4,平均粉絲數

爬取微博影評人數據做職業特徵分析

從上面第一個圖,就知道個人金V用戶的平均粉絲數遠遠超過總平均粉絲數,然後從第二個圖裡,個人金V、個人橙V、普通用戶、機構藍V都有超過平均粉絲數的用戶,只有微博達人沒有,另外,金V用戶還有6個博主是低於平均粉絲數的,再看看下面粉絲數top10博主都是金V用戶,就不難理解為什麼金V用戶的平均粉絲數這麼大了。

爬取微博影評人數據做職業特徵分析

3.5,地理位置分佈

爬取微博影評人數據做職業特徵分析

有85%的博主是在中國大陸工作,8%是在海外工作,另外有7%的博主沒有填地理信息;

爬取微博影評人數據做職業特徵分析

統計影評人在中國各個省份的分佈數量,可以發現,從西部到東部呈現出增強趨勢,特別是東部沿海的省份,從業者都比中西部多,而東部省份中,發達的省份更加受歡迎,北京就有280人,是影評人最多的省份,排第二的是廣東,第三的是上海,說明這三個省份的文化娛樂業在全國相對比較發達。

3.6,標籤統計

爬取微博影評人數據做職業特徵分析

有324個博主是沒有填寫任何標籤,佔比34%,餘下66%都是寫了1個以上的標籤,寫了標籤的博主,標籤數量從1-10都有,只寫1個標籤是最多的,其次是10個標籤,然後是5個標籤;

爬取微博影評人數據做職業特徵分析

把影評人填寫的標籤做成詞雲圖,用得最多的前10個標籤是電影、影評、娛樂、旅遊、美食、音樂、文藝、影評人、時尚、幽默搞笑,主要表現休閒放鬆的娛樂方式以及內容;

3.7,微博認證信息詞雲圖

爬取微博影評人數據做職業特徵分析

經過認證的博主一共是438名,把他們的認證信息進行分詞後,得到上面的詞雲圖,影評人、電影、自媒體、作者、簽約、博主、資深、文章、傳媒、娛樂、知名、頭條等是常用的身份認證用詞;

3.8,教育信息

爬取微博影評人數據做職業特徵分析

爬取微博影評人數據做職業特徵分析

填寫了教育信息的博主佔比是27%,雖然數量有點少,但是從其填寫的教育信息來看,排在前10的學歷都是重點高校,說明影評人的受教育水平和質量都不會太低;

4,總結


分享到:


相關文章: