爬取豆瓣電影短評做中文分詞與數據分析

中國電影最近幾年突飛猛進,越來越多的人走進電影院了,各個大盤影片輕輕鬆鬆就能突破幾十億票房,但是隨著電影消費的增加,大家對電影質量和製作水平的要求也提高了很多,想要繼續斬獲高票房,就得把握好消費者的喜好,製作出符合市場期待的電影。

爬取豆瓣電影短評做中文分詞與數據分析

注:圖片來自於藝恩電影智庫,侵刪

1,研究目的

至於怎麼才能瞭解到消費者的偏好,這個就很簡單了,你可以在網絡上找到很多關於電影的評論、排行、評分等等,比如,優酷、愛奇藝等視頻網站上的評論留言,特別是有了彈幕後,大家在網上留言得更加熱烈了,但是,在國內要評價一部電影的質量,大家都會去看豆瓣評分,說明豆瓣是最有參考價值的平臺之一,所以下面會用豆瓣電影《美人魚》的短評,來分析一下評價傾向、話題焦點。

爬取豆瓣電影短評做中文分詞與數據分析

2,數據收集

通過gooseeker的快捷採集應用——數據DIY,一共爬到了43148條數據,爬取方法可以去看另一篇文章《用GooSeeker爬取豆瓣電影短評,不用寫代碼,一鍵式操作》

爬取豆瓣電影短評做中文分詞與數據分析

訪問gooseeker的在線分詞打標應用https://www.gooseeker.com/tagtool2/secure/index.html,把要分詞處理的評論內容這一列單獨放到一個Excel表裡,然後導入進去,就會自動分詞,可以得到分詞效果表和切詞表。

爬取豆瓣電影短評做中文分詞與數據分析

後面要繪製詞雲圖,切詞表裡會有一些單字、英文、數字等無效詞,直接用效果不好,所以下面要用到篩選詞語功能,這裡是按詞頻大小排序的,可以一邊看著樣本數據,一邊勾選出有用的詞語;

爬取豆瓣電影短評做中文分詞與數據分析

另外,對於沒有切分出來的詞,可以人工添加補充進去,最後就能得到選詞表和打標結果表,做詞雲圖就要用到下面的選詞表;

爬取豆瓣電影短評做中文分詞與數據分析

根據星級打分可以把豆瓣影評自動分成好中差3類,所以就沒做情感分析,如果你要做情感分析,也可以利用上面的篩選詞語功能,把具有情感傾向的詞語篩選出來,然後在打標結果表裡可以看到每條原數據所包含的打標詞,再整理一下哪些詞語組合在一起所表達的情感傾向,就可以判斷出原數據的情感傾向;

爬取豆瓣電影短評做中文分詞與數據分析

4,數據分析

4.1 評論數量走勢

爬取豆瓣電影短評做中文分詞與數據分析

按照評論日期統計了每天的評論量,如上圖,發現在電影上映時間2016-02-08之前也有零星的評論,才想起來美人魚好像調過上映檔期,這個不多說了,在上映一週內,評論量呈現快速上升趨勢,在2月14日情人節達到頂峰,那天剛好是週日,估計很多情侶去看這部電影了,之後就是回落趨勢,在2月21日有一個小高峰,也是週日,說明節假日會促進消費。

4.2 各級評分數量

爬取豆瓣電影短評做中文分詞與數據分析

統計電影《美人魚》各個星級的數量,從上圖看出,以3星、4星評分最多,其次是5星,說明大家對電影的總體評價是中等偏好的。

4.3 各級評分走勢

爬取豆瓣電影短評做中文分詞與數據分析

按時間統計各個星級的打分數量,如上圖,可以看出從《美人魚》上映以來,3星、4星一直是大眾的主流評分, 但是上映之前有幾條評論是5星的,說明大家對電影一開始期望比較高,但看完電影后應該是有點失望,所以才會導致評分低於預期。

4.4 話題焦點分析

爬取豆瓣電影短評做中文分詞與數據分析

從上面的詞雲圖可以看到,大家討論最熱烈的話題就是星爺,可以說大家去看這部電影大多數是衝著周星馳去的,都說欠星爺一張電影票,還有很大一部分,把《美人魚》和周星馳近兩年來的電影做了對比,比如西遊、長江七號,評價好壞參半,無論怎樣,大家最後都給了星爺一張電影票的支持,說明個人影響力和號召力對票房的貢獻真的可以很大;

其次,大家對主演討論得也很多,從影評裡可以看到,鄧超的演技、張雨綺的聲音都飽受爭議,另外,大家對電影題材、劇情這些都有討論,最後是電影感受,尷尬、搞笑、喜歡、哭、不錯等等是大多數人對電影的評價。


分享到:


相關文章: