我和我的閨蜜們都在聊什麼?

歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。

錢鍾書說,有雞鴨的地方糞多,有女人的地方話多。那麼,女生之間到底都在討論些什麼東西?

我和我的閨蜜們都在聊什麼?

今天,Yura將帶大家挖掘一下Yura與另外兩個好友的微信群聊中蘊含的有趣信息

首先看到,我們的群名是“新世紀獨立女性養成研究所”,我們的口號是“男人都是大豬蹄子”!兩位好友分別是“潤貽”和不願意透露姓名的“美少女”同學(不慌,文末有驚喜,嘻嘻)。

我和我的閨蜜們都在聊什麼?

工具:

excel

R語言

一、數據收集

本次分析總共摘取了微信群從2018年3月9日至2018年7月30日共計144天的聊天內容,感謝淘寶賣家提供給我的強大工具“蘋果恢復大師”,在經過將近一小時的掃描備份之後,抓取了比較滿意的內容,包括文本信息、圖片、語音、視頻甚至鏈接等大部分信息。

二、數據清洗

老師果然沒騙我,在一次數據分析的項目中,數據清洗至少要佔80%的時間,我用實際行動為老師提供了又一個血淋淋的真實案例 T.T

一開始我想得很簡單,希望能做出一個漂亮的詞雲。這就需要刪除文本信息中一些鏈接和圖片等“亂碼”,不過在刪除過程中,我發現亂碼也有一些信息可挖掘(等下再說),於是我邊刪除邊記錄,也得到了不少意料之外的收穫。這兩個小時也是值得的!

三、數據分析和可視化

1.聊天頻率分析

首先我們來看一下,在這144天3456小時207360分鐘之內,我們一共產生了幾條消息:

我和我的閨蜜們都在聊什麼?

你沒看錯,我們約以4分鐘一條消息的速度產生信息。

本人,很光榮地,以39%的比例榮獲本群“話癆”稱號。

但是我們可以看到我們三個人的發言頻率大致相似,用行業話來說就是方差較小。

但在真實生活中,認識我們仨的共同好友肯定不會給我們的文靜/活潑程度打上差不多的分數。這可以側面反映:

我和我的閨蜜們都在聊什麼?

無論你在陌生人面前是談笑自如還是靜如癱瘓,在熟人面人必然會露出“動如癲癇”的本態。(敲黑板,記重點!)

我和我的閨蜜們都在聊什麼?

更可怕的是,當我統計分析聊天日期levels長度的時候,我發現我們在144天內竟然講了144天的話,也就是說,這個群沒有一天是安靜的。

我和我的閨蜜們都在聊什麼?

如果這個群有第四個人存在的話,那TA肯定會被吵死...

不過,根據我上文的規律,我覺得TA加入我們的“嘰嘰喳喳”的行列之中的可能性更大!

我和我的閨蜜們都在聊什麼?

再來看我們整體的聊天頻率:

我和我的閨蜜們都在聊什麼?

從上圖可知,我們的聊天頻率,真的比股票還穩呀!

三月偏低是因為我的聊天記錄是從3月9日開始記錄的,如果加上3月1日到3月8日這9天時間,應該會上升一點。

至於六月份的略微下滑,我只能(假裝)歸結於我們這個月減少了百分之十的聊天時間,去複習期末考啦!

我和我的閨蜜們都在聊什麼?

再具體到天:

我和我的閨蜜們都在聊什麼?

我們在3月12日的聊天頻率是最高的。

這究竟是什麼特殊的日子?

我和我的閨蜜們都在聊什麼?

原來潤貽同學在這一天做出了嘗試申請去德國交換學習的決定!因為我有經驗,她就問了我許多相關的問題。

接下來我們從學習談到了人生,談了以後的工作,幻想如何成為富婆,最後以相約打耳洞結束...

不知道大家有沒有發現,我們在聊天的時候,經常是這一秒忘了上一分鐘說了什麼話題。翻翻聊天記錄,我經常的內心os是:“嗯?為什麼突然說到這?臥槽,這也能扯到?!”當時的心路歷程恐怕不是幾段跳躍的聊天記錄文字能夠回憶起來的。所以說:

我和我的閨蜜們都在聊什麼?

女生之間的聊天話題總是飛崖式跳躍的。

(第二條規律了!)

那麼我們在一天中的哪個時間段聊天頻率最高呢?

我和我的閨蜜們都在聊什麼?

上圖是我按照聊天小時來統計的,可以看到,中午休息和晚上睡前是我們聊天頻率的高峰期。這也很合理,大家都是學生嘛, 白天總是有課要上。

但是我就想不明白了。

為什麼凌晨兩點三點四點五點,也都是有數據的呢?

上圖看似是0,其實,下圖才是真相:

我和我的閨蜜們都在聊什麼?

可能...嗯...是有人睡不著,在群裡大發“我失眠了!怎麼辦?”之類的牢騷吧...

2.聊天內容分析

分析完了聊天頻率,下面看一看我們這一天天的,到底聊了啥?

我和我的閨蜜們都在聊什麼?

今天推薦這首歌,前奏感人!這條微博好好笑,快看!快看這個抖音,哈哈哈哈。這件衣服怎麼樣,你們幫我看看!

以上,就是我們膚淺而真實的日常(微笑)

不過仔細看看,從中我們可以悄悄地分析出:

  • 我和潤貽同學是淘寶的常客
  • 美少女同學有一段時間沉迷抖音(因為雖然比重大,但是頻次不高)
  • 潤貽同學很喜歡刷微博消磨時間
  • 我們三個都是音樂girl(hey yo, what's up!)
我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

除了這些官方鏈接,我們還共享了屏幕截圖6594次。

這裡雖然無具體統計,但是作為當事人我可以肯定地告訴大家:

我和我的閨蜜們都在聊什麼?

百分之九十的屏幕截圖都是聊天記錄截圖,其中百分之八十都是為了吐槽被截圖的人。

(原因?沒法解釋)

我和我的閨蜜們都在聊什麼?

我們再來看一看我們的聊天方式的不同,有些人享受打字的快感(我本人),有些人覺得語音比較方便(美少女無疑了),有些人卻覺得直接拍個圖片或者視頻更直觀。

我和我的閨蜜們都在聊什麼?

從某方面來,聊天方式說能反映一個人的行事特點。

(具體請諮詢心理專家)

下面瞧一瞧我們聊天的默認表情包top10:

自定義表情包太多了,分析起來難度較大,下次有空再試:(

我和我的閨蜜們都在聊什麼?

作為九零後老阿姨們,年輕人表情包的步伐是跟不上了,偶爾返璞歸真一下也是不錯的。

從表情包top10中我們隱隱看到了三個老阿姨面對生活小挫折的一種欲哭無淚的無奈感,緊接著是情緒的失控,然後是淡然處之的微笑態度。當問題解決之後ok,旋轉跳躍一下,順便講個笑話活躍下氣氛(編不下去了...)

說了這麼多七七八八的內容,我好像還沒有真正涉及到我們的聊天內容,大家別急,馬上來!

經過篩選之後,我們得到的高頻詞的詞雲如下(形狀越大表明出現頻率越高):

我和我的閨蜜們都在聊什麼?

正如我朋友圈所言:

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

再看看詞高頻名詞top5和高頻動詞top5:

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

很欣慰!我們除了“吃”“這項人類生存基本需求和“買”這項女生基本生存需求,作為學生還會經常“想”和"說”有關“老師”“學校”和“室友”的優秀話題。

其中出現了一個比較有趣的關鍵詞——杭州,有點怪異,但其實又在情理之中。因為我們三個有一個是在杭州上學的,有一個是想要去杭州求職的,自然提到的次數就有點高了(畢竟我們是愛學習愛工作經常思考未來的新世紀獨立女性,耶)。

最後,欣賞一下我們的個人詞雲(為了美觀,刪去了特別高頻的“哈哈哈”“哈哈哈哈”“男朋友”等關鍵字啦)

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

重要鳴謝!!!

最後的最後,感謝潤貽同學和美少女允許我使用寶貴的聊天記錄,筆芯兩位小可愛!喔,我也可愛。

<< 滑動查看下一張圖片 >>

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

我和我的閨蜜們都在聊什麼?

出鏡:Yura 潤貽 美少女

我和我的閨蜜們都在聊什麼?

往期精彩:

  • shinydashboard與shiny_史上最全(一)
  • 金三銀四求職季,七週成為數據分析師
  • R語言中文社區2018年終文章整理(作者篇)
  • R語言中文社區2018年終文章整理(類型篇)
我和我的閨蜜們都在聊什麼?

回覆 爬蟲 爬蟲三大案例實戰

回覆 Python 1小時破冰入門

回覆 數據挖掘 R語言入門及數據挖掘

回覆 人工智能 三個月入門人工智能

回覆 數據分析師 數據分析師成長之路

回覆 機器學習 機器學習的商業應用

回覆 數據科學 數據科學實戰

回覆 常用算法 常用數據挖掘算法

你最“好看”,你可以點


分享到:


相關文章: