如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

抓了10w個頭條數據,分析了1w條爆文,寫出了10w閱讀的內容

來源:盧鬆鬆博客 | 時間:2018年08月02日 07:18



理論

今日頭條在2012年創立之後,一路高歌猛進,積累了大量的用戶,曾一度號稱日均活躍用戶高達2.5億,可見其用戶體量是何等的巨大,這也成了作為我們重要的引流陣地。期間,也有很多前輩寫了一些關於今日頭條技術攻略文章,總體可以歸納為以下幾個量化的指標:

1) 點擊率

2) 閱讀時間

3) 評論

5) 收藏

6) 轉發

雖然這些因素都很重要,但是這些都不是我要討論的點,我要討論的重點是內容的構造。有些大佬也分享過,內容歸結起來有兩點:一是追熱點,二是尋找熱搜關鍵詞,然後根據關鍵詞去做內容。熱點或熱搜關鍵詞可以通過以下幾種渠道去尋找:

1) 新浪熱搜(http://s.weibo.com/top/summary?cate=realtimehot)

2) 百度搜索風雲榜(http://top.baidu.com/)

3) 關鍵詞規劃師(http://www2.baidu.com/)

4) 5118(http://www.5118.com/)

5) 詞庫網(http://www.ciku5.com/)

6) 愛站詞庫(https://ci.aizhan.com/)

的確,這些都是行之有效的方法,但是我還想是從使用場景出發,來探討一下內容構造。

場景舉例

小純是一個喜歡體育資訊的人,打開今日頭條的時候,他會看一些體育資訊,當然看到熱點新聞或者美女圖片的時候,他也會點開了看一下,那麼今日頭條也會根據小純的興趣愛好和瀏覽軌跡,生成大數據標籤,可能給他貼上的標籤是:90後、喜歡美女、猥瑣男、體育,然後根據這些標籤去給我推薦內容。

這個就是一般用戶的使用場景,通過場景能夠推導出內容首先需要滿足兩個條件:一是符合用戶標籤,二是標題具有吸引力的,根據標題跟標籤去創造內容。那麼什麼樣的內容才會具有兩個條件?其實可以參看閱讀量在10w+,100w+的爆文。

實操

工具

python

python geckodriver

python PhantomJS

python第三方庫:selenium、jieba(結巴)

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

第一步,打開今日頭條娛樂版塊(https://www.toutiao.com/ch/news_entertainment/):

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

由於是信息流樣式,所以只有不斷的鼠標往下拉,才能得到之前的文章,那麼我們小調用火狐瀏覽器,具體代碼參考如下,它可以實現瀏覽器自動滑動,顯示信息流的內容

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

然後excel整理得出的結果是,可以得出文章的url跟標題。

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

第二步,篩選高評論的文章,一般情況下,評論數跟閱讀量是成正比的,然後抓取高評論文章的標籤,代碼參考如下:

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

然後excel整理得出的結果是,可以得出文章對應的標籤。

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

最後通過excel數據透視表得出結果:

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

第三步,進行爆文標題分詞,分析爆文出爆文常用詞,代碼參考如下:

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

經過Excel數據透視表整理得出結果,分析佔比最大的常用詞,

如何抓10w個頭條數據,分析1w條爆文,寫出10w閱讀的內容

總結

1、 越多爆文都使用的標籤,說明其受眾是巨大的,才有可能成為爆文的可能;我們創作內容使用這些標籤,或者針對這些標籤創作內容,在一定程度上讓我們內容具備了爆文的特質。

2、 除了內容本身之外,標題佔了很重要的一部分,那麼抓取標題常用詞,在一定程度上就能夠吸引到用戶去點擊我們所創作的內容。


分享到:


相關文章: