爬蟲掙錢:數據整合之–結構化人名的機會

看過我過往文章的老朋友知道我的一個寫作方向是爬蟲掙錢系列,今年會持續輸出。文章裡說的事例有的是我親身實踐過,比如接爬蟲外包項目,比如數據整合做網站流量,掙百度網盟,比如爬蟲技術去做增長黑客。有的事例是我基於上述經驗而思索的方向,沒有親自實踐。

今天這篇是我親自實踐過,每年能帶來近10萬被動收入的數據整合機會—結構化人名。

什麼叫結構化人名:這個世界上有很多名人,紅人,企業高管,各行業,各垂直領域,有很多很多。只要有一點名氣就會有人在搜索引擎上輸入你的名字,檢索你的信息。每天這些搜索流量是高得可怕。

但是這些流量大頭都被百度百科截獲了,比如娛樂,體育,企業高管這些名人。


爬蟲掙錢:數據整合之–結構化人名的機會


上圖是一些名人每天在百度中的被搜索量,都是幾千-幾萬的搜索量。

這些人都在百度百科裡有詞條了,那我們還有機會嗎?

有,其實還有很多很多小名人,他們是沒有百度百科的,用戶在百度上搜索這些人名,只能在很多張網頁中看到他們的隻言片語, 他們的信息都散落在各個網頁裡,需要使用技術手段把這些人物結構化出來,把他們的發言,簡介等個人相關信息結構化出來做成一張張網頁。

哪些人物還有這種結構化機會?大公司的基中層管理者,網絡小V(相對於大V來說),小公司的高級管理者,垂直領域的知名者。舉幾個例子:吳翰清,你知道是誰嗎?他是阿里雲首席科學家,人稱道哥,他是沒有百度百科的。看看他的百度指數:


爬蟲掙錢:數據整合之–結構化人名的機會

每天1000多人搜索。

比如曹政,網絡名caoz,知名網絡大V,他也是沒有百度百科的。他沒有百度指數,但是從我的流量統計數據看,每天也有上百人搜索他。

爬蟲掙錢:數據整合之–結構化人名的機會

上圖是我的百度統計的搜索詞流量的部分截圖,你可以看到還有好些人名,他們都是各個領域的小有名氣者。每天都有人在百度上搜索他們的名字。PS:曹政的公眾號:caoz ,的文章乾貨滿滿,很能開拓運營視野和知識邊界。

結構化這些人名之後幹什麼?做成網站,做成一個頁面簡單的人物介紹網站,一個人物一張網頁,網頁裡是這個人物的個人介紹相關內容(這些是靠技術結構化出來的)。以便於被百度搜錄,讓網站有搜索流量進入,每天掙百度網盟費。

這是在做垃圾網站嗎?No. 用戶搜索這些人名是想了解他們的信息,而這些信息之前都是散落在不同地方的,用戶在搜索引擎裡要一張張網頁點擊尋找,查閱是很繁瑣的,你把這些信息聚合在一起一次性展示給用戶,是節約用戶時間,搜索引擎也是很歡迎這樣做的。

涉及到的知識?爬蟲技術,數據結構化,自然語言處理,Web知識,簡單網站運營技巧。

這是考驗你各方面抓取能力的,你需要寫一個不錯的爬蟲程序去大量抓取網頁;你需要運用各種手段(正則,bs,xpath等)去抽取千奇百怪的網頁格式數據;還需要一點自然語言處理技術來提高結構化的準確度和效率。無論是自己搭建簡易網站還是使用wp等博客系統,都需要對Web知識和網站運營有一點了解。

如何抓取?抓取網頁需要入口,需要準備一些關鍵字,比如:嘉賓介紹、高管介紹,作者簡介、公司董事等等關鍵詞藉助百度,google,微信,微博等搜索渠道,過濾出可能的網頁,然後對這些網頁實施抓取和結構化。結構化是超級繁瑣的事情。

要結構化多大量的人名?你需要大量結構化至少數十萬條人名才能每天有過萬的流量,這個沒辦法靠人工,一個一個去網頁上找然後整理編輯,因為這些人名的每天搜索量很小,靠人工每天去編輯幾十條,要到猴年馬月去了。我結構化了大約10萬個人名,每天有4萬IP左右,IP對應的百度網盟收入是:100:1的關係。

爬蟲掙錢:數據整合之–結構化人名的機會

為什麼我要說這些?1.我寫的結合爬蟲掙錢系列文章是一種思路,需要同時具備不錯的技術能力和流量運營思維。有這個技術的人可能不懂得如何運營,有這個流量視野的人可能技術上不行。

2.築巢引鳳,我領悟到了這裡面的流量機會,如果能把人名結構化規模擴大到百萬級,每年的網盟收入就會有數百萬。

如果你有大量人物資料這方面的合法資源、渠道、點子,技術實力,私聊我,我們一起掙錢錢。

PS:不要問以下兩個問題:1.你的網站是哪個?2.能不能把代碼貢獻出來?我又出點子,又給代碼,有這麼好的躺掙機會請給我也來一打。


分享到:


相關文章: