爬蟲掙錢-(完結篇)結構化人名掙錢第三篇

本篇是寫利用爬蟲技術來結構化人物做網站掙網盟收入的第三篇,也是完結篇,這篇主要寫我是怎麼思考的,是如何分析到這個領域的, 我會再舉一個我思考過的實例。

爬蟲掙錢-(完結篇)結構化人名掙錢第三篇


Linkedin為了增加搜索流量,把用戶的個人檔案頁面開放給搜索引擎索引,此舉讓Linkedin搜索流量倍增,讓我明白了人名這一塊的搜索流量原來如此大, 這麼多人搜索。在這之前我的認知是隻有明星,大人物才會有人在網上搜索,其實小人物(相對的),公司小領導,乃至平常百姓都會有人在網上搜索。

我花了很多時間去研究這塊流量的掙錢機會,發現還有很多人物是沒有百度百科,linkedin的(如果百度百科或linkedin上已經有這些人物了,你做同樣的人物有搜索排名的概率很小),他們的信息都零星散落在一些新聞報道,人物採訪,會議的嘉賓介紹上,需要利用爬蟲手段把這些網頁全部抓回來存儲好,然後研究使用各種文本結構化技術來提取相關跟人物相關的信息。(這個過程很痛苦,沒毅力的就算了)。

這個我沒有實踐過,是分析的時候曾經想過。我把視角一直放在國內,一直在結構化國內的人名,在中國有這種搜索行為,在國外也會有這種搜索人名的行為。為何不去做一個英語網站,關於人物介紹的英語網站呢?尋找還沒有維基百科的人物。而且英語比中文的文本處理要容易,至少不需要中文分詞,英語單詞間都是空格隔開的。

還有就是掙google adsense(類似百度網盟),掙的是美金,美金跟人名幣是1:6.7的關係,也就是同樣情況下,你在國內百度網盟一年掙10萬RMB,做google是10萬美刀(合67萬人民幣),有想法的可以深入研究下這塊的人名機會。

爬蟲掙錢-(完結篇)結構化人名掙錢第三篇


需要運用到的技術

1.不錯的爬蟲抓取技術(抓網頁,抓微博,抓微信公眾號)

2.不錯的文本結構化技術

對中文做文本處理,懂點自然語言處理(nlp)是必須的。

3.Web開發技術

無論是自己寫網站還是使用開源博客系統,至少要懂得怎麼配置nginx(web服務器),linux,mysql,python(或php)

4.搜索引擎優化技巧

各大搜索引擎都提供官方的優化指南,理解並按照官方規則實施即可,其實我沒有過度關注搜索優化,因為你提供了搜索引擎缺失的內容,它是喜歡的,你需要有耐心等待有搜索排名的那一刻。

整合數據做網站掙搜索流量的思考

1.結構化人名只是整合數據的一個方向之一,而且是比較累的,相信還有其他領域是有這個機會的,只是我的視野還沒有看到。整合數據做網站不是做垃圾網站,不是做拷貝複製網站,是要找到搜索引擎還缺失的內容,去彌補這塊內容,你的網站滿足了搜索引擎,它自然會給你的網站有搜索排名。

典型的如企業工商信息查詢,官方一直是有企業工商信息網站的,但是信息很分散,另一個就是搜索引擎爬蟲很難爬取這類官方網站,這給了天眼查/企查查機會,把企業工商信息全部結構化出來很方便用戶查閱,每天的搜索流量幾十萬。

2.結構化的規模一定要大才有機會,因為這些的每一個搜索量都非常小,只有結構化足夠規模才能積少成多。

爬蟲掙錢-(完結篇)結構化人名掙錢第三篇


完結


分享到:


相關文章: