話不多說,直接本主題!
如何於海量的互聯網網站中獲取有用資源信息,對網站的進一步優化有重要作用。為了提高網站資源獲取的準確性及效率,本文提出一種基於Python的本地網站自動化爬蟲程序設計,採用搜索查詢工信部網站備案號呈現全量甘肅本地網站的方案,實現內容爬取高效及全面。最後針對甘肅移動資源進行網站優化,提高本地網站質量。
Python網站爬蟲原理
基於Python網站爬取工具[2]包含網站爬取、網站分析、數據存儲共3個模塊,如圖1所示。
1.1 網站爬蟲方案
網站爬蟲系統通過搜索網站中的超鏈接信息不斷獲得網絡上的其它網站信息,並自動篩選有用信息[。因此首先需要確定如何獲取網站信息,本文提出4種網站爬蟲方案。
1.1.1 DNS查詢方案
通過DNS系統訪問日誌獲取。優點:網內最準確數據來源;缺點:本地網站排名DNS解析次數TOP十萬以後。
1.1.2 CP流量排名查詢方案
通過亞馬遜免費網站訪問量查詢。優點:按網站瀏覽量顯示,排名變化趨勢數據可查詢;缺點:數據不全,以大型CP為主,本地網站無法統計。
1.1.3 搜索引擎排名查詢方案
通過百度、搜狗等搜索引擎查詢。優點:全網網站收錄較全;缺點:存在CP付費排名優先的風險,本地民生網站排名靠後。
1.1.4 工信部網站備案號查詢方案
通過工信部網站備案號查詢。優點:所有網站信息均通過工信部備案,全網數據最全;缺點:部分網站可能本省DNS無解析數據。
通過分析四種方案的優缺點,本文選用基於工信部網站備案號查詢方案。
1.2 網站爬蟲流程
1.2.1 構造網站
url_base=″http://icp.chinaz.com/隴ICP備″+year_get+num+″號″
URL不同網站備案號不同,需通過程序構造備案號完成遍歷。
1.2.2 獲取HTML信息
查看網頁源代碼,詳細處理涉及正則匹配等。
1.2.3提取網站域名
關聯提取網站全量有用信息。
1.2.4 DNS解析網站IP
調用甘肅移動公網DNS地址,實現批量DNS解析。
1.2.5獲取IP地址歸屬
通過阿里API返回IP地址信息的json串,獲取IP地址歸屬。
1.2.6呈現網站信息
通過EXCEL導出全量網站信息。
python,用一次爽一次,一直用一直爽,媽媽再也不用擔心我找不到數據了。
唯一的缺點就是有點掉頭髮!
閱讀更多 往日好食光 的文章