前不久用python寫了一款超級URL採集器,不敢獨享,分享給大夥!

前不久用python寫了一款超級URL採集器,不敢獨享,分享給大夥!

前不久用Python寫了一款超級URL採集程序,自己用了發現效果不錯。並且網上很多采集工具不但失效,而且還基本只能採集單一搜索引擎的,不敢獨享,分享給大夥。

軟件簡介:(私信小編007即可獲取大量Python學習資源,包含PDF以及視頻教程)

根據關鍵詞,支持同時對多個搜索引擎內容檢索結果的網址內容進行URL採集與過濾(支持中文)。

程序主要運用於安全滲透測試項目,以及批量評估各類CMS系統0DAY的影響程度,同時也是批量採集自己獲取感興趣的網站的一個小程序~~

可自動從搜索引擎採集相關網站的真實地址與標題等信息,可保存為文件,自動去除重複URL。同時,也可以自定義忽略多條域名。

程序特點:

  • 支持同時採集多個搜索引擎(已內置了百度,搜狗,360),結構模塊化,很方便進行擴展,可以無限添加。
  • 獲取到的是搜索引擎的搜索結果的真實URL地址
  • 可以忽略不需要的常見網站,如忽略百度翻譯,等等所有百度相關結果,給數組添加baidu.com即可。程序已經默認忽略了很多條,也支持根據自己的需求進行自定義。如
  • filter_array1 = ['baidu.com','sina.com.cn','sohu.com','taobao.com','douban.com','163.com','tianya.cn','qq.com','1688.com']
  • filter_array2 = ['ganji.com','58.com','baixing.com']
  • filter_array3 = ['zhihu.com','weibo.com','iqiyi.com','kugou.com','51.com','youku.com','soku.com','acfun.cn','verycd.com']
  • filter_array4 = ['google.cn','youdao.com','iciba.com','cdict.net']
  • filter_array5 = ['pconline.com.cn','zcool.com.cn','csdn.net','lofter.com']
  • 實時顯示採集到的網頁的【真實URL】以及【標題】。前面的【ID】對應的是當前頁百度結果的第X條數據
  • 可以自定義採集返回的是詳細URL,或者只採集返回域名
  • 自動保存結果到當前目錄的txt文件,文件名為搜索的 關鍵詞.txt
  • 為了方便導入到其他工具,txt文件裡面只記錄了採集的網址。當然也可以自定義加入。如果需要同時記錄標題,把代碼中的註釋刪除即可
  • 自動去除重複記錄
  • 統計總採集條數(143 found),有效的條數(91 checked),被過濾的條數(52 filter),以及被過濾的重複的URL條數(9 delete)
  • 開源免費使用,甚至可以根據自己的需求進行修改,只須保留版權信息。
  • 跨平臺,並且無捆綁後門風險,更新方便。網上大部分URL採集軟件為WINDOWS下的可執行文件,並且很多都在百度更新後無法正常使用。
  • 程序會不斷更新,根據搜索引擎規則的調整而調整,同時也會增加運行效率與代碼質量,功能等。

運行截圖:

前不久用python寫了一款超級URL採集器,不敢獨享,分享給大夥!

前不久用python寫了一款超級URL採集器,不敢獨享,分享給大夥!

運行環境:

測試環境為Mac Pro 10.12

測試環境系統為Mac Pro 10.12

測試環境python版本為2.7

使用說明

如果提示模塊不存在,則根據提示進行安裝!

為了防止採集過快導致封IP之類的事情,程序已經設置了延遲時間。建議不要追求速度,免得換IP。

2.0版本的文件為superl-url.py

如果要採集關鍵詞為“hacker”的相關網站,採集搜索結果的前3頁,則輸入如下:

please input keyword:hacker

Search Number of pages:3

配置文件說明

[global]

savefile = True ;是否保存文件

sleeptime = 30 ;延遲30秒

[filter]

filter_urlparam = True ;是否去除URL參數

filter_url = True ;是否過濾網址

filter_title = True ;是否過濾標題

[log]

write_title = True ;是否把標題也寫入日誌文件

write_name = True ;是否把搜索引擎名稱也寫入日誌文件

[search]

baidu_search = True ;是否開啟百度搜索

sougou_search = True ;是否開啟搜狗搜索

so_search = True ;是否開啟360搜索

baidu_page_size = 50 ;百度結果每頁顯示50條

sougou_page_size = 50 ;搜狗結果每頁顯示50條


關於更新

2.0新版,對程序進行了重寫升級,模塊化開發,方便後期的擴展;

2.0新版,內置的搜索引擎增加。包括百度,搜狗,360搜索(新增加支持的搜索引擎比較容易);

2.0新版,增加了配置文件,無需更改代碼即可自定義。方便新手使用;

由於時間倉促,沒有做優化。很多自定義參數也採用了默認值,下一個版本加上自定義參數

後免將陸續添加Bing搜索引擎,goole引擎的採集功能,與百度的進行一個合併。如果需求提高,也增加多線程或者多進程掃描

源碼:

前不久用python寫了一款超級URL採集器,不敢獨享,分享給大夥!


分享到:


相關文章: