前不久用python写了一款超级URL采集器，不敢独享，分享给大伙！技术頭條網

前不久用Python写了一款超级URL采集程序，自己用了发现效果不错。并且网上很多采集工具不但失效，而且还基本只能采集单一搜索引擎的，不敢独享，分享给大伙。

软件简介：（私信小编007即可获取大量Python学习资源，包含PDF以及视频教程）

根据关键词，支持同时对多个搜索引擎内容检索结果的网址内容进行URL采集与过滤(支持中文)。

程序主要运用于安全渗透测试项目，以及批量评估各类CMS系统0DAY的影响程度，同时也是批量采集自己获取感兴趣的网站的一个小程序~~

可自动从搜索引擎采集相关网站的真实地址与标题等信息，可保存为文件，自动去除重复URL。同时，也可以自定义忽略多条域名。

可以忽略不需要的常见网站，如忽略百度翻译，等等所有百度相关结果，给数组添加baidu.com即可。程序已经默认忽略了很多条，也支持根据自己的需求进行自定义。如
filter_array1 = ['baidu.com','sina.com.cn','sohu.com','taobao.com','douban.com','163.com','tianya.cn','qq.com','1688.com']
filter_array2 = ['ganji.com','58.com','baixing.com']
filter_array3 = ['zhihu.com','weibo.com','iqiyi.com','kugou.com','51.com','youku.com','soku.com','acfun.cn','verycd.com']
filter_array4 = ['google.cn','youdao.com','iciba.com','cdict.net']
filter_array5 = ['pconline.com.cn','zcool.com.cn','csdn.net','lofter.com']
实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页百度结果的第X条数据
可以自定义采集返回的是详细URL，或者只采集返回域名
自动保存结果到当前目录的txt文件，文件名为搜索的关键词.txt
为了方便导入到其他工具，txt文件里面只记录了采集的网址。当然也可以自定义加入。如果需要同时记录标题，把代码中的注释删除即可
自动去除重复记录
统计总采集条数（143 found），有效的条数（91 checked），被过滤的条数（52 filter），以及被过滤的重复的URL条数（9 delete）