介紹
平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺
特性
- 支持Xpath/JsonPath/css選擇器/正則提取/混搭提取
- 支持JSON/XML/二進制格式
- 支持多數據源、SQL select/selectInt/selectOne/insert/update/delete
- 支持爬取JS動態渲染(或ajax)的頁面
- 支持代理
- 支持自動保存至數據庫/文件
- 常用字符串、日期、文件、加解密等函數
- 支持插件擴展(自定義執行器,自定義方法)
- 任務監控,任務日誌
- 支持HTTP接口
- 支持Cookie自動管理
- 支持自定義函數
插件
- Selenium插件
- Redis插件
- OSS插件
- Mongodb插件
- IP代理池插件
- OCR識別插件
- 電子郵箱插件
項目部分截圖
爬蟲列表
爬蟲測試
Debug
日誌
地址:https://github.com/javamxd/spider-flow
閱讀更多 項目管理聯盟 的文章