項目管理之開源: 無需代碼,小白也可完成網站數據的爬取

介紹

平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺

特性

  • 支持Xpath/JsonPath/css選擇器/正則提取/混搭提取
  • 支持JSON/XML/二進制格式
  • 支持多數據源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS動態渲染(或ajax)的頁面
  • 支持代理
  • 支持自動保存至數據庫/文件
  • 常用字符串、日期、文件、加解密等函數
  • 支持插件擴展(自定義執行器,自定義方法)
  • 任務監控,任務日誌
  • 支持HTTP接口
  • 支持Cookie自動管理
  • 支持自定義函數

插件

  • Selenium插件
  • Redis插件
  • OSS插件
  • Mongodb插件
  • IP代理池插件
  • OCR識別插件
  • 電子郵箱插件

項目部分截圖

爬蟲列表

項目管理之開源: 無需代碼,小白也可完成網站數據的爬取

爬蟲測試

項目管理之開源: 無需代碼,小白也可完成網站數據的爬取

Debug

項目管理之開源: 無需代碼,小白也可完成網站數據的爬取

日誌


項目管理之開源: 無需代碼,小白也可完成網站數據的爬取

地址:https://github.com/javamxd/spider-flow


分享到:


相關文章: