兵哥漫談
其實用PHP去做爬蟲不是很適合,不過也有幾個爬蟲框架。
phpspider
這個框架在github上有3.1K的星。使用起來也非常方便,還有比較完整的開發文檔。對新手來說非常友好。
而且把爬蟲常見的問題,都列舉出來了,看文檔基本上就能手上抓去東西。
Beanbun
這個框架在github上有1K的星,Beanbun 是一個簡單可擴展的爬蟲框架,支持分佈式,支持守護進程模式與普通模式,守護進程模式基於 Workerman,下載器基於 Guzzle。
支持分佈式和redis隊列,功能更強大,但是上手難度也上去了。
XCrawler
XCrawler在github上就只有343星了,功能和第一個phpspider差不多,支持失敗重試、代理、斷點續爬還是不錯的。
斜陽說
雖然我自己的本質是PHPer,但是用了這幾個框架之後,還是覺得python拿來做爬蟲更合適一點。