兵哥漫谈
其实用PHP去做爬虫不是很适合,不过也有几个爬虫框架。
phpspider
这个框架在github上有3.1K的星。使用起来也非常方便,还有比较完整的开发文档。对新手来说非常友好。
而且把爬虫常见的问题,都列举出来了,看文档基本上就能手上抓去东西。
Beanbun
这个框架在github上有1K的星,Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。
支持分布式和redis队列,功能更强大,但是上手难度也上去了。
XCrawler
XCrawler在github上就只有343星了,功能和第一个phpspider差不多,支持失败重试、代理、断点续爬还是不错的。
斜阳说
虽然我自己的本质是PHPer,但是用了这几个框架之后,还是觉得python拿来做爬虫更合适一点。