一文搞懂分布式进程爬虫

来源:JAP君 
链接:https://mp.weixin.qq.com/s/7N6fRAq0tRiuVZeXxgbwLA

1.预备知识

今天咱们来扯一扯分布式进程爬虫,对爬虫有所了解的都知道分布式爬虫这个东东,今天我们来搞懂一下分布式这个概念,从字面上看就是分开来布置,确实如此它是可以分开来运作的。

分布式进程就是将进程分布到多台机器上去,充分利用每一台机器来完成我们的爬虫任务。分布式进程需要用到multiprocessing模板,multiprocessing模板不但支持多进程,它的managers子模块还支持把多进程分布到多台机器上。

我们可以写一个服务进程作为调度者,然后将我们的爬虫任务分布给其他的多个进程当中去,我们依靠网络通信来管理这些进程。

2.模拟一个分布式进程爬虫


我们来模拟进行一个分布式进程的爬虫吧,就比如我们需要抓取某个图片网站的所有图片,如果用我们的分布式进程的思想,我们会创建一个进程负责抓取图片的链接地址,然后将这些链接地址存放到Queue中,另外的进程负责从Queue中读取链接进行图片的下载或者进行其他操作(存在本地).

其实我们的Queue是暴露在网络中的,通过分布式就是将其进行了封装,其实也就是所谓的本地队列的网络化。

接下来,我们来分析一下如何去创建一个分布式的服务进程,总体可以分为六步:

  1. 首先我们需要建立一个队列queue,这个主要用作进程之间的通信。总体来说就是两种进程,一种是服务进程,一种是任务进程。服务进程创建任务队列task_queue,用作传递任务给任务进程的通道。服务进程又创建result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式进程的环境下,我们需要通过Queuemanager 获得的Queue接口来添加任务。
  2. 把我们在第一步中队列在网络上进行注册,暴露给其他的进程或者主机,注册后获得网络队列,相当于本地队列的映像。
  3. 建立Queuemanager的对象,并且实例化,绑定端口和口令
  4. 启动第三步中建立的实例,即启动管理manager,监管信息通道
  5. 通过管理实例的方法获取到通过网络访问的queue对象,也就是把网络对象实体化成本地的一个队列。
  6. 创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。

我们就来写一下服务进程的代码 taskManager.py:

python爬虫 | 一文搞懂分布式进程爬虫

python爬虫 | 一文搞懂分布式进程爬虫

python爬虫 | 一文搞懂分布式进程爬虫

上面就是我们的服务进程,我把解析都写在了里面,大家可以仔细看一下,接下来我们来写任务进程(taskWorker),创建任务进程也比较简单,只有简单的四步:

1. 创建一个类似的QueueManager对象,使用QueueManager注册用于获取queue的方法名称,任务进程只能通过名称来在网络上获取queue,所以这里一定要注意服务端和任务端的名称要相同。

2. 链接服务器,端口和指令一定要与服务端相同

3. 从网络上获取queue,并且将其本地化。

4. 从task对列中获取任务,并且把结果写入result对列。

python爬虫 | 一文搞懂分布式进程爬虫

python爬虫 | 一文搞懂分布式进程爬虫

详细的步骤也写在里面了,当然这个任务队列,我们是可以创建多个的,每个任务进程都会完成自己的事,而不会干扰其他的任务进程,这也就让我们的url不会重复的去爬取,从而完美的实现了多个进程来爬取我们的任务。

以上就是一个非常简单的分布式进程的爬虫小案例,大家可以通过这种方式去实战自己的一个小项目,在这里还说一下,我们是可以将我们的任务分布到多台机器上的,这样我们就实现了大规模的爬取。


分享到:


相關文章: