Python+Scrapy爬虫框架之Middleware文件详解

佚名

2020-12-14 12:30:49

<code># -*- coding: utf-8 -*- # 在这里定义蜘蛛中间件的模型 # Define here the models for your spider middleware # # See documentation in: # https://doc.scrapy.org/en/latest/topics/spider-middleware.html from scrapy import signals # ===========================Spider Middleware============================ # 定义：介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。 # Spider Middleware功能：处理爬虫的请求输入和响应输出 # scrapy已经提供了一些直接使用的中间件，他被SPIDER_MIDDLEWARES_BASE定义： # { # 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, # 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500, # 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700, # 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800, # 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900, # } # =================SpiderMiddleware类================== class MaoyanSpiderMiddleware(object): @classmethod # 类方法，参数crawler，可以通过crawler调用settings里的全局参数 def from_crawler(cls, crawler): """ :param crawler: 获取settings里的全局参数，如crawler.settings.get(参数) """ s = cls() # 调用spider_opened函数进行爬取数据并对该函数发送该信号。该信号一般用来分配spider的资源 crawler.signals.connect(s.spider_opened, signal=signals.spider_opened) # 调用spider_closed函数进行关闭爬虫并对该函数发送该信号。该信号用来释放spider在spider_opened时占用的资源。 # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed) return s # 当返回来的response被Spider Middleware处理时，该方法被调用 def process_spider_input(self, response, spider): """ :param response: 被Spider Middleware处理的response对象 :param spider: 返回response对应的spider对象 """ return None # 当spider处理response对象的结果后，该方法被调用 def process_spider_output(self, response, result, spider): """ :param response: 被spider处理后得到结果的response对象 :param result: result包含Item或request对象的可迭代对象，即spider返回的response结果 :param spider: 返回response对象的spider对象 """ # 遍历返回的可迭代对象 for i in result: yield i # 当spider的process_spider_input和process_spider_output发生异常时调用该方法 def process_spider_exception(self, response, exception, spider): """ :param response: 异常被抛出时被处理的response对象 :param exception: 抛出的异常 :param spider: 抛出该异常的spider对象 """ pass # 以spider启动的request为参数调用该方法,返回一个request可迭代对象 def process_start_requests(self, start_requests, spider): """ :param start_requests: 开始请求的可迭代对象 :param spider: 开始请求所对应的spider对象 """ # 遍历可迭代对象 for r in start_requests: yield r # 当spider开启时调用该函数，说明开始爬取数据并分配spider的资源 def spider_opened(self, spider): """ :param spider: 开始爬取的spider对象 """ spider.logger.info('Spider opened: %s' % spider.name) # # 当某个spider被关闭时，说明关闭该爬虫并释放spider在spider_opened时占用的资源。 # def spider_closed(self, spider): # """ # :param spider: 开始爬取的spider对象 # """ # spider.logger.info('Spider opened:%s'%spider.name) # ======================Downloader Middleware======================== # 定义：位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。见scrapy框架图 # Downloader Middleware功能：可以修改User-Agent、处理重定向、设置代理、失败重试、设置Cookies等 # scrapy已经提供了一些直接使用的中间件，他被DOWNLOADER_MIDDLEWARES_BASE定义： # { # 'scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware': 100, # 'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware': 300, # 'scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware': 350, # 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400, # 'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 500, # 'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware': 550, # 'scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': 580, # 'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware': 590, # 'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 600, # 'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700, # 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750, # 'scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 830, # 'scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850, # 'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 900, # } # ===============DownloaderMiddleware类================= class MaoyanDownloaderMiddleware(object): @classmethod # 类方法，参数crawler，可以通过crawler调用settings里的全局参数 def from_crawler(cls, crawler): """ :param crawler: 获取settings里的全局参数，如crawler.settings.get(参数) """ s = cls() # 调用spider_opened函数进行爬取数据并对该函数发送该信号。该信号一般用来分配spider的资源 crawler.signals.connect(s.spider_opened, signal=signals.spider_opened) # 调用spider_closed函数进行关闭爬虫并对该函数发送该信号。该信号用来释放spider在spider_opened时占用的资源。 # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed) return s # request被scrapy从调度器调度给Downloader Middleware之前调用该方法对request对象进行处理 def process_request(self, request, spider): """ :param request: 就是scrapy从调度器调度出来的request对象 :param spider: 就是scrapy调度出来的request对象的spider对象 """ return None # request对象被Downloader Middleware执行后返回response是才调用该方法对response对象进行处理 def process_response(self, request, response, spider): """ :param request: 调度出来被Downloader Middleware处理的request对象 :param response: Downloader Middleware处理request对象返回后的response对象 :param spider: response返回来的spider对象 """ return response # 当process_request和process_response发生异常时调用 def process_exception(self, request, exception, spider): """ :param request: 产生异常的request对象 :param exception: 抛出的异常对象 :param spider: 产生异常的request对象的spider对象 """ pass # 当spider开启时调用该函数，说明开始爬取数据并分配spider的资源 def spider_opened(self, spider): """ :param spider: 开始爬取的spider对象 """ spider.logger.info('Spider opened: %s' % spider.name) # # 当某个spider被关闭时，说明关闭该爬虫并释放spider在spider_opened时占用的资源。 # def spider_closed(self, spider): # """ # :param spider: 开始爬取的spider对象 # """ # spider.logger.info('Spider opened: %s' % spider.name)/<code>

Python入门高级教程--Python 字典(Dictionary)

Python 条件语句

Python 炫技操作：海象运算符的三种用法

如果不懂 numpy，请别说自己是 python 程序员

Python 2最后一个版本Python 2.7.18发布！Python 2即将落幕！

Java vs Python，谁能胜出？

用 Python 写一个计算肥胖指数的工具，原来开发就是这么简单

这几个超级实用的 Python 技巧

Python 3.9 最新内幕，这些内置类型将迎来性能提升

Java、Python、C++小白选哪个入门？

Python 2.7 辛苦了，Python 3.7，你好

python《青春有你2》练习生照片爬取

Python 之父为什么嫌弃 lambda 匿名函数？

太赞了，微软正式推出 Python 零基础教程！

如何使用 pdb 来性感 debug 你的 Python 代码？

Python 约瑟夫生者死者小游戏

Python generator，初学者最容易忽视的神器

Python 实现生命游戏

python 现在值不值得我们去学？情景应用是那些？

Python 3.9 性能优化：更快的list()、dict()和range()等内置类型

教小朋友学 Python -- 字典与集合

教小朋友学 Python -- 函数与Lambda表达式

技术图文：教小朋友学 Python -- 列表与元组

技术图文：教小朋友学 Python -- 字符串与序列

教小朋友学 Python -- 变量、运算符与数据类型

教小朋友学 Python -- 条件与循环

一行 Python 代码能实现什么丧心病狂的功能？

Python 3 学习笔记：序列（二）

Python 3 学习笔记：面向对象编程（一）

Python 3 学习笔记：异常代码调试

Python 3 学习笔记：目录&文件处理（二）

Python 3 学习笔记：流程控制

Python、Java的区别

干货 | Python 常见的17个错误分析

如何为 Linux 打包 Python 应用 | Linux 中国

福利！你想要的Android、Java、Python、QT等等视频资源

【每日学习】Python

Python 成功上位，正在赶超JAVA成为最火编程语音（文末干货分享）

Python Logging 模块完全解读

Python 中那些令人拍案叫绝的功能

python-snakebite操作Hadoop

用 Python 自动化办公能做到哪些有趣或有用的事情？

Golang VS Python，谁将是下一代编程语言王者？

教你C语言、Python、Scratch语言比较三个数大小的方法

一千万次的自动评阅——Python 教育的新变革

Python 对象持久化简介

Python 运行慢？

小白学 Python 爬虫（17）：Requests 基础使用

十大热门编程语言：不死 Java、不朽 C/C ++、新贵 Python

Python：3分钟看懂，基于 Psycopg2 的 PostgreSQL 操作指南！

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

备考消防的几大错觉，你有这个情况吗？

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

应急科普丨“五一” 期间气温回升谨防森林火灾隐患

搞笑GIF开心一刻：拍照啦，赶紧看镜头

工程发承包、工程造价条款，或迎来大调整

相關文章: