Scrapy 爬虫框架组件详细介绍（二）

2019-11-08 10:00:41 聽海8

1 Scrapy 爬虫框架组件详细介绍（二）

1.1 CrawlSpiders

20.1.1 爬虫CrawlSpiders类介绍

CrawlSpiders 类它是 Spider 的派生类，Spider 类的设计原则是只爬取 start_url 列表中的网页，而 CrawlSpider 类定义了一些规则( rule )来提供跟进 link 的方便机制，从爬取的网页中获取 link，并继续爬取工作，比Spiders 类模板爬虫更加适合。

前面案例创建爬虫，使用的命令如下：

scrapy genspider tencents " tencent.com "

默认使用”basic”template(模板)去创建爬虫。

如果想创建 CrawlSpider 类爬虫，可以通过下面的命令指定 crawl 模板可以快速创建 CrawlSpider 模板的爬虫。

scrapy genspider -t crawl tencents " tencent.com "

【-t 】: 指定模板。

例子：

在 DOS 下切换到下面目录。

D:\\scrapy_project\\tencent\\tencent\\spiders

执行命令：

scrapy genspider -t crawl tencents " tencent.com "

注意：命令创建的时候,爬虫文件名不能和作业域名相同，可以创建之后再改回来。

查看生成的 tencent.py 爬虫文件。

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class TencentSpider(CrawlSpider):

name = 'tencent'

allowed_domains = [' tencent.com ']

start_urls = ['http:// tencent.com /']

rules = (

Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),

)

def parse_item(self, response):

i = {}

#i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

#i['name'] = response.xpath('//div[@id="name"]').extract()

#i['description'] = response.xpath('//div[@id="description"]').extract()

return i

从生成的 tencent.py 爬虫文件和之前的Spider基类爬虫文件比较，多了如下几部分内容：

（一）需要导入 LinkExtractor、CrawlSpider、 Rule库

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

（二）爬虫类继承的是 CrawlSpider 类

（三）增加了 rules 。

（四）增加了 LinkExtractor(allow=r'Items/')

（五）新增加了一个回调函数 parse_item(self, response)

20.1.2 CrawlSpider源码

查看CrawlSpider源码。

class CrawlSpider(Spider):

rules = ()

def __init__(self, *a, **kw):

super(CrawlSpider, self).__init__(*a, **kw)

self._compile_rules()

def parse(self, response):

return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

def parse_start_url(self, response):

return []

def process_results(self, response, results):

return results

def _build_request(self, rule, link):

r = Request(url=link.url, callback=self._response_downloaded)

r.meta.update(rule=rule, link_text=link.text)

return r

def _requests_to_follow(self, response):

if not isinstance(response, HtmlResponse):

return

seen = set()

for n, rule in enumerate(self._rules):

links = [lnk for lnk in rule.link_extractor.extract_links(response)

if lnk not in seen]

if links and rule.process_links:

links = rule.process_links(links)

for link in links:

seen.add(link)

r = self._build_request(n, link)

yield rule.process_request(r)

def _response_downloaded(self, response):

rule = self._rules[response.meta['rule']]

return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

def _parse_response(self, response, callback, cb_kwargs, follow=True):

if callback:

cb_res = callback(response, **cb_kwargs) or ()

cb_res = self.process_results(response, cb_res)

for requests_or_item in iterate_spider_output(cb_res):

yield requests_or_item

if follow and self._follow_links:

for request_or_item in self._requests_to_follow(response):

yield request_or_item

def _compile_rules(self):

def get_method(method):

if callable(method):

return method

elif isinstance(method, six.string_types):

return getattr(self, method, None)

self._rules = [copy.copy(r) for r in self.rules]

for rule in self._rules:

rule.callback = get_method(rule.callback)

rule.process_links = get_method(rule.process_links)

rule.process_request = get_method(rule.process_request)

@classmethod

def from_crawler(cls, crawler, *args, **kwargs):

spider = super(CrawlSpider, cls).from_crawler(crawler, *args, **kwargs)

spider._follow_links = crawler.settings.getbool(

'CRAWLSPIDER_FOLLOW_LINKS', True)

return spider

def set_crawler(self, crawler):

super(CrawlSpider, self).set_crawler(crawler)

self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider 继承于 Spider 类，除了继承过来的属性外（name、allow_domains），还提供了新的属性和方法。

20.1.3 LinkExtractors

【class scrapy.linkextractors.LinkExtractor】

Link Extractors 的目的很简单: 提取链接｡

每个LinkExtractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。

Link Extractors 要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接｡

class scrapy.linkextractors.LinkExtractor(

allow = (),

deny = (),

allow_domains = (),

deny_domains = (),

deny_extensions = None,

restrict_xpaths = (),

tags = ('a','area'),

attrs = ('href'),

canonicalize = True,

unique = True,

process_value = None

)

主要参数：

【allow】：满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。

【deny】：与这个正则表达式(或正则表达式列表)不匹配的 URL 一定不提取。

【allow_domains】：会被提取的链接的 domains。

【deny_domains】：一定不会被提取链接的 domains。

【restrict_xpaths】：使用 xpath 表达式，和 allow 共同作用过滤链接。

20.1.4 rules

from scrapy.spiders import Rule

查看 Rule 方法实现的源码。

在 rules 中包含一个或多个 Rule 对象，每个 Rule 对爬取网站的动作定义了特定操作。如果多个 rule 匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用。

class scrapy.spiders.Rule(

link_extractor,

callback = None,

cb_kwargs = None,

follow = None,

process_links = None,

process_request = None

)

主要参数：

【link_extractor】：是一个 Link Extractor 对象，用于定义需要提取的链接。

【callback】：从 link_extractor 中每获取到链接时，参数所指定的值作为回调函数，该回调函数接受一个 response 作为其第一个参数。

注意：当编写爬虫规则时，避免使用 parse 作为回调函数。由于 CrawlSpider 使用 parse方法来实现其逻辑，如果覆盖了 parse方法，crawl spider 将会运行失败。

【follow】：是一个布尔( Boolean )值，指定了根据该规则从 response 提取的链接是否需要跟进。如果 callback 为 None，follow 默认设置为 True ，否则默认为 False。

【process_links】：指定该 spider 中哪个的函数将会被调用，从link_extractor 中获取到链接列表时将会调用该函数。该方法主要用来过滤。

【process_request】：指定该 spider 中哪个的函数将会被调用，该规则提取到每个request 时都会调用该函数。 (用来过滤 request )

20.1.5 爬取规则( Crawling rules )

为了弄清楚爬取规则( Crawling rules )的实现过程，我们以腾讯招聘为例，使用 Scrapy Shell 交互终端一步一步展现实现的过程。

第一步：进入项目的根目录。

D:\\scrapy_project\\tencent\\tencent

执行下列命令来调用 Scrapy Shell 交互终端，发送请求。

scrapy shell "http://hr.tencent.com/position.php?&start=0"

第二步：分析腾讯招聘网站的招聘信息的分页 URL 链接。

position.php?&start=20

position.php?&start=30

position.php?&start=40

position.php?&start=50

position.php?&start=60

每个链接组合 https://hr.tencent.com/ 就是一个完整的腾讯招聘网站的招聘信息的分页 URL 链接地址。

我们要做的就是通过正则表达式把页面里的链接（position.php?&start=20

…）提取出来。

page_lx = LinkExtractor(allow=('position.php?&start=\\d+'))

第三步：获取请求响应的内容。

【response.body】

【response.text】

通常是使用 response.text 显示的是 Unicode 完整的字符串，便于匹配，一般情况，只是打印内容的时候，使用 response.body，需要解析请求的内容时，就使用：response.text。

第四步：导入 LinkExtractor，创建 LinkExtractor 实例对象。

from scrapy.linkextractors import LinkExtractor

page_lx = LinkExtractor(allow=('position.php?&start=\\d+'))

allow : LinkExtractor 对象最重要的参数之一，这是一个正则表达式，必须要匹配这个正则表达式(或正则表达式列表)的URL才会被提取，如果没有给出(或为空), 它会匹配所有的链接｡

deny : 用法同 allow，只不过与这个正则表达式匹配的 URL 不会被提取)｡它的优先级高于 allow 的参数，如果没有给出(或 None), 将不排除任何链接｡

第五步：调用 LinkExtractor 实例的 extract_links() 方法查询匹配结果。

没有查到，显示为：[]

这是由于转义字符的问题引起，修改正则表达式内容，继续重新匹配：

page_lx = LinkExtractor(allow=('position\\.php\\?&start=\\d+'))

page_lx.extract_links(response)

或者可以如下获取链接

page_lx = LinkExtractor(allow = ('start=\\d+'))

page_lx.extract_links(response)

这样我们就可以获取到了所有分页的链接地址了。

20.1.6 编写Item文件

import scrapy

class TencentItem(scrapy.Item):

# define the fields for your item here like:

# 职位名

positionname = scrapy.Field()

# 详情连接

positionlink = scrapy.Field()

# 职位类别

positionType = scrapy.Field()

# 招聘人数

peopleNum = scrapy.Field()

# 工作地点

workLocation = scrapy.Field()

# 发布时间

publishTime = scrapy.Field()

20.1.7 编写爬虫文件

import scrapy,sys,os

# 导入CrawlSpider类和Rule

from scrapy.spiders import CrawlSpider, Rule

# 导入链接规则匹配类，用来提取符合规则的连接

from scrapy.linkextractors import LinkExtractor

path = os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

sys.path.append(path)

from dg_sun.items import SunItem

class SunSpider(CrawlSpider):

name = 'sun'

allowed_domains = ['wz.sun0769.com']

start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=0']

# 投诉分页链接的提取规则，返回的符合匹配规则的链接匹配对象的列表(这里提取的是分页的链接)

pagelink = LinkExtractor(allow=("start=\\d+"))

# 投诉详情页内容链接的提取规则，返回的符合匹配规则的链接匹配对象的列表

Details = LinkExtractor(allow=r'/html/question/\\d+/\\d+.shtml')

#多条 Rule

rules = (

# 提取匹配,并跟进链接(没有 callback 意味着 follow 默认为 True )

Rule(pagelink),

Rule(Details, callback = 'parse_item',follow = True),

)

# 指定的回调函数

def parse_item(self, response):

item = SunItem()

#标题

item['title'] = response.xpath('//div[contains(@class, "pagecenter p3")]//strong/text()').extract()[0]

# 编号

item['id'] = item['title'].split(' ')[-1].split(":")[-1]

# 内容

item['content'] = response.xpath('//div[@class="c1 text14_2"]/text()').extract()[0]

# 链接

item['url'] = response.url

yield item注意：callback 千万不能写 parse()方法，再次强调：由于 CrawlSpider 使用 parse()方法来实现其逻辑，如果覆盖了 parse方法，crawl spider 将会运行失败。

20.1.8 编写管道文件

import json

class TencentPipeline(object):

def __init__(self):

self.filename = open("tencent.json", "wb")

def process_item(self, item, spider):

text = json.dumps(dict(item), ensure_ascii = False) + ",\\n"

self.filename.write(text.encode("utf-8"))

return item

def close_spider(self, spider):

self.filename.close()

管道文件跟之前案例的写法一样，没有变化。

20.1.9 修改 settings 文件

在 settings.py 文件配置里指定刚才编写的管道文件名：TencentPipeline。

下载的数据比较多，需要设定一个下载延时时间，以免下载的数据不全。

设置爬虫请求的默认头信息。

20.1.10 运行爬虫

在 dos下切换到目录

D:\\scrapy_project\\tencent\\tencent\\ 下

通过命令运行爬虫：scrapy crawl tencent

20.1.11查看爬取的结果

查看新建的 tencent.json 数据文件。

1.2 Logging 日志

Scrapy 提供了 log 功能，可以通过 logging 模块使用。

如果我们想把爬虫的输入日志保存到本地，需要在 settings.py 文件里进行设置。

# 保存日志信息的文件名

LOG_FILE = "tencent_log.log"

# 保存日志等级的设置，LOG_LEVEL（可选的级别有: CRITICAL、 ERROR、WARNING、INFO 、DEBUG ）（从高到底）

LOG_LEVEL = " DEBUG "

设置完成之后，重新运行爬虫，结果显示如下。

【Log levels】

Scrapy 提供 5 层 logging 级别:

CRITICAL - 严重错误( critical )。

ERROR - 一般错误(regular errors )。

WARNING - 警告信息( warning messages )。

INFO - 一般信息( informational messages )。

DEBUG - 调试信息( debugging messages )。

【logging设置】

通过在 setting.py 中进行以下设置可以被用来配置 logging:

LOG_ENABLED 默认: True，启用logging

LOG_ENCODING 默认: 'utf-8'，logging 使用的编码

LOG_FILE 默认: None，在当前目录里创建 logging 输出文件的文件名

LOG_LEVEL 默认: 'DEBUG'，log 的最低级别

LOG_STDOUT 默认: False 如果为 True，进程所有的标准输出(及错误)将会被重定向到 log中。

分享到:

閱讀更多 聽海8 的文章

關鍵字: 组件 BASIC语言腾讯

python爬虫框架Scrapy采集数据，并制作词云图分析！

Python+scrapy代理接入之讯代理

Python+scrapy代理接入之聚合代理

Python分布式爬虫一点也不难！Scrapy+MongoDB爬取QQ音乐实战

Python+Scrapy+Selenium数据采集!超级详细！

scrapy爬虫（三）——模拟登录

Scrapy爬虫（二）——FilesPipeline

Scrapy爬虫（一）——ImagesPipeline

Django中间件看完这篇彻底明白

一招大幅提升 requests 访问速度

Python资料：《用Python写网络爬虫》分享

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

02.27 基于python的Scrapy爬虫框架实战，小白也可操作

Scrapy-Redis分布式爬虫实战

scrapy + mogoDB 网站爬虫

Python爬虫之Scrapy爬虫框架解密与并爬取亚马逊评论数据

01.05 Scrapy + Selenium模拟登录CSDN

12.29 python爬取获取下一页的信息

爬虫小知识，scrapy爬虫框架中爬虫名词的含义

使用 Scrapy 爬取去哪儿网景区信息

Scrapy 和 scrapy-redis的区别

11.27 Scrapy 去重机制

Scrapy学习篇：Item详解

scrapy架构分析

Scrapy 爬虫完整案例-提升篇

Scrapy 爬虫完整案例-进阶篇

Scrapy框架进阶篇

python爬虫入门实战(二)！快！快！快！让爬虫赢在起跑线！多线程

07.05 「原创」「python自学笔记」安装Scrapy

高清！Python爬虫思维导图：Requests，BeautifulSoup & Scrapy

scrapy简单入门介绍

爬虫项目04-电影蜜蜂

Tool 003-Python Scrapy 爬取校花照片

Python Tool 101-Tool 003-Python Scrapy 爬取文本数据

Scrapy-Redis分布式实现

大数据开发神器——scrapy spider框架（代码入门篇）

小案例大来头，七十行代码入门Python爬虫顶级框架 scrapy！

网络爬虫框架 Scrapy 入门教程

爬取1024社区，将种子和配图保存本地，发送到指定邮箱的神奇代码

初学者学习python2还是python3？

Scrapy 爬虫框架的安装与基本介绍

Python之 Scrapy框架day02

Scrapy网络爬虫：6. 图片下载与文件下载实现异同

Scrapy网络爬虫：框架组成与工作原理-组件与数据流

用Scrapy爬取bilibili用户信息

python爬虫学习笔记day——1

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

我们买的新商品房还没有拿到房产证，怎么转卖最好？

没有取得房抄产证的房子可以转让。但如果确定无法取得房产证的，房产转让不受法律保袭护。一般情况下，只有取得房产证的房屋才能确定房屋产权人，才具有转让的条件。但如果房屋是合法取得的，以百后可以依法办理度房:-转卖房产证商品房拿到:我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

锋利突厥人你这样说只能说明你对历史非常不了解，我先用一句话概括突厥被大唐雄兵打的有多惨：三次灭国，背井离乡，远赴西亚，打不过，俺躲着你还不行吗？突厥的意思是中间怂起的头盔。其来历已经不可靠，可能有着匈奴、鲜卑或:-复国大唐:为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

小高层 60:小高层16层高楼间距60米哪一层比较好？首先需要明白，选择层数居住与楼间距毫无关系，住在哪一层，肉眼看对面楼的距离，是相差不大的。设定楼间距60米，纯粹是混淆视听。其实，一幢楼的楼层总数确定的情况下，到底哪一层最佳？很简单，取总层数乘以黄金:-楼间距层高

金银花盆栽好养吗？怎么养？

金银花可以盆栽，很好养的！金银花，是忍冬科的常绿缠绕灌木，枝条柔韧修长，多攀爬或匍匐生长。金银花生性强健，在我国的很多南方省份野外很多地区都能看到它的身影，叶子常年翠绿，到夏季开花，飘香四溢。所以，有:-金银花盆栽:金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

长城真的无用吗？在今天许多人认为长城无用，古代国家举国之力建造的长城不过只是文物，就连康熙都曾作诗讽刺，原文如下：万里经营到海涯，纷纷调发逐浮夸。当时用尽生民力，天下何曾属尔家。-康熙但真的如此吗？小:-匈奴抵御长城:长城对于抵御古代匈奴和蒙古人起到了多大作用？蒙古人

什么树可以嫁接腊梅？

腊梅只能嫁接在不同品种的腊梅上，其他的树种不行！腊梅的繁殖可以用播种，压条，嫁接，分株等繁殖方法。播种法因不易保持花卉的原有优良特性，且播种的优点是在于大量繁殖，而腊梅大都只需培植少量几株，故一般都不:-腊梅嫁接:什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

堪忧五一假期:行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？事实上，因为教育培训都是预收费用的模式。但凡有一点点规模的培训机构老师。在上半年，带课量是可以得到保证。:-课时量

在农村“立夏节”都有哪些民间习俗？

民间习俗农村:在农村“立夏节”都有哪些民间习俗？在农村“立夏节”都有哪些民间习俗一、农村立夏常见的习俗风俗活动：1、吃鸡蛋“立夏吃蛋”习俗由来已久，俗话说“立夏吃了蛋，夏天不疰夏”。据说立夏开始天气越来越热，村里小孩儿会有身体疲劳四肢无力的感觉，吃:-立夏节

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

失望分手看法:男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？你的这个问题特别的有趣，我觉得你先不要看你要怎么做才让他才能让他对你的印象有所改变，你要去看为什么是两个月之后可以在一起，这两个月他会用来做什么，为什么会有这两个月？例如他的身体碰到了什么样的问题吗？:-答应我

工程分包乙方人员伤残谁承担？

承担:工程分包乙方人员伤残谁承担？分包乙方分包致人伤残责任谁承担？严格来说，需要了解更多伤残原因才能区分的，作为非专业人士，自己发表一点浅见供题主参考：1、如果甲方是央企的话，他们合同中的责任、义务等条款内已经将自己的责任全部撇开了，更会:-乙方伤残

有哪些看起来毫不相关的两个历史人物实际上有过联系？

实际上:有哪些看起来毫不相关的两个历史人物实际上有过联系？历史人物联系这个词貌似太宽泛了，就好像有一个调皮的答案说的，胡亥和溥仪相隔2000多年，牵强的找，也有联系：都是亡国之君不是。我想题主的意思是两个看起来应该风马牛不相及的人物，在历史上居然是熟悉或是一个时代的:-毫不相关

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

法系车不保值，如果准备常开可以入手，性价比高，价格应该在二至三万之间，二手车一车一况，一况一价，居体价格看车况。:-钱能水泡:13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？世嘉自动挡

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

17年驾驶证二手:22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？建议买日系二手车，开顺了卖了，买新车，昂克赛拉无法再次出手时获得好价格，而且也不省油，开完日系车直接换德系:-昂克赛拉

如何骑车去台湾骑行？

骑车在台湾没有回归内地前，最好不要去台湾，一是国内政策不允许你去台湾，因为已停止了台湾个人游。二是你偷着去台湾旅游，安全没有保障，偷渡客在哪里也没有安全保障的。以后内地政策允许个人去台湾旅游了，建议那时再:-骑行台湾:如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

预算:本人预算5万左右，想买一辆二手法系车！求推荐？ 5万预算5万元左右，想买一辆二手法系车？推荐东风标致老款308车型。1 5万元可以买标致308车况好的，没大事故呢，年限15年左右，公里数3万左右，手动档车型。2 标致308车型，底盘调教扎实，跑高速稳定:-法系二手

14年进口马自达5PK进口10年道奇酷威买哪个划算？

道奇你好，好高兴回答你的问题！14年进口马自达5和10年月道奇酷威个人感觉马自达5比较划算。新车价马5报价29.99万，酷威19.38万两款车都是原装进口，马5属于日系，酷威属于美系。两款车不属于同类车型:-酷威马自达 14年:14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

特殊津贴高校人才就要重视，河南省高校人才更要重视，这个人才不是评出了的，而是推荐出来的，没有推荐，连参评的资格都没有。国务院特殊津贴人员推荐，不推荐是百分百没希望，推荐了希望就非常，那么是什么是国务院特殊津贴:-河南大学并列 2020年:2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

李老猫说车为你非专业解答各种选车用车问题本田crv定位于一款紧凑级suv产品，主要对飚丰田荣放，日产奇骏，这款车整体市场表现非常突出，2019年全年累计销量为18.44万台，平均月销1.5万以上，其深:-舒适版本田油耗:本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

1.世界经济遭到重创疫情影响之下，各行各业基本属于停工停产的状态，在世界经济趋于一体化的今天，停工停产势必会造成一系列的连锁反应，最后导致的结果可能会引发金融危机。2.世界格局可能发生改变美国仍是世界:-头脑风暴控制:国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？疫情国外

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

如果有15万元的预算，让你选择一台空间和动力都很不错的小型SUV，我觉得很多的读者都会想到本田XRV这款车型。因为本田XRV确实太出色了，和同级别的其他盒子SUV车型相比，这款车在空间和动力上都有优势:-xrv 自动:本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？本田豪华版

现在存款有14万，借了5万还没收回来，该做什么好？

何去何从:现在存款有14万，借了5万还没收回来，该做什么好？续租存款利息率较低，可以投资较高收益的项目，比如投资基金，一般情况下可获得6%一10%的回报。如果行情好可达到50%以上收益，去年不少基金超过这目标。目前受疫情影响，股市在低位震荡，也是基金投资的机会。一:-存款 2300

2070super和5700xt买哪个比较好？

如果是玩游戏毫无疑问选择n卡，也就是2070 suep。如果追求性价比可以选择a卡，也就是5700xt. 为什么游戏选n卡呢？首先游戏厂商针对n卡优化比较多，然后就是功耗小，然后N卡架构执行效率极高，:-:2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

二胎我是两个孩子的妈妈，曾经的我和你一样，生完宝宝我也抑郁了，我知道抑郁症真的很痛苦，产后的那段日子我整天都不开心，做什么事也没积极性，谁也不想搭理，别人给我说话我就觉得很烦。忍不住冲家人发脾气。每当一个:-生完抑郁:生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？发火

人这一生遇到的人和事为什么感觉都像是必然的经历？

感觉:人这一生遇到的人和事为什么感觉都像是必然的经历？正所谓有因必有果，所以你今天的因，就会产生明天的果。所以这一切你就会觉得是必然的。生活中大部分是普通人大家的生活规律，生活方式，大致相同。当你看到别人家庭的果，自己家也产生同样的果，你就会觉得这一切是:-人和经历

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

校内:现在校内校外到底教的是美式英语还是英式英语还是混搭英语？校外英式答案肯定是不唯一的！美式英语现在是主流，少量英式发音也个别存在！但对于孩子来说，肯定是混搭英语，因为孩子肯定不是一直一位老师教下去，肯定会换老师！而老师的发音肯定是既有英式的，也有美式的！就连一些英语:-美式英语

上有老下有小，我们真的跳不出这个人生循环了吗？

上有老魔咒:上有老下有小，我们真的跳不出这个人生循环了吗？的确如此，尽管现在不结婚，晚婚的人很多，但是从人类繁洐生息的历史和大多数人来看，成家立业，生儿育女，家庭仍是主流，一个人的生理，心理和生存需求決定了生存状态，生儿育女，瞻养父母即是义务责任，也是生活动:-下有小

如果外面正在下小雨，你会突然想起了谁？

想起:如果外面正在下小雨，你会突然想起了谁？我最不忘，还是秋日的雨夜，天又凉了几分，已经需要披上一件薄薄的外套了。临窗而望，眼见窗台上的几株小植物，叶片上沾了几滴小雨珠，我总喜欢，用小手电去照它们，这样的小水滴看起来晶莹晶莹的，有一种清清凉凉的:-小雨

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

初中同学:初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？吃饭许久未见，意思就是交情不怎么样，无功不受禄，人家凭什么那么热情，难道真的是多年一来忘不了咱们之间的同学情谊，倍感想念了吗，不是请帮忙、做业务、就是借钱，十有八九十借钱。我建议还是不要去的好，大家都很忙:-许久未见

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

出口心理:现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？爱你更多的是心里问题，可能对方还没有优秀到你满意的程度，更没有到那种离不开的地步！爱情最终还是要回归生活，而生活离不开两个人的相处，父母终究会老，孩子终究会飞，所以选择自己的伴侣尤为重要，你现在觉得恶心更:-喜欢你

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

再见王沥川好看:剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？《遇见王沥川》吧，高以翔的王沥川太招人稀罕了。长相，身材，家世，人品，才能样样好，简直完美，挑不出任何毛病，实在要说一个缺点的话，那就是太tm完美，天妒英才、才让他饱受病魔折磨。偶像剧、深情帅气的男主:-何以笙箫默

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

学历是求职必备条件。有了工作不能停止对知识的探索。更高的学历，可以让你有更专业的技术能力和学习能力，可以让你拓展自己的交际圈，可以让你更知名。总之，活到老，学到老，学习对人总是有好处的，技多不压身嘛！:-字节跳动:计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？读研计算机专业

生完二胎的你们，现在有什么感想？

二胎家庭日常是什么样的？是不是觉得家里多了一个小人儿，温馨多了？不存在的！生二胎根本是妈妈们的渡劫磨砺！以前周末睡到自然醒，现在全年无休，时刻警醒着，能睡一次懒觉跟过年似的，黑眼圈不说，头发呼啦啦地掉:-生完二胎感想:生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华北适合种植蚕豆，种蚕豆的面积大，在西北，华北，都在种植蚕豆，蚕豆茎秆根部有根瘤菌是种植其它农作物的好茬地，特别是土壤培养和防病虫害起到作用。:-蚕豆种植适合:华北适合种植蚕豆吗？华北

华为手机更新EMUI10.1系统后效果咋样？

大家知道现在智能手机的性能不仅仅跟智能手机的硬件有关，还跟智能手机的系统软件息息相关，在国产智能手机操作系统里，小米的MIUI系统跟华为的EMUI系统都是比较优秀的操作系统。最近小米推出了小米MIUI:-咋样华为华为手机更新:华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

蜜蜂爬到:大热天蜜蜂老是爬到箱外结群正常吗？盗蜂现在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的时间，所以蜂群中是非常容易发生盗蜂的。在蜂群中发生盗蜂的时候，蜂群守卫蜂会增多，但是这种情况引发的蜜蜂在蜂箱外一般不会结团，只是蜜蜂来:-大热天

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

最佳期雾都山客来回答您的问题。最近山客家乡的村民正在进行辣椒移栽，确实有像题主提到的情形，辣椒苗移栽前长势葱葱，嫩绿喜人，但是移栽后几天内就出现萎蔫现象，细心观察也不是被病虫害危害。那究竟是什么原因导致辣椒:-苗蔫辣椒咋回事:辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

最近这几年手机在电子产品行业里可谓是发展速度非常快，苹果和华为两大公司可以说也是，明争暗斗，产品一次比一次有卖点，前一段时间华为和苹果还都推出了手机新品，两家都在大力宣传强调着拍照功能，像iPhone:-形态相机手机最终:手机相机发展的最终形态会是怎样的？

华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？

5寸手机支持:华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？很高兴回答你的问题，刷头条刷出来的问题，看到很多人回答，感觉还有一些观点没有写出，所以我来回答一下。首先，华为为什么不出小尺寸全面屏手机？其实并不只有华为一家没有出小屏手机，放眼近期各大手机厂商发布的:-华为

生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？

胡萝卜蔬菜:生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？第一种，黄瓜。这个瓜，可不是菜市场中堆放满满的青瓜。各位可要睁大眼睛看清楚了，这个黄瓜，青中带黄，品种属以前乡下农户少量种植的，形态上面来看这种瓜矮、短、圆，表面覆盖有比较淡的细毛，经水轻轻冲洗之后整:-山芋

为什么马铃薯不宜过早过迟播种？

不宜:为什么马铃薯不宜过早过迟播种？播种过早为什么马铃薯不宜过早过迟播种？马铃薯的种植主要是由于气候条件的限制，过早出苗后容易遇到低温被冻死，种植晚了容易遇到干旱和高温，影响产量。马铃薯种植时间的早晚必须根据种植地方的气候条件来确定。马铃薯生长:-马铃薯

疫情愈发严重，原油为何反而大涨？

原油愈发:疫情愈发严重，原油为何反而大涨？疫情愈发严重和原油大涨没有必然关系。但是资金总是从高处流向低处，原油价格跌的越多，投资价值越明显，相对于其他产业更有投资价值。举个例子：深圳南山房价均价大约6万左右，宝安均价5万左右，如果南山房价涨到:-疫情

生菜球很好吃，怎么种植才能高产呢？

种植:生菜球很好吃，怎么种植才能高产呢？高产对环境条件的要求、1.温度生菜球为喜冷凉、忌高温作物，种子在4度以上可发芽、以15～20度为发芽适温。幼苗能耐较低温度，日平均温度12度时生长壮健，叶球生长最适温度为13～16度。不过目前有些结球生菜:-生菜

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？

看下这个户型三房改四房，改一个小房间，应该没有问题。△原户型图这个户型改四房，能改的方案比较多，但是修改以后是否好用，是一件值得考虑的事情。一、主卧室变为两个卧室可以将主卧室改为两个卧室，但是这样的改动占:-房改 122:装修高手来帮忙看下144平，套内122平，怎么三房改四房？？ 144

大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？

房子:大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？这个户型砸墙，当然可以砸墙，但是在砸墙之前，要搞清楚为什么要砸墙，砸墙以后有什么优劣。△原户型原户型图上的白色墙体部分不是承重墙，理论上说否可以砸掉。但是外墙和与旁边户型或者是公共区域的共用墙体和图上:-帮忙

意蜂夏季喝什么水降温？

降温意蜂夏季喝什么水降温？气温高，蜂巢温度高的情况下，蜜蜂是通过采水的办法挂在蜂箱的四壁来蒸发带走热量，降低蜂巢温度同时也能帮助蜂群维持正常的湿度。在平常的情况下，蜜蜂是在室外采自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什么水降温？

黄瓜种子催芽后种植需要打底水吗？

黄瓜种子:黄瓜种子催芽后种植需要打底水吗？你好很高兴回答这个问题。答案：不用。1-2天可出芽。黄瓜种子催芽：选用饱满的种子，用30℃水浸泡4小时后催芽。也可用100倍福尔马林溶液浸泡种子10-20分钟，洗净后清水浸种3-4小时，然后于25-3:-催芽黄瓜打底

书友们展示一下自我感觉发挥较好的作品，一起学习？

自我较好这幅作品是参赛的，色彩的搭配，纸张的拼接都是自己设计完成的，一如既往的清新淡雅感觉。书体用的魏碑中楷书，增加了书写的趣味性。:-书友展示:书友们展示一下自我感觉发挥较好的作品，一起学习？

Scrapy 爬虫框架组件详细介绍（二）

1 Scrapy 爬虫框架组件详细介绍（二）

相關文章:

python爬虫框架Scrapy采集数据，并制作词云图分析！

Python+scrapy代理接入之讯代理

Python+scrapy代理接入之聚合代理

Python分布式爬虫一点也不难！Scrapy+MongoDB爬取QQ音乐实战

Python+Scrapy+Selenium数据采集!超级详细！

scrapy爬虫（三）——模拟登录

推荐｜scrapy爬取代理IP构建自有IP池（入门到实战）

Scrapy爬虫（二）——FilesPipeline

Scrapy爬虫（一）——ImagesPipeline

Django中间件看完这篇彻底明白

一招大幅提升 requests 访问速度

Python资料：《用Python写网络爬虫》分享

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

02.27 基于python的Scrapy爬虫框架实战，小白也可操作

Scrapy-Redis分布式爬虫实战

scrapy + mogoDB 网站爬虫

Python爬虫之Scrapy爬虫框架解密与并爬取亚马逊评论数据

01.05 Scrapy + Selenium模拟登录CSDN

12.29 python爬取获取下一页的信息

爬虫小知识，scrapy爬虫框架中爬虫名词的含义

使用 Scrapy 爬取去哪儿网景区信息

Scrapy 和 scrapy-redis的区别

11.27 Scrapy 去重机制

Scrapy学习篇：Item详解

scrapy架构分析

Scrapy 爬虫完整案例-提升篇

Scrapy 爬虫完整案例-进阶篇

Scrapy框架进阶篇

python爬虫入门实战(二)！快！快！快！让爬虫赢在起跑线！多线程

07.05 「原创」「python自学笔记」安装Scrapy

高清！Python爬虫思维导图：Requests，BeautifulSoup & Scrapy

scrapy简单入门介绍

爬虫项目04-电影蜜蜂

Tool 003-Python Scrapy 爬取校花照片

Python Tool 101-Tool 003-Python Scrapy 爬取文本数据

Scrapy-Redis分布式实现

大数据开发神器——scrapy spider框架（代码入门篇）

小案例大来头，七十行代码入门Python爬虫顶级框架 scrapy！

网络爬虫框架 Scrapy 入门教程

爬取1024社区，将种子和配图保存本地，发送到指定邮箱的神奇代码

初学者学习python2还是python3？

Scrapy 爬虫框架的安装与基本介绍

Python之 Scrapy框架day02

Scrapy网络爬虫：6. 图片下载与文件下载实现异同

Scrapy网络爬虫：框架组成与工作原理-组件与数据流

用Scrapy爬取bilibili用户信息

python爬虫学习笔记day——1

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

上有老下有小，我们真的跳不出这个人生循环了吗？

如果外面正在下小雨，你会突然想起了谁？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？