Scrapy爬虫：爬取国内医院信息名录其它頭條網

2020-03-14 17:33:56 一把勺子

今天勺子接到了领导交给我的一个任务：网上收集江苏省内医院的名录，信息越详细越好，于是，不纠结、不抱怨，抄起scrapy一路开爬！

一、网站选择

网上医院信息网站还是很多的，经过对比筛选，勺子最终选择了99医院库（https://yyk.99.com.cn/）。这个网站的医院信息内容非常全面，一些不知名的医院都能查得到，完全满足领导要求。

二、网站分析

进入网址：https://yyk.99.com.cn/jiangsu/，就可以看到江苏全省的医院名录了（居然有将近4000家），点击每个医院名称，即可进入医院的详情页，在详情页的医院介绍模块里，可以查到医院的性质、地址、等级等信息，因此，整体思路就比较清晰了，先获取近4000家医院的全部链接，再逐一访问获取每家医院的详细信息。

三、创建工程

开始动手，两行代码创建工程：

<code>scrapy startproject jiangsuhospital
scrapy genspider hospital '99.com.cn'/<code>

工程创建完成后，再setting.py里进行必要配置，将ROBOTSTXT_OBEY置为False，设置请求头，打开pipelines等。

四、核心代码

hospital.py的代码如下：

<code>import scrapy
from jiangsuhospital.items import JiangsuhospitalItem

class HospitalSpider(scrapy.Spider):
    name = 'hospital'
    allowed_domains = ['99.com.cn']
    start_urls = ['https://yyk.99.com.cn/jiangsu/']

    def parse(self, response):
        divs = response.xpath("//html/body//div[@class='m-table-2']//tr")

        #拼接各家医院的url      
        for div in divs:
            trs = div.xpath('.//td')
            for tr in trs:
                href = tr.xpath('.//a/@href').extract_first()
                next_url = 'https://yyk.99.com.cn'+href+'jianjie.html'

                #请求所有医院的url
                yield scrapy.Request(next_url,callback=self.parse_detail)/<code>

五、数据保存

通过pipelines.py将数据保存至csv文件中，csv数据保存基本可以写成以下固定格式：

<code>import os
import csv

class JiangsuhospitalPipeline(object):
    def open_spider(self,spider):
        store_file = os.path.dirname(__file__) + '\\\\result\\\\result.csv'
        self.file = open(store_file,'w',newline='')
        self.writer = csv.writer(self.file)


    def process_item(self, item, spider):
        if item['mingcheng'] :
            self.writer.writerow((item['mingcheng'],item['bieming'],item['shuxing'],item['dianhua'],item['dizhi'],item['chengshi'],item['yuanzhang'],item['jianyuan'],item['leixing'],item['dengji'],item['keshi'],item['renshu'],item['bingchuang'],item['nianmenzhen'],item['yibao']))
        return item 

    def close_spider(self,spider):
        self.file.close()/<code>

六、结果展示

<code>scrapy crawl hospital，表格就出来了，调整就是这样/<code>

很简单的一个小工程，很好的解决了领导的需求，在此源码奉上，供大家参考，下载地址：https://github.com/cxxc2001/jiangsuhospital。

对代码有问题，或需要数据，或其他商业合作，可以私信勺子！

【一把勺子，挖掘数据律动！！】

分享到:

閱讀更多 一把勺子 的文章

關鍵字: 网络爬虫 Scrapy 江苏

Scrapy爬虫：爬取国内医院信息名录

相關文章:

程序员在地铁上写代码被旁人吐槽：有什么好装的！网友评论炸锅了

python爬取网站性感美女图片：酥胸，尤物，勾魂，惹火

谈谈网友们碰到过的最难调试的 Bug

scrapy 也能爬取妹子图？（5）

读书是最划算的自我投资，免费送几本最好的Python学习电子书

爬虫项目03-山东省人民政府采购中心

Cookies池的后续解决方案，终于把这个麻烦解决了

爬取网站的美女写真图片，并存储到本地，写真集介绍存储到MySQL

沈巍先生杂谈（358）说好的快手不倒，陪伴到老呢？个个都是戏精

出海奋斗是有胆识后浪的更优选项

甲有5套房，不上班，收房租；乙有1套房，上班赚工资；丙租房子.

每逢佳节被相亲，单身青年看这里！

为珠峰“量身高”，为啥要人上去？

我省获国家局通报表扬

湖南名字最尴尬的城市，90%的人都会想歪，当地人：思想有问题！

超六成前浪点赞《后浪》，全球白手起家90后富豪人均财富190亿

再不来一场精致野餐，我就要被开除中产籍了

工程师我只服中国，曾经放生到三峡的1万条鱼，如今怎么样了？

后疫情时代的五个营销启示

丘北县双龙营镇人民政府普者黑村委会、矣则村委会太阳能路灯采购安装项目竞争性谈判公告

为什么重量相同的金子，银行卖得比金店还便宜？看完涨知识了

打雷的时候，到底要不要拔掉插头，关闭电路呢？看完涨知识了

乘坐火车时，把车票弄丢了怎么处理？看完可算知道了

肖战视频专访：眼里带着故事，请不要听说他，这一次，请他说

秦山核电应急行动水平优化项目招标公告

巴基斯坦SK水电站消防及火灾报警系统设备采购招标招标公告

中煤能源新疆鸿新煤业苇子沟煤矿瓦斯抽采机械设备采购招标公告

县域社区团购，在平台发展上有哪些优势？

和王为念离婚，与“假奶奶”常香玉对簿公堂，55岁小香玉生活如诗

眼力测试：由4字组成的白菜，1秒看出4个字的智商都很高

看图猜字：这个不简单，你能猜对几个？全猜对眼力非凡

眼力测试：火焰中藏了4个字，看出3个算达标，全看出眼力200

小米硬刚德国双立人，400年非洲灌木做家用砧板，不发霉砍不坏

眼力测试：美女图中藏了5个汉字，全部看出来的眼力超群

最萌Hodler，刚出生就收到比特币大学教育基金的宝宝

《瞭望大湾区》：全国中高风险区域今日“清零”

《晨会解读》：中山证券投资顾问杨立华：连续上涨过后注意把握好操作节奏

孙松峰：幸福生活唱出来

衡水：守护一湖碧水 打造生态之城

英国小伙第一次体验中国网吧，就被电脑屏幕吓到直言：这是个啥

微商到底多能吹牛！哈哈哈哈哈千万别屏蔽，每天都是快乐源泉

2020珠峰高程复测出发仪式今日举行 小米10全程助力丈量世界新高度

“十大沂蒙工匠”齐玉祥：钢花璀璨照亮青春之路

日本的丈母娘，卖萌发嗲也是蛮有技术的

消费水平最高的5座城市，北上广深均在列，另一座你知道是哪吗？

德国爱他美怎么样？"断货王"爱他美值得买吗？

广东有望合并的3座城市：合并成功后，将诞生一座千万人口的城市

国外奶粉怎么样？去哪买靠谱？线下实体店一定比网店安全吗？

四川潜力大的城市：还是重要的恐龙化石产地，被誉为“恐龙之乡”

00后，吾辈当自强

“我来！”

东北唯一新一线城市：被誉为“东方鲁尔”，经济却不如省内地级市

人生有尺，做人有度

“救命钱”变“唐僧肉” 扶贫最后一公里处“蝇贪”频现！

家境殷实的90后海归女为何“沉迷”偷快递？

青春洋溢，不加过分修饰，真实的少女感，你喜欢吗？

4名网友预谋绑架一董事长，汇合后剧情突变……

江苏的第二个“苏州”，并非南京和无锡，而是这座低调的城市

衡水：守护一湖碧水打造生态之城

2020珠峰高程复测出发仪式今日举行小米10全程助力丈量世界新高度