Scrapy爬蟲：爬取國內醫院信息名錄其它頭條網

2020-03-14 17:33:56 一把勺子

今天勺子接到了領導交給我的一個任務：網上收集江蘇省內醫院的名錄，信息越詳細越好，於是，不糾結、不抱怨，抄起scrapy一路開爬！

一、網站選擇

網上醫院信息網站還是很多的，經過對比篩選，勺子最終選擇了99醫院庫（https://yyk.99.com.cn/）。這個網站的醫院信息內容非常全面，一些不知名的醫院都能查得到，完全滿足領導要求。

二、網站分析

進入網址：https://yyk.99.com.cn/jiangsu/，就可以看到江蘇全省的醫院名錄了（居然有將近4000家），點擊每個醫院名稱，即可進入醫院的詳情頁，在詳情頁的醫院介紹模塊裡，可以查到醫院的性質、地址、等級等信息，因此，整體思路就比較清晰了，先獲取近4000家醫院的全部鏈接，再逐一訪問獲取每家醫院的詳細信息。

三、創建工程

開始動手，兩行代碼創建工程：

<code>scrapy startproject jiangsuhospital
scrapy genspider hospital '99.com.cn'/<code>

工程創建完成後，再setting.py裡進行必要配置，將ROBOTSTXT_OBEY置為False，設置請求頭，打開pipelines等。

四、核心代碼

hospital.py的代碼如下：

<code>import scrapy
from jiangsuhospital.items import JiangsuhospitalItem

class HospitalSpider(scrapy.Spider):
    name = 'hospital'
    allowed_domains = ['99.com.cn']
    start_urls = ['https://yyk.99.com.cn/jiangsu/']

    def parse(self, response):
        divs = response.xpath("//html/body//div[@class='m-table-2']//tr")

        #拼接各家醫院的url      
        for div in divs:
            trs = div.xpath('.//td')
            for tr in trs:
                href = tr.xpath('.//a/@href').extract_first()
                next_url = 'https://yyk.99.com.cn'+href+'jianjie.html'

                #請求所有醫院的url
                yield scrapy.Request(next_url,callback=self.parse_detail)/<code>

五、數據保存

通過pipelines.py將數據保存至csv文件中，csv數據保存基本可以寫成以下固定格式：

<code>import os
import csv

class JiangsuhospitalPipeline(object):
    def open_spider(self,spider):
        store_file = os.path.dirname(__file__) + '\\\\result\\\\result.csv'
        self.file = open(store_file,'w',newline='')
        self.writer = csv.writer(self.file)


    def process_item(self, item, spider):
        if item['mingcheng'] :
            self.writer.writerow((item['mingcheng'],item['bieming'],item['shuxing'],item['dianhua'],item['dizhi'],item['chengshi'],item['yuanzhang'],item['jianyuan'],item['leixing'],item['dengji'],item['keshi'],item['renshu'],item['bingchuang'],item['nianmenzhen'],item['yibao']))
        return item 

    def close_spider(self,spider):
        self.file.close()/<code>

六、結果展示

<code>scrapy crawl hospital，表格就出來了，調整就是這樣/<code>

很簡單的一個小工程，很好的解決了領導的需求，在此源碼奉上，供大家參考，下載地址：https://github.com/cxxc2001/jiangsuhospital。

對代碼有問題，或需要數據，或其他商業合作，可以私信勺子！

【一把勺子，挖掘數據律動！！】

分享到:

閱讀更多 一把勺子 的文章

關鍵字: 網絡爬蟲 Scrapy 江蘇

Scrapy爬蟲：爬取國內醫院信息名錄

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？