前言
文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。
作者: 風,又奈何
PS:如有需要Python學習資料的小夥伴可以加點擊下方鏈接自行獲取http://t.cn/A6Zvjdun
準備
- python3
- scrapy
項目創建:
cmd命令行切換到工作目錄創建scrapy項目 兩條命令 scarpy startproject與scrapy genspider 然後用pycharm打開項目
<code>D:\pythonwork>scrapy startproject zongheng New Scrapy project 'zongheng', using template directory 'c:\users\11573\appdata\local\programs\python\python36\lib\site-packages\scrapy\templates\project', created in: D:\pythonwork\zongheng You can start your first spider with: cd zongheng scrapy genspider example example.com D:\pythonwork>cd zongheng D:\pythonwork\zongheng>cd zongheng D:\pythonwork\zongheng\zongheng>scrapy genspider xuezhong http://book.zongheng.com/chapter/189169/3431546.html Created spider 'xuezhong' using template 'basic' in module: zongheng.spiders.xuezhong/<code>
確定內容
首先打開網頁看下我們需要爬取的內容
其實小說的話結構比較簡單 只有三大塊 卷 章節 內容
因此 items.py代碼:
內容提取spider文件編寫
還是我們先創建一個main.py文件方便我們測試代碼
然後我們可以在spider文件中先編寫
運行main.py看看有沒有輸出
發現直接整個網頁的內容都可以爬取下來,說明該網頁基本沒有反爬機制,甚至不用我們去修改user-agent那麼就直接開始吧
打開網頁 F12查看元素位置 並編寫xpath路徑 然後編寫spider文件
需要注意的是我們要對小說內容進行一定量的數據清洗,因為包含某些html標籤我們需要去除
有時候我們會發現無法進入下個鏈接,那可能是被allowed_domains過濾掉了 我們修改下就可以
唉 突然發現了到第一卷的一百多章後就要VIP了 那我們就先只弄一百多章吧 不過也可以去其他網站爬取免費的 這次我們就先爬取一百多章吧
內容保存
接下來就是內容的保存了,這次就直接保存為本地txt文件就行了
首先去settings.py文件裡開啟 ITEM_PIPELINES
然後編寫pipelines.py文件
由於選址失誤導致了我們只能爬取免費的一百多章節,尷尬,不過我們可以類比運用到其他網站爬取全文免費的書籍
怎麼樣 使用scrapy爬取是不是很方便呢
如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!