Python爬虫自学笔记：爬取小说（五）_ _ 頭條網

书接上文，前面代码实现了根据txt链接实现小说下载，本文主要实现根据提供的小说名称进行网站检索，返回下载链接，并对小说下载。

1 网站分析

网站检索页面地址为：https://www.555x.org/search.html

分析检索页面中要求输入书名处，采用post方法，输入的小说名称赋予参数searchkey。由此可以采用requests.post()请求，发送字典{"searchkey":"小说名称"}来获取网站检索界面，在返回列表中可以提取小说网址信息。

2 编码思路

1）提供小说名称；

2）在小说网站检索小说，提取小说对应编号；

3）根据编号得出下载链接，进而下载小说。

3 代码实现

源码如下：

<code># crawl_v1.4 # 爬取小说txt文件 import requests from bs4 import BeautifulSoup import time import proxy_ip # 获取小说检索结果 def get_search(novel, proxy): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive"} try: r = requests.post("https://www.555x.org/search.html",{"searchkey":novel},headers = headers,proxies = proxy) r.raise_for_status() except: proxy = proxy_ip.get_random_ip() print("更换代理IP") r = requests.post("https://www.555x.org/search.html",{"searchkey":novel},headers = headers,proxies = proxy) soup = BeautifulSoup(r.text,"html.parser") qq_g = soup.find_all("li","qq_g") link = "" for i in qq_g: s = i.text.find("》") # 提取请求结果的小说全名，并与输入小说名称对比， # 相同则赋值link链接地址并结束循环，不相同则默认link为空 if i.text[1:s] == novel: link = i.a.get("href") break return link # 下载小说 def novle_download(novel,n, proxy): l = "https://www.555x.org/home/down/txt/id/" + n headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive"} try: r = requests.get(l,headers = headers,proxies = proxy) r.raise_for_status() except: proxy = proxy_ip.get_random_ip() print("更换代理IP") r = requests.get(l, headers=headers, proxies=proxy) # 保存小说到本地 with open(novel + ".txt","w",encoding="ISO-8859-1") as f: f.write(r.text) if __name__ == "__main__": start_time = time.time() novel = input("输入小说名称：") proxy = proxy_ip.get_random_ip() novel_link = get_search(novel,proxy) # 获取小说搜索结果 if novel_link == "": print("网站中无此小说") else: s = novel_link.find("txt") e = novel_link.find(".html") novel_number = novel_link[s+3:e] # 提取小说编号 novle_download(novel,novel_number,proxy) #下载小说 # 获取小说下载时间 end_time = time.time() print("运行时间：" + str(round(end_time - start_time)) + "s")/<code>

运行结果：

4 相关学习知识点

1） input输入函数；

2） PyCharm中快速创建函数：选中要创建的函数，按快捷键alt+enter；

3） requests.post()请求；

8 结束语

本次代码实现了根据提供的小说名称进行小说下载的功能。

将此次编码的过程及源码分享给大家，供大家参考。对于错误的地方，或有更好的建议，希望大家提出来，不胜感激！

1 网站分析

2 编码思路

3 代码实现

相關文章:

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

备考消防的几大错觉，你有这个情况吗？

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

应急科普丨“五一” 期间气温回升 谨防森林火灾隐患

搞笑GIF开心一刻：拍照啦，赶紧看镜头

工程发承包、工程造价条款，或迎来大调整

应急科普丨“五一” 期间气温回升谨防森林火灾隐患