Python爬蟲自學筆記：爬取小說（五）_ _ 頭條網

書接上文，前面代碼實現了根據txt鏈接實現小說下載，本文主要實現根據提供的小說名稱進行網站檢索，返回下載鏈接，並對小說下載。

1 網站分析

網站檢索頁面地址為：https://www.555x.org/search.html

分析檢索頁面中要求輸入書名處，採用post方法，輸入的小說名稱賦予參數searchkey。由此可以採用requests.post()請求，發送字典{"searchkey":"小說名稱"}來獲取網站檢索界面，在返回列表中可以提取小說網址信息。

2 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）根據編號得出下載鏈接，進而下載小說。

3 代碼實現

源碼如下：

<code># crawl_v1.4 # 爬取小說txt文件 import requests from bs4 import BeautifulSoup import time import proxy_ip # 獲取小說檢索結果 def get_search(novel, proxy): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive"} try: r = requests.post("https://www.555x.org/search.html",{"searchkey":novel},headers = headers,proxies = proxy) r.raise_for_status() except: proxy = proxy_ip.get_random_ip() print("更換代理IP") r = requests.post("https://www.555x.org/search.html",{"searchkey":novel},headers = headers,proxies = proxy) soup = BeautifulSoup(r.text,"html.parser") qq_g = soup.find_all("li","qq_g") link = "" for i in qq_g: s = i.text.find("》") # 提取請求結果的小說全名，並與輸入小說名稱對比， # 相同則賦值link鏈接地址並結束循環，不相同則默認link為空 if i.text[1:s] == novel: link = i.a.get("href") break return link # 下載小說 def novle_download(novel,n, proxy): l = "https://www.555x.org/home/down/txt/id/" + n headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive"} try: r = requests.get(l,headers = headers,proxies = proxy) r.raise_for_status() except: proxy = proxy_ip.get_random_ip() print("更換代理IP") r = requests.get(l, headers=headers, proxies=proxy) # 保存小說到本地 with open(novel + ".txt","w",encoding="ISO-8859-1") as f: f.write(r.text) if __name__ == "__main__": start_time = time.time() novel = input("輸入小說名稱：") proxy = proxy_ip.get_random_ip() novel_link = get_search(novel,proxy) # 獲取小說搜索結果 if novel_link == "": print("網站中無此小說") else: s = novel_link.find("txt") e = novel_link.find(".html") novel_number = novel_link[s+3:e] # 提取小說編號 novle_download(novel,novel_number,proxy) #下載小說 # 獲取小說下載時間 end_time = time.time() print("運行時間：" + str(round(end_time - start_time)) + "s")/<code>

運行結果：

4 相關學習知識點

1） input輸入函數；

2） PyCharm中快速創建函數：選中要創建的函數，按快捷鍵alt+enter；

3） requests.post()請求；

8 結束語

本次代碼實現了根據提供的小說名稱進行小說下載的功能。

將此次編碼的過程及源碼分享給大家，供大家參考。對於錯誤的地方，或有更好的建議，希望大家提出來，不勝感激！

1 網站分析

2 編碼思路

3 代碼實現

相關文章:

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

備考消防的幾大錯覺，你有這個情況嗎？

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

應急科普丨“五一” 期間氣溫回升 謹防森林火災隱患

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

工程發承包、工程造價條款，或迎來大調整

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患