李白一网打尽 python3版本_技术 _ 頭條網

今天偶尔看到一篇初学 python 时候的代码笔记文档，挺佩服当时自己的认真学习态度^_^

代码是采集多页李白诗词，每篇诗词写入1个TXT文本；

当时使用python 2.7，今天把它稍微改动一下，在 python3 下正常运行；

网上很多Python学习教程谬误还是不少的，所以今天就把这个简单的采集代码发上来，抛砖引玉！

代码对于初学者有几个重点：

1，href 超链接的组合；2，下一页的超链接采集合成；3，根据 href 超链接，通过页面标签提取该页诗词文本的方法；

#coding:utf-8
#'http://www.shicimingju.com'
#采集多页诗词网站，并储存为TXT文件；
#-- 读取写入txt段再思考；
import sys
import re, os, random, requests
from bs4 import BeautifulSoup as BP

base='http://www.shicimingju.com'
url='http://www.shicimingju.com/chaxun/zuozhe/1.html'
visithead= {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0)'+ 'Gecko/20100101 Firefox/58.0'}

def geturls(url):
print ('--------------------------------------------------------------------------------')
r= requests.get(url, headers=visithead)
html=r.text.encode(r.encoding)
soup=BP(html, 'lxml')

div=soup.find('div', attrs={'class': 'www-shadow-card www-main-container'})

hrefs=[l.attrs['href'] for l in div.findAll('a') if l.has_attr('href') ]
hrefs=[base + i for i in hrefs]
print (hrefs)

n=soup.find('div' , attrs= {'class':'pagination www-shadow-card'})
n2=n.find(re.compile('a'), text = re.compile(u'\\u4e0b\\u4e00\\u9875'))
nexturl=[base+i for i in re.findall(r'[/].*.html',str(n2))]
print (u'\\u4e0b\\u4e00\\u9875', '--------------------------------')
print (nexturl)

ans={}
ans['hrefs']= hrefs
ans['nexturl']=nexturl[0]
return(ans)

def txt(url) :
r= requests.get(url)
html= r.text.encode(r.encoding)
soup= BP(html, 'lxml')

x={'class': 'shici-container www-shadow-card'}
# 一，对 div 段的传统处理法；
# c0=soup.find('div', attrs=x).text
# c0=re.sub(r'[ ]', '', c0)
# c0=re.sub(r'[\\xa0]', '', c0)

# 二，对text div段的标题、作者、诗词内容的单独处理；
c1=soup.find('div', attrs=x).h1.text #标题；
c2=soup.find('div', attrs=x).find('div', attrs={'class': 'shici-info'}).text #作者
c3=soup.find('div', attrs=x).find('div', attrs={'class': 'shici-content'}).text #内容
c3=re.sub(r'[\\xa0]', '', c3) #删除特殊字符；
c3=re.sub(r'[ ]{4}', '', c3) #删除N个空格；

t=re.sub(r'[/]', ' ',c1) #标题去除斜线；

filedir= os.getcwd() + '/ok'
if not os.path.exists(filedir):
os.mkdir(filedir)

with open(filedir + '/%d-%s.txt' % (i+1,t), mode='w') as f:
c0 = c1 +u'\n'+ c2 + c3 #加换行；
f.write(c0)
print (c0)

ans= geturls(url)
allhrefs= ans['hrefs']

while ans['nexturl']:
try:
ans=geturls(ans['nexturl'])
allhrefs= allhrefs+ans['hrefs']
except:
print ('This is last page...!\n')
print (u'总计找到 ', len(allhrefs), u'条数据！')
input ('Press any key to write to txt files!')
break

for i in range(len(allhrefs)//100):
txt(allhrefs[i])
print (i+1,'......done!')
print ('------------------------------------------------------------------------------')

李白一网打尽 python3版本

代码对于初学者有几个重点：

采集过程：

采集结果：

采集文本格式：

同理，将主链接更换为其他作者，即可获取其他作者全部或者定义数量的诗词；

完整代码截屏：

代码对于初学者有几个重点：

采集过程：

采集结果：

采集文本格式：

同理，将主链接更换为其他作者，即可获取其他作者全部或者定义数量的诗词；

完整代码截屏：

相關文章:

Python3.9官方文档翻译版python简介之列表

python3 爬虫从学习强国下载慕课视频

Python3 爬虫抓取沪市股票代码和最近收盘价

Python3 高级核心技术97讲之动态属性

Python3 爬虫从网站抓取图片（一）

Python3 面向对象编程

02.27 Python3 基本数据类型详解

02.26 Python3 错误和异常

02.25 Python3 运算符

02.25 python3：map函数和filter函数详解

python3—requests讲解

Python3 注释

Python3 解释器

Python3 基本数据类型

Python3 基础语法

Python3 简介

Python3 环境搭建

12.01 Python3.9将支持把AST对象转换回Python代码

Python3 面向对象

python3.7的常见报错集合

Python3 模块

Python3 数据结构

Python3 函数

Python3 迭代器与生成器

Python3 pickle模块的使用详解

Python3 字典

Python3 元组

Python3 列表

Python3 几种基础语法

Python3.8 新特性 (一)：赋值表达式

Python教程：Python3.8了解差不多了，Python3.9新特性了解一下

python3 基础知识学习笔记（一）

Python3 自学第4天：字符串

Python3 自学第2天：Number I

Win7操作系统上安装 Python3.X环境

如何在本地搭建 Python3 开发环境

Python3.x标准模块库目录

Python零基础教程——Python3.6环境搭建安装！

Python3 list 排序函数详解

今天给大家带来一个，Python3.6的格式化字符串的使用方法

Python3 快速入门教程：接口测试简介

python3 求微商

python3：利用SMTP协议发送QQ邮件！室友面前的装逼神技能！

Python3+Scapy 自动化探测IP地址

05.01 python3.5｜小白入门使用频率较高及较实用基础语法与简单实例

Python3 基础语法，让你快速了解

03.11 python3.x爬取网易云音乐，超详细版（一）

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪