Python移除Html的sytyle属性（remove attributes from HTML _技术 _ 頭條網

清洗爬虫数据的时候可能会需要去掉很多word软件生成的html属性。

以下代码在python3.6环境下测试通过。

import lxml.html.clean as clean
# 需要保留的html属性
safe_attrs = set(['src', 'href', 'colspan', 'rowspan'])
cleaner = clean.Cleaner(safe_attrs=safe_attrs)
html_string = "var desc='

拍卖财产信息表

<table>

拍卖财产

名称

云南省安宁市太平镇始甸村委会新邑村民小组

国有出让城镇单一住宅土地

权证

情况

土地证号：安国用（2008）第0529号

权利限

制情况

已查封，抵押于峨山县农村信用合作联社

评估价

11791261元

起拍价(保留价)

11791261元

保证金

59万元（起拍价的5﹪）

增价幅度

5.8万元（起拍价的0.5﹪）

看样

联系人：杨律师，联系电话：13987790662

已知瑕疵及权利

负担

优先购买权人

无

备注

/<table>

';\\n"
html_string = html_string.replace("';\\n", "").replace("var desc='", "")
html_string = cleaner.clean_html(html_string)
print(html_string)

↓ 点击下面的“了解更多”链接查看详细。有问题请给我留言。

相關文章:

html，http不是网址？我才发现URL才是真正的网址

（一）Web前端性能优化：html、css、js篇

【浏览器】HTML、CSS和JS如何变成页面的？

html-css基础

04.新手入门vue之v-text和v-html

node.js 16 PDF文件操作神器 html-pdf

Html、Css、JavaScript制作圆形进度条的代码及基础分析

Html5 css3 零基础入门（第7课）：简单学习几个常用的 html 标签

知否？知否？GUI 图形界面 Jmeter 也能生成 html 报告

05.HTML：表单域

05.HTML：表格

04.HTML：列表标签

03.HTML：图片标签

03.07 HTML+CSS为何得不到编程界的认可？

HTML-CSS样式过渡：渐变式网页元素

HTML-设置鼠标划过之后文本样式变化

#HTML#-CSS样式-设置元素样式的三种方式

HTML table表格 固定表头 tbody加滚动条

01.02 HTML、HTML5重难点

HTML：落后于时代，还是引领着时代？

html+css画旋转的太阳系

HTML + CSS 为何得不到编程界的认可？

12.15 HTML + CSS 为何得不到编程界的认可？

程序员：HTML、CSS、JavaScript是如何变成页面的？

html,第四课：前三课总结，以及单标签img

html,第三课:链接基础

10 个你不知道的 HTML 元素

HTML+JS实现图片下载到本地

html meta标签使用及属性的详细分析

HTML input 文本框添加提示文字的方法

HTML+CSS基础入门开发，正圆行星轨道旋转动画特效

HTML+CSS基础入门开发，双子星水平位移相对动画特效

是时候拯救我的 HTML 技术了

前端基础：HTML，CSS和JS在浏览器背后的运行机制

HTML head头部

HTML 基础教程

HTML+CSS：使用form表单控件，与用户交互

HTML 教程-(HTML5 标准）第二节 HTML 基础-4个实例

HTML 教程-(HTML5 标准）

html css js基础知识点

HTML 基础篇（很全）

DW网页制作入门级自学教程，HTML、CSS、JavaScript课程免费领取

HTML-1（study）

html+css布局示例.zip

掌握这三点，就能弄懂css盒子模型，HTML+CSS 新手建议收藏！

网站开发课程，HTML+CSS专业级视频教程，零基础学习必会！

1529集最全web前端教程：HTML+CSS+JS零基础全套+项目实战+课件

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

HTML table表格固定表头 tbody加滚动条

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪