Python移除Html的sytyle属性(remove attributes from HTML

清洗爬虫数据的时候可能会需要去掉很多word软件生成的html属性。

以下代码在python3.6环境下测试通过。

import lxml.html.clean as clean
# 需要保留的html属性
safe_attrs = set(['src', 'href', 'colspan', 'rowspan'])
cleaner = clean.Cleaner(safe_attrs=safe_attrs)
html_string = "var desc='


拍卖财产信息表


<table>

拍卖财产

名称

云南省安宁市太平镇始甸村委会新邑村民小组

国有出让城镇单一住宅土地

权证

情况

土地证号:安国用(2008)第0529号

权利限

制情况

已查封,抵押于峨山县农村信用合作联社

评估价

11791261元

起拍价(保留价)

11791261元

保证金

59万元(起拍价的5﹪)

增价幅度

5.8万元(起拍价的0.5﹪)

看样

联系人:杨律师,联系电话:13987790662

已知瑕疵及权利

负担

优先购买权人

备注

/<table>




';\\n"
html_string = html_string.replace("';\\n", "").replace("var desc='", "")
html_string = cleaner.clean_html(html_string)
print(html_string)

↓ 点击下面的“了解更多”链接查看详细。有问题请给我留言。