清洗爬虫数据的时候可能会需要去掉很多word软件生成的html属性。
以下代码在python3.6环境下测试通过。
import lxml.html.clean as clean
# 需要保留的html属性
safe_attrs = set(['src', 'href', 'colspan', 'rowspan'])
cleaner = clean.Cleaner(safe_attrs=safe_attrs)
html_string = "var desc='
拍卖财产信息表
<table>
拍卖财产
名称
云南省安宁市太平镇始甸村委会新邑村民小组
国有出让城镇单一住宅土地
权证
情况
土地证号:安国用(2008)第0529号
权利限
制情况
已查封,抵押于峨山县农村信用合作联社
评估价
11791261元
起拍价(保留价)
11791261元
保证金
59万元(起拍价的5﹪)
增价幅度
5.8万元(起拍价的0.5﹪)
看样
联系人:杨律师,联系电话:13987790662
已知瑕疵及权利
负担
优先购买权人
无
备注
/<table>
html_string = html_string.replace("';\\n", "").replace("var desc='", "")
html_string = cleaner.clean_html(html_string)
print(html_string)
↓ 点击下面的“了解更多”链接查看详细。有问题请给我留言。