1,使用xpath清理不必要的标签元素,以及无内容标签
from lxml import etree
def xpath_clean(self, text: str, xpath_dict: dict) -> str:
'''
xpath 清除不必要的元素
:param text: html_content
:param xpath_dict: 清除目标xpath
:return: string type html_content
'''
remove_by_xpath = xpath_dict if xpath_dict else dict()
# 必然清除的项目 除非极端情况 一般这些都是要清除的
remove_by_xpath.update({
'_remove_2': '//iframe',
'_remove_4': '//button',
'_remove_5': '//form',
'_remove_6': '//input',
'_remove_7': '//select',
'_remove_8': '//option',
'_remove_9': '//textarea',
'_remove_10': '//figure',
'_remove_11': '//figcaption',
'_remove_12': '//frame',
'_remove_13': '//video',
'_remove_14': '//script',
'_remove_15': '//style'
})
parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
selector = etree.HTML(text, parser=parser)
# 常规删除操作,不需要的标签删除
for xpath in remove_by_xpath.values():
for bad in selector.xpath(xpath):
bad_string = etree.tostring(bad, encoding='utf-8',
pretty_print=True).decode()
logger.debug(f"clean article content : {bad_string}")
bad.getparent().remove(bad)
skip_tip = "name()='img' or name()='tr' or " "name()='th' or name()='tbody' or " "name()='thead' or name()='table'"
# 判断所有p标签,是否有内容存在,没有的直接删除
for p in selector.xpath(f"//*[not({skip_tip})]"):
# 跳过逻辑
if p.xpath(f".//*[{skip_tip}]") or bool(re.sub('\s', '', p.xpath('string(.)'))):
continue
bad_p = etree.tostring(p, encoding='utf-8',
pretty_print=True).decode()
logger.debug(f"clean p tag : {bad_p}")
p.getparent().remove(p)
return etree.tostring(selector, encoding='utf-8',
pretty_print=True).decode()
2,使用pyquery清理标签属性,并返回处理后源码和纯净文本
#!/usr/bin/env python
# -*-coding:utf-8-*-
from pyquery import PyQuery as pq
def pyquery_clean(self, text, url, pq_dict) -> object:
'''
pyquery 做出必要的处理,
:param text:
:param url:
:param pq_dict:
:return:
'''
# 删除pq表达式字典
remove_by_pq = pq_dict if pq_dict else dict()
# 标签属性白名单
attr_white_list = ['rowspan', 'colspan']
# 图片链接key
img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
# 生成pyquery对象
dom = pq(text)
# 删除无用标签
for bad_tag in remove_by_pq.values():
for bad in dom(bad_tag):
bad_string = pq(bad).html()
logger.debug(f"clean article content : {bad_string}")
dom.remove(bad_tag)
# 标签各个属性处理
for tag in dom('*'):
for key, value in tag.attrib.items():
# 跳过逻辑,保留表格的rowspan和colspan属性
if key in attr_white_list:
continue
# 处理图片链接,不完整url,补充完整后替换
if key in img_key_list:
img_url = self.absolute_url(url, value)
pq(tag).remove_attr(key)
pq(tag).attr('src', img_url)
pq(tag).attr('alt', '')
# img标签的alt属性保留为空
elif key == 'alt':
pq(tag).attr(key, '')
# 其余所有属性做删除操作
else:
pq(tag).remove_attr(key)
return dom.text(), dom.html()
3,正则表达清理空格以及换行符内容
#!/usr/bin/env python
# -*-coding:utf-8-*-
import re
def regular_clean(self, str1: str, str2: str):
'''
正则表达式处理数据格式
:param str1: content
:param str2: html_content
:return: 返回处理后的结果
'''
def new_line(text):
text = re.sub('<br\s"htmlcode">
#!/usr/bin/env python
# -*-coding:utf-8-*-
'''
author: szhan
date:2020-08-17
summery: 清理html_conent以及获取纯净数据格式
'''
import re
from lxml import etree
from pyquery import PyQuery as pq
from urllib.parse import urlsplit, urljoin
from loguru import logger
class CleanArticle:
def __init__(
self,
text: str,
url: str = '',
xpath_dict: dict = None,
pq_dict: dict = None
):
self.text = text
self.url = url
self.xpath_dict = xpath_dict or dict()
self.pq_dict = pq_dict or dict()
@staticmethod
def absolute_url(baseurl: str, url: str) -> str:
'''
补充url
:param baseurl:scheme url
:param url: target url
:return: complete url
'''
target_url = url if urlsplit(url).scheme else urljoin(baseurl, url)
return target_url
@staticmethod
def clean_blank(text):
'''
空白处理
:param text:
:return:
'''
text = text.replace(' ', '').replace('\u3000', '').replace('\t', '').replace('\xa0', '')
text = re.sub('\s{2,}', '', text)
text = re.sub('\n{2,}', '\n', text)
text = text.strip('\n').strip()
return text
def run(self):
'''
:return:处理后的content, html_content
'''
if (not bool(self.text)) or (not isinstance(self.text, str)):
raise ValueError('html_content has a bad type value')
# 首先,使用xpath去除空格,以及注释,iframe, button, form, script, style, video等标签
text = self.xpath_clean(self.text, self.xpath_dict)
# 第二步,使用pyquery处理具体细节方面
str1, str2 = self.pyquery_clean(text, self.url, self.pq_dict)
# 最终的正则处理
content, html_content = self.regular_clean(str1, str2)
return content, html_content
def xpath_clean(self, text: str, xpath_dict: dict) -> str:
'''
xpath 清除不必要的元素
:param text: html_content
:param xpath_dict: 清除目标xpath
:return: string type html_content
'''
remove_by_xpath = xpath_dict if xpath_dict else dict()
# 必然清除的项目 除非极端情况 一般这些都是要清除的
remove_by_xpath.update({
'_remove_2': '//iframe',
'_remove_4': '//button',
'_remove_5': '//form',
'_remove_6': '//input',
'_remove_7': '//select',
'_remove_8': '//option',
'_remove_9': '//textarea',
'_remove_10': '//figure',
'_remove_11': '//figcaption',
'_remove_12': '//frame',
'_remove_13': '//video',
'_remove_14': '//script',
'_remove_15': '//style'
})
parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
selector = etree.HTML(text, parser=parser)
# 常规删除操作,不需要的标签删除
for xpath in remove_by_xpath.values():
for bad in selector.xpath(xpath):
bad_string = etree.tostring(bad, encoding='utf-8',
pretty_print=True).decode()
logger.debug(f"clean article content : {bad_string}")
bad.getparent().remove(bad)
skip_tip = "name()='img' or name()='tr' or " "name()='th' or name()='tbody' or " "name()='thead' or name()='table'"
# 判断所有p标签,是否有内容存在,没有的直接删除
for p in selector.xpath(f"//*[not({skip_tip})]"):
# 跳过逻辑
if p.xpath(f".//*[{skip_tip}]") or bool(re.sub('\s', '', p.xpath('string(.)'))):
continue
bad_p = etree.tostring(p, encoding='utf-8',
pretty_print=True).decode()
logger.debug(f"clean p tag : {bad_p}")
p.getparent().remove(p)
return etree.tostring(selector, encoding='utf-8',
pretty_print=True).decode()
def pyquery_clean(self, text, url, pq_dict) -> object:
'''
pyquery 做出必要的处理,
:param text:
:param url:
:param pq_dict:
:return:
'''
# 删除pq表达式字典
remove_by_pq = pq_dict if pq_dict else dict()
# 标签属性白名单
attr_white_list = ['rowspan', 'colspan']
# 图片链接key
img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
# 生成pyquery对象
dom = pq(text)
# 删除无用标签
for bad_tag in remove_by_pq.values():
for bad in dom(bad_tag):
bad_string = pq(bad).html()
logger.debug(f"clean article content : {bad_string}")
dom.remove(bad_tag)
# 标签各个属性处理
for tag in dom('*'):
for key, value in tag.attrib.items():
# 跳过逻辑,保留表格的rowspan和colspan属性
if key in attr_white_list:
continue
# 处理图片链接,不完整url,补充完整后替换
if key in img_key_list:
img_url = self.absolute_url(url, value)
pq(tag).remove_attr(key)
pq(tag).attr('src', img_url)
pq(tag).attr('alt', '')
# img标签的alt属性保留为空
elif key == 'alt':
pq(tag).attr(key, '')
# 其余所有属性做删除操作
else:
pq(tag).remove_attr(key)
return dom.text(), dom.html()
def regular_clean(self, str1: str, str2: str):
'''
正则表达式处理数据格式
:param str1: content
:param str2: html_content
:return: 返回处理后的结果
'''
def new_line(text):
text = re.sub('<br\s"color: #ff0000">总结
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
桃源资源网 Design By www.nqtax.com
暂无“基于xpath选择器、PyQuery、正则表达式的格式清理工具详解”评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。