为了得到一个标准的内容,干净的内容更利于搜索引擎识别,也减少数据库压力,在采集上必须下足功夫才行!编写好采集规则。
去掉P标签内样式:
正则 <p(.*?)> 替换成 <p>
去掉除了img标签外的所有标签的选择器或样式,并把标签修改为p:
正则 <(?!img)(/?)\w+.*?> 替换为 <$1p>
把所有的空段落替换为空
内容 <p></p> 替换为 空
为了得到一个标准的内容,干净的内容更利于搜索引擎识别,也减少数据库压力,在采集上必须下足功夫才行!编写好采集规则。
去掉P标签内样式:
正则 <p(.*?)> 替换成 <p>
去掉除了img标签外的所有标签的选择器或样式,并把标签修改为p:
正则 <(?!img)(/?)\w+.*?> 替换为 <$1p>
把所有的空段落替换为空
内容 <p></p> 替换为 空