基于标签的信息抽取预处理算法

来源 :数字技术与应用 | 被引量 : 0次 | 上传用户：aihechashui

【摘要】

：

针对现有现有HTML网页的特点，提出了一种基于标签的Web网页的清洗技术，该方法基于HTML各种标签的特点，对修饰性等与内容无关的标签进行清洗，首先界定清洗的规则，对呵清洗的标签进

【作者】

：

范春晓和晓军李淑云

【机构】

：

沈阳理工大学信息科学与工程学院,沈阳理工大学信息科学与工程学院,烟台南山学院软件工程学院

【出处】

：

数字技术与应用

【发表日期】

：

2009年11期

【关键词】

：

标签规则网页清洗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对现有现有HTML网页的特点，提出了一种基于标签的Web网页的清洗技术，该方法基于HTML各种标签的特点，对修饰性等与内容无关的标签进行清洗，首先界定清洗的规则，对呵清洗的标签进行定义；然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点，使后续信息的抽取较之未改进有明显的优势。

其他文献

做干净的人民公仆——基层干部腐败的源头治理

做干净的人民公仆,是新时代对基层干部的党性要求和执政要求。它包括两层含义:一是在党性自律上,基层干部要立党为公,担负起政治责任;一是在公共责任上,基层干部要清正廉洁,

期刊

基层干部腐败党性自律执政理念

苯巴比妥钠注射液稳定性的研究

<正> 室温下苯巴比妥钠水溶液易发生水解,生成苯乙基醋酰尿(Phenylethylacetylurea)沉淀,即失去疗效,故不宜制成水溶液注射剂。中国药典(1977年版)收载的是粉针剂;英国药典(1

期刊

巴比妥钠丙二醇注射液经典法

会计人员能力框架探讨

从目前普遍存在的会计信息失真的现象出发，引出会计人员素质偏低的问题来。然后分别普通会计人员和财务主管两个层次，提出两者应该具有的能力框架，以期他们能够圆满的完成会计工

期刊

会计信息失真能力

新型高效食品防腐剂—甘油单月桂酸酯的生产

叙述了高效食品防腐剂应具备的分子结构特征,同时介绍了一种新的防腐剂--甘油单月桂酸酯的性质及合成方法.

期刊

食品防腐剂甘油单月桂酸酯GML分子结构生物膜系统微生物合成方法产品性质

差异对待:基于个体差异的公平课堂教学

教育的对象是具有个体差异的学习者,课堂是实施教育教学的重要场所,这就决定了课堂教学必须考虑个体的差异性。基于个体差异的课堂教学,教师要做到公平地对待每位学习者,选择

期刊

课堂教学个体差异教育公平差异对待

头孢哌酮舒巴坦钠对淋病患者淋球菌改变及不良反应的临床观察

目的:观察头孢哌酮舒巴坦钠对淋病患者淋球菌改变及不良反应的临床效果。方法:选择2014年5月至2016年9月在本院确诊治疗的淋病患者共40例,采取随机数字表法随机均分为两组。

期刊

头孢哌酮舒巴坦钠淋病淋球菌

康复辅具对小儿脑瘫康复治疗效果观察

目的:本文主要是对康复辅具应用在小儿脑瘫康复治疗中的效果进行观察与研究。方法:选取我院在2014年5月到2016年5月收治的114例小儿脑瘫患者,将这些患儿随机分为参照组与研究

期刊

康复辅具小儿脑瘫治疗效果

基于标签的信息抽取预处理算法

其他学术论文