基于标签的信息抽取预处理算法

来源 :数字技术与应用 | 被引量 : 0次 | 上传用户:aihechashui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
其他文献
做干净的人民公仆,是新时代对基层干部的党性要求和执政要求。它包括两层含义:一是在党性自律上,基层干部要立党为公,担负起政治责任;一是在公共责任上,基层干部要清正廉洁,
<正> 室温下苯巴比妥钠水溶液易发生水解,生成苯乙基醋酰尿(Phenylethylacetylurea)沉淀,即失去疗效,故不宜制成水溶液注射剂。中国药典(1977年版)收载的是粉针剂;英国药典(1
从目前普遍存在的会计信息失真的现象出发,引出会计人员素质偏低的问题来。然后分别普通会计人员和财务主管两个层次,提出两者应该具有的能力框架,以期他们能够圆满的完成会计工
叙述了高效食品防腐剂应具备的分子结构特征,同时介绍了一种新的防腐剂--甘油单月桂酸酯的性质及合成方法.
教育的对象是具有个体差异的学习者,课堂是实施教育教学的重要场所,这就决定了课堂教学必须考虑个体的差异性。基于个体差异的课堂教学,教师要做到公平地对待每位学习者,选择
目的:观察头孢哌酮舒巴坦钠对淋病患者淋球菌改变及不良反应的临床效果。方法:选择2014年5月至2016年9月在本院确诊治疗的淋病患者共40例,采取随机数字表法随机均分为两组。
目的:本文主要是对康复辅具应用在小儿脑瘫康复治疗中的效果进行观察与研究。方法:选取我院在2014年5月到2016年5月收治的114例小儿脑瘫患者,将这些患儿随机分为参照组与研究