基于简单树匹配算法的Web页面结构相似性度量

来源 :第二十四届中国数据库学术会议 | 被引量 : 0次 | 上传用户:memeshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.
其他文献
由于非常规油藏特殊地质条件,导致在进行大规模水力压裂过程中形成了复杂的裂缝网络,复杂缝网的出现导致油藏渗流规律发生变化。基于体积源函数在准确描述复杂缝网形态的基础
IPSec和IP Filter是IPv6路由器中的重要安全部件.IPSec的安全关联查找引擎具有类似于IP Filter的功能,也需要对IP包进行过滤和匹配,路由器中流动的IP包可能需要经过这两个部件的
首先分别从微观和宏观视角对我国银行系统性风险进行了剖析,其次引入动态CoVaR方法对我国部分上市银行的系统性风险溢出效应进行了测度,得到在险价值与银行资产规模密切相关;
<正>《农药快讯》始创于1985年,是国内创刊最早的农药信息类期刊。经过20多年的深厚积淀,已发展成为我国农化行业享有很高声誉、深受广大读者喜爱、颇具影响的专业刊物。《农
期刊
2016年,山东省积极应对复杂的国内外发展环境和经济下行压力,科学判断、积极作为、综合施策、稳中求进,加大力度推进供给侧结构性改革,采取措施适度扩大总需求,工业经济阶段性筑底
报纸
目的分析腹腔镜子宫肌瘤术治疗子宫肌瘤的临床疗效。方法从2014年2月至2017年9月该院所收治的子宫肌瘤患者中选取160例患者作为研究对象,每组各80例随机分为观察组和对照组。
明式家具在世界家具发展的历史长河中如同一颗耀眼的明珠,带给中西方工业设计隽永的影响力。20世纪西方一些经典的家具作品中渗透出中国明式家具的设计身影,对后世的影响深远
针对执行器发生部分失效故障的漂浮基姿态受控柔性臂空间机器人系统,研究了执行器故障的容错控制及柔性臂杆残余振动的主动抑制。结合假设模态法、线动量守恒定理和第二类拉
针对煤矿井下支架搬运车重载下坡速度不稳定问题,首先介绍了支架搬运车行走液压系统原理,分析了支架搬运车重载下坡速度不稳定的主要原因。设计了支架搬运车液压系统缓冲装置