用带权重的pq-gram算法计算XML文档相似度

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:jay36890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。
其他文献
介绍了国家科学图书馆针对新疆"7.5"事件的"应急服务专项计划",并就图书馆应对突发公共事件的处置原则提出了建议。
分析了数字保存项目内含的延迟期权,构建了基于延迟期权的数字保存项目收益变化呈现随机波动和无波动两种情况下的投资规则模型,并结合概念性例子进行实证研究,得出数字保存
人人都赞同IBM 360是迄今为止最伟大的软件之一。假如以历史的眼光来看,伟大很容易评定。如果软件的历史最很短,那么要评上伟大就很难了。
技术的价值在于如何让处于分布式业务环境中的人们以业务为基础加紧协作,即实现商业临界关键业务协作(Business—critical Collaboration)
群体性事件是当前我国党和政府及有关部门,学术界共同关注的一个重大理论问题,同时也是一个重要的实践问题。本文从群体性事件的概念入手,深入分析其产生的原因,表现形式以及
<正> 一、硒在绵羊机体中的地位与作用 硒是绵羊营养中不可短缺的微量元素之一,它参与机体中蛋白质、脂肪和碳水化合物的代谢,参与调节酶促反应和氧化—还原过程。母羊怀孕期
汉字在经历了不同历史时期的发展和演变才形成了现在我们所使用的文字,中国汉字中包含的“形”和“意”所表现出来的文字内涵和美学特征是其它文字无法替代的。广告设计的本
<正> 位于山西南部峨嵋岭顶端,海拔780米的闻喜县凹底镇东颜村,是个典型的黄土高原区,年无霜期只有160余天,一年一作,产量水平低。东颜村针对当地生态特点,调整种植业结构,大
最新的调查研究结果表明,大公司正在排着队购买新的商务智能(BI)软件,并且在2007年里将升级企业资源计划(ERP)系统。在旺盛的市场需求促使下,国内外BI厂商纷纷革新技术方案、推出行