基于权重边集比较法的XML语义聚类研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:fly57384
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)即可扩展的标记语言,由于具有简单、可扩展、互操作性强、开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式。与HTML相比,XML具有更大的灵活性。它不仅可以用来标记无结构的文本信息,还可以标记高度结构化的规则数据(如数据库中的数据)。随着Web上XML数据的快速增长,如何帮助用户快速有效地检索大量的XML数据,得到想要的信息,便成为亟待解决的课题。文档聚类是一种帮助人们检索信息的有效手段。为了有效的分析XML文档中的信息,XML文档聚类研究也就成了当前研究的热点。对XML文档聚类的关键点是文档间相似性的度量,由于XML文档是一种半结构化的文本,其信息可以通过文档结构得以描述,所以并不是所有的文本相似性算法都适合于XML文本。目前XML文档相似性计算方法主要有:元素比较法、边集比较法和编辑距离法。元素比较法简单,速度快,但是只是考虑节点的个数但是没有考虑XML文档树的结构复杂性,聚类结果不是很理想。树编辑距离法考虑了XML文档树的结构复杂性和节点相似行,有着良好的聚类结果,但是时间复杂度较高。边集比较法的性能介于二者之间,因此本文对边集比较法进行了扩展,提出带权重的边集比较算法,通过消除XML文档树中的嵌套和重复节点有效的简化了XML标记树,并结合语义信息度量XML文档之间的相似度。得到XML概要树间的相似度后,利用划分聚类法,对XML文档进行聚类。基于经典的边集比较算法,本文做出了以下创新:一、提出了带权重的边集比较法的概念,对XML概要树上每一条边都根据结构复杂性和所处的层次,赋予一定的权重,加强了XML中结构和层次的重要性。二、结合语义信息计算XML概要标记树中有向边的相似性,得到在语义上等价的边的集合,以此确定两个XML概要树之间的相似度,增加了聚类的精确度。实验结果表明,基于语义的带权重的边集比较法有较好的聚类结果。
其他文献
作文赏评是小学作文习作的重要一环,师生互动上好作文赏评课尤为重要。恰当的引入,动情的朗读,合理的品评,教师的综述,以及最后的升华,都为学生下一次作文做了很好的铺垫。
在实际工程中经常需要处理大量的实验数据,对数据的回归分析是其中的一个重要方面。符号回归的含义是找出一个符号形式的数学公式,以指定的精度拟合相关变量的有限样本,以便
随着4G技术的不断普及,移动互联网被越来越多的人所使用,智能手机及手机APP的大量应用已经成为当今社会的一种趋势,智能手机的市场份额也大幅增加,根据2015年的数据统计,智能手机
课堂教学发挥学生的主体性,是教学改革的必然趋势.教师只有不断提高自己的理论水平,丰富自己的知识,在课堂教学的主阵地中,充分发挥学生的主体作用,不断地探索和改进,优化课
高血压病中医学称为眩晕,高血压病眩晕发生以脏腑精血不足和功能失司为本,肝阳盛则生风、脾胃虚则生痰、肾精不足则清窍失养,其病邪以风阳为主,风阳上犯或风阳兼夹痰瘀上扰为
目的:探讨自拟清热利胆方对原发性肝癌(PLC)行肝动脉化疗栓塞(TACE)联合经皮微波消融(MWA)术后炎症递质及免疫细胞水平的影响.方法:将90例接受TACE联合MWA术治疗的PLC患者随
汪受传教授是全国名中医,从事儿科临床、教学、研究工作50载,学验俱丰,造诣深厚,临证用药,疗效显著.麻黄杏仁甘草石膏汤出自《伤寒论》,相关记载有两条,即63条“发汗后,不可
2008年1月1号辽宁电视台更换了新的台标,推出了全新改版的栏目,也对机构设置做出了较大的调整。与策划工作相关的主要有两大中心:经营发展中心与节目宣传管理中心。节目策划
肠道正常微生物在平衡人体健康和疾病的过程中起着重要作用,因此研究人的肠道菌群具有十分重要的意义和作用.本文探讨了肠道菌群对人体健康的影响以及调整肠道菌群失调的措施
曾学文,全国名老中医药专家学术经验继承工作指导老师.曾老临证以中医理论为本,西医技能为用,中西医结合,坚持动态整体观和辨证论治,在中西医结合诊治心系疾病方面颇有建树.