XML文档结构相似度研究及在文档聚类中应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:jiaxing19871215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息,已经成为研究的热点,这也给信息检索带来了极大的挑战。相似度的计算是文档检索、挖掘和文本聚类的基础,因此对相似度算法进行研究具有非常重要的意义,可以说文档相似度的计算直接影响了最后的检索结果。XML语言具有“自描述”、“树形结构”、“结构嵌套”等特点受到了业界的普遍欢迎和支持,越来越多的应用领域已经将其作为主要的存储格式和传输媒体。因此如何计算XML文档的相似度特别是它的结构相似度是目前研究的主要任务。通过对XML文档的不断深入研究,发现传统的相似度的计算方法已不能满足计算元素的嵌套结构的语义要求。用树的编辑距离来计算文档的相似度时,如果树描述全部结构信息,这样树的结构会非常庞大,并且树编辑距离方法对文档中元素重复和元素可选问题不能有效处理。另一方面,在因特网上通过搜索引擎检索信息时,出来的信息成千上万,而人们通常只关心检索的前20名,如何提高前20项(或前n项)与用户相关项的个数,即提高检索结果的准确性是研究的另外一个难题。为了解决上述问题,本论文,在文档对象树的基础上,提出了一种基于树路径的XML文档描述模型,并给出了相应的相似度算法,将问题有效地简化,从而降低了解决问题的复杂度。这种算法能快速、准确分辨出具有相同结构的XML文档。首先,本文提出了一种基于树路径模型的相似度算法,来实现对XML文档之间相似度的计算。该算法简化了XML文档描述,从而降低了解决问题的复杂度。此算法在文档类别数较少,且不同类别的文档的结构相差较大时,有很好的聚类效果。其次,在此算法的基础上,针对它存在的一些问题如:路径只是包含父/子这种祖先与子孙的关系,忽略了兄弟结点之间关系;没有考虑各路径的权重;并且在比较两路径的相似度时用的是路径的完全匹配等,本文对此一一进行了改进,并提出了改进后的相似度的计算方法。改进后的算法计算出来的相似度更准确,处理了文档中元素重复问题,使得计算结果也更符合人的直观理解。最后本文进行了实验测试,并且在计算文档相似度的基础上对文档进行了聚类,实验结果显示与其它算法相比,本文的方法更显著地提高了识别具有相同结构的XML文档的能力,在此基础上,通过对文档进行聚类,使具有相同特征或相似度值很大的文档归为一类,很好提高检索结果的准确性。
其他文献
在多级安全数据库系统中经典的BLP模型的“向上写”规则违反了数据库的完整性约束,并产生隐蔽通道和推理通道问题,解决方法是引入多实例。但引入多实例会引起语义模糊的问题,
数学公式是一类非常特殊的符号表达式。在外形上,它呈现非线性结构,可以用于描述和展示比普通文本更加复杂的逻辑关系;在内容上,它简洁明了,对问题的描述和表达比普通文本更
Internet的发展改变了人们的生活方式,但是网络给人们带来巨大便利的同时也带来了各种各样的安全威胁,网络病毒是其中最主要的部分。随着互联网的发展,网络病毒传播的速度越来越
网络的发展使得世界各地越来越丰富的电子资源信息供人们使用,但是随着数字信息的爆炸性增长,快速有效地获取需要的相关信息却又变得越来越困难,因而对信息获取技术的发展提出了
Internet环境中分布着数目巨大、形式多样、功能各异的可共享资源,如何充分利用网络中丰富的资源、消除信息孤岛是人们一直在致力解决的问题。网格计算技术的出现旨在寻求有
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,具有理论完备、全局优化、适应性强、推广能力好等优点,是机器学习中的一种新方法和研究新热点。它
互联网正从一个静态数据内容占主导地位的阶段快速发展成为一个包含静态媒体内容和连续媒体内容的综合的信息资源库。随着网络带宽和计算机处理能力的提升,流媒体技术成为人们
近些年,随着人们对精神文化的不断追求,以及国家对文化产业的大力支持,文化演出服务行业随之繁荣。文化演出服务提供者提供的资源日益丰富,观众的需求偏好日益个性化,如何将丰富的
为了提高决策科学化水平,电信企业也纷纷构建了以数据仓库系统为核心的经营分析系统,为企业的决策提供管理信息。然而,经营分析系统不能实时地根据变化数据产生信息,进而支持企业
数据挖掘是指从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的过程,是目前国际上数据库和信息决策领域前沿的研究方向之一。随着时序数据在金融和科技应用中的广