基于元素层次表达式模型的XML文档相似度计算

来源 :南开大学 | 被引量 : 0次 | 上传用户:nose88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML是W3C推荐的一种通用标记语言,凭借其自描述性、可扩展性、半结构化等特点,逐渐成为Web上数据表示和交换的标准,在多个领域都有广泛应用。随着XML文档的大量涌现,如何从海量文档中挖掘出有价值的信息成为研究热点。XML数据挖掘是知识发现技术在XML领域的重要应用。XML文档挖掘包含内容挖掘和结构挖掘。其中结构挖掘利用XML的层次结构特性,挖掘出XML文档结构中的知识,为XML数据的提取、集成以及其它应用提供便利。 XML文档的表示模型是结构挖掘的基础。论文在总结树型结构和频繁路径两个模型的基础上,针对XML文档的结构聚类进行研究,提出了一种新的表示模型--元素层次表达式模型(ELEM)。该模型以元素为中心,以元素之间的层次关系为主体,以关系集合为表示形式。该模型以简洁的形式表示XML文档的结构信息,改善了树型模型不易处理、操作难的缺点,并弥补了频繁路径模型在表示层次信息方面的不足。 在XML结构挖掘中,分类、聚类是常用的挖掘方法。XML文档的相似度计算是进行XML文档分类、聚类的基础,能对分类和聚类的效果产生重要影响。本文综合考虑了语义信息对元素相似度的影响,层次信息对结构相似度的影响,提出了元素层次表达式模型的相似度计算方法(LEMS)。为了验证基于该模型的相似度计算的效果,本文采用了K-中心点算法进行聚类分析。实验结果表明,基于这种相似度计算方法的聚类效果优于基于树编辑距离、PBClustering等方法得到的效果。
其他文献
MIS在商业、教育、医疗、电子政务等社会生活的各个方面已经得到广泛的应用。然而,随着企业组织结构的调整,业务需求的不断变化,用户对信息系统有了新的需求。要解决企业MIS
Web服务作为下一代Web的标志性技术,能够有效地解决企业集成环境中存在的软件接口复杂、难以升级和集成等方面问题,因此网络上Web服务的数量快速增长,但是单个Web服务很难满
随着嵌入式网络技术的发展及嵌入式系统在人们生产、生活中的广泛应用,它们所存在的信息安全问题已经变得非常严峻,如果这些无处不在的系统一旦出现了安全方面的问题,那么必
随着互联网和通讯技术的迅速发展,群体之间的远程交互协作变得日益重要,人们希望能够借助于计算机和网络技术,彼此之间相互协调共同完成一项工作任务。计算机支持的协同工作C
容迟网络泛指因节点移动、链路间歇连通等原因而使得通信链路经常处于中断状态、没有稳定的端到端传输路径的无线自组织网络。容迟网络的主要特征是网络拓扑动态变化、时延大
随着无线传输技术的发展,基于IEEE802.11协议的无线局域网(WLAN)得到了大规模的部署,同时WLAN上的典型应用如实时语音应用随之出现。实时应用对传输延迟和抖动比较敏感,而WLAN下
完善、通用、标准的零件库是制造业信息化强有力的基础支撑技术之一,企业采用此零件库技术可大大提高企业零件数据交换效率,便于产品全生命周期各阶段的管理和应用,实现企业
指纹识别系统在很多领域得到广泛的应用,但当今市场上的指纹识别系统厂商所提供的指纹识别应用系统和解决方案,从指纹识别应用系统到指纹识别软件开发包,无论是系统集成还是
随着计算机与计算机网络中软件系统越来越大型化与复杂化,对软件系统的性能要求也越来越高。自动控制发展的一个重要趋势是不断扩大应用领域,其中包括控制理论与方法在软件系
近年来毫米波技术迅速发展并且逐渐得到了广泛的应用,其中毫米波压控振荡器作为毫米波射频收发机中的关键部分也逐渐引起了广泛的关注。压控振荡器对于接收机和发射机的性能有