基于结构和内容的XML文档分类的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sxsdlyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,信息大量膨胀和聚集,互联网已经形成了一个由数据构成的巨大数据仓库,XML(eXtensible Markup Language)作为一种常用的数据交换和传输标准,蕴含了丰富的信息,具有通用的数据表示能力,能表示结构化、半结构化及元结构化的数据。因此,对XML文档的挖掘已经成为数据挖掘一个新的研究热点。其中,对XML文档分类的研究越来越广泛。根据XMI,文档的性质,分类时XML文档结构有许多模型,有基于树的、基于图的和基于路径的等等,其中XML文档的结构相似性度量是XML结构分析的核心问题。将XML文档视为一棵标记树时,已有的XML文档结构相似性度量主要包括距离编辑法、路径匹配法和时序分析法等。除结构以外,XML文档的内容对XML文档分类的影响也很重要,所以从结构和内容两方面研究XML文档分类方法具有重要的理论意义和广泛的实用价值。   本文基于结构和内容两个方面对XML文档分类模型和算法进行了深入研究。首先,针对目前XML文档基于结构和内容的编辑距离分类算法的不足,本文在计算相似性度量时提出了一种新的改进方法CS-XMLSim方法,使得当XML文档结构相似而内容差异大时,分类有较高的准确率。实验结果表明,当XML文档结构相似内容差异大时,CS-XMLSim方法在提高分类准确率方面有了明显改善。其次,针对传统KNN算法的不足,在CS-XMLSim算法作为相似度计算的基础上,本文提出了KNN的改进算法DB-KNN算法。DB-KNN算法是基于聚类和密度的KNN改进算法,DB-KNN算法根据训练样本的密度采用聚类的方法,除去训练集中一定数量的噪声样本,使样本在类别内分布地更加均匀,在提高文本分类准确率的同时,减少了样本间相似度的计算量,克服了KNN分类过程中搜索空间巨大的问题。最后通过实验验证了DB-KNN算法的有效性和高效性。
其他文献
基于视频的人体行为识别在人机交互、视频分析和社会公共安全等应用中具有广泛的发展前景与潜在的商业价值,使得它成为计算机视觉领域的一个热点话题。人体行为识别的主要任
板球系统是球杆系统在平面空间的二维拓展,是一种具有强耦合性、复杂性、非线性、参数不确定性、机械摩擦以及外界随机干扰因素的被控对象,与球杆系统相比,板球系统的控制更
随着计算机软硬件技术的快速发展,大量娱乐性的三维游戏如雨后春笋般的出现,其中,游戏中场景的渲染质量、角色模型的仿真控制、大规模群体的处理等往往是衡量游戏指标的重要
H.264是ITU-TVCEG和ISO/IEC MPEG联合制定的最新的国际视频编解码标准,相比以往的标准,H.264具有低码率、高画质、高压缩比等特点,但在提高编码效率的同时,计算复杂度也提高了
一阶混杂 Petri网作为 Petri网的一种扩展形式,它能够很好地描述混杂系统并对系统进行动态分析。近几年,其研究热点主要集中在基于语义的理论研究、系统优化控制以及图形化工具
随着网络应用的快速发展,人们利用网络进行信息传递日益频繁,因此网络信息的安全问题成为人们关注的焦点。网络信息安全是互联网及信息技术发展的基础,如何对网络中的各种非
本文通过对工作流技术的深入分析和研究,针对模型建立和执行阶段的灵活性不足以及异常监测跟踪处理不及时的问题,设计并实现了一个基于移动Agent的动态工作流管理系统,该系统
随着计算机网络和多媒体技术的发展,网络中的一切服务都被抽象封装成Web服务(Web Service), Web服务是一种自描述的、模块化的应用程序。它是一种与平台无关的技术,在异构平
Web服务自其出现以来,由于其具有互操作性、跨平台性和松散耦合性等特点,已经得到了学术界和工业界的广泛关注和深入研究。单个Web服务由于功能有限,很难满足用户日益增长的功能
Ad-hoc网络作为一种新型的移动网络,与传统的无线网络有很大不同,它不依赖于任何固定的基础设施和管理中心,而是通过传输范围有限的移动节点间的相互协作和自我组织来保持网