基于三角不等式的XML文档相对密度聚类

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ylylyl123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩短信息检索的时间,提高数据查询的效率,挖掘出潜在的信息价值,能够为决策提供更好的数据支持。因此XML文档聚类研究已经成为一个新的研究热点。实现快速有效的XML文档聚类,必须解决两个关键性问题,其一,得到一个准确的文档间相似性度量度量方法;其二、寻求一个有效的文档聚类方法。由于XML文档标签可自定义,因此常出现同类文档集标签不同而意思相同的情况。   本文提出了基于文档的层次模型和特征词向量模型的文档相似度度量方法XSCL(XML Documents Similarity based on Content and Level),来计算文档的结构与内容相似度,提高文档间距离的计算精度,减少因误差而产生的离群点。实验结果表明,在出现标签不同而意思相同的情况下,XSCL方法对文档聚类有明显的改善。传统的密度算法DBSCAN算法的参数输入敏感,参数值难以设置,实用性差。相对密度聚类算法RDBClustering算法通过计算k近邻的分布情况,来判断对象是否在同一个簇,减少了参数的输入。但计算k近邻时,需要遍历整个文档集,在数据集庞大的情况下,I/O消耗巨大。因此,本文提出改进的相对密度聚类算法XTIRDB(XML Doeumem Relatived Clustering by Means of the TriangleInequality)。XTIRDB算法是基于三角不等式定理,建立候选k近邻邻居,减少k近邻搜索空间,通过不断更新候选k近邻邻居,最终得到k近邻邻居。实验表明XTIRDB算法在XML文档聚类上更具有实用性和时效性。
其他文献
随着计算机技术、数据存储技术和数据库技术等飞速发展,特别是互联网技术的广泛应用,个人电脑和互联网服务器上每天都会出现海量数据。从这些数据中挖掘出有价值的信息以指导
随着水资源的日益紧缺和农业机械化的要求,微灌已成为精确农业的一个重要组成部分。由于无线传感器网络(WSN)在许多场合的成功应用,国外已经将WSN技术应用于大范围农业微灌控
智能规划是近几年人工智能领域中的一个研究热点,因其广泛的应用价值和在理论研究中的重要地位,受到越来越多的学者关注。马尔可夫决策过程是研究随机环境下多阶段决策过程优
在软件开发过程中,软件需求扮演着极其重要的角色,能否满足软件用户或者市场的需要成为了软件能否取得成功的关键因素。传统的软件需求工程中,软件需求工程师协调着软件需求
当前网络安全问题日益突出,网络与信息安全面临严峻的挑战。传统的安全系统主要由防火墙、筑高墙、防外攻等手段组成,其不能从根本上解决网络安全问题。而大多数的安全问题是
随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟待解决的问题,于是基于内容的
摘要:目前P2P流媒体技术已经成为互联网上应用最广的流媒体应用的技术。基于P2P技术的流媒体业务也因此迅速发展,使得业务类型和流媒体用户大量增多,使得用户管理、业务管理和
数据通信的发展越来越趋向于无线化,但是无线网络中,有限的带宽资源以及复杂多变的信道特性,限制了视频和音频等多媒体实时业务服务质量。在2005年底出台的IEEE802.11e是传统
随着网络技术的迅速发展,互联网上的信息量呈几何级数的增长。对于不同背景和不同兴趣爱好的人,要从浩瀚的信息海洋中找到其需要的信息,是一项较大的挑战,个性化的信息检索系统满
随着互联网规模的急剧膨胀以及互联网新业务的大量涌现,使得网络拥塞不可避免。在网络研究领域,拥塞控制已经引起了越来越多研究人员的关注。路由器中采用主动队列管理(AQM,A