XML文档的聚类研究

来源 :湖南师范大学自然科学学报 | 被引量 : 0次 | 上传用户:a67826766
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一。在XML文档聚类方法的研究中,一种研究思路是对XML文档的表示模型进行改进,以期得到更有效的XML文档相似度计算方法。目前针对有XML文档的相似度计算有多种模型,如SET/BAG模型、VSM模型、树模型等,每种模型下都有多种相似度计算方法。本文介绍了文本聚类的基本知识及其应用,分析了常用的文本聚类算法及其优缺点,介绍了XML文档相似度计算的一些基本模型和这些基本模型下的相似度计算方法,分析了各种相似度计算方法的优缺点。本文提出了一种基于SET/BAG模型的改进的相似度计算方法。该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),这样能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响。本文在真实数据集与人工数据集上分别进行实验,使用查全率与查准率对聚类结果进行评估,通过与节点比较法,树编辑距离法等类似方法比较,仿真实验结果表明了本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果。
其他文献
为了提高支持向量回归算法的学习能力,提出了一种基于因果网络的特征选择算法.该方法假设目标变量和特征候选集之间符合一个因果网络模型,然后利用基于条件独立性测试的方法
责任编辑最直接打交道的是作者,即所谓著作权人.然而作为文化产业最为重要一翼的图书出版业的第一生产力的责任编辑自己,却从来不被称为编辑权人(至今我们也未见有关于"编辑
提出一种基于多尺度小波分解及神经网络映射归纳的测试电流模电路故障缺陷的方法.针对CMOS器件典型故障建立了测试所需的故障模型,给电路节点加入故障模型进行故障响应测试.对故
近年来在期刊市场最为活跃和热销的时尚类杂志无论从品牌、款式和内容都给人耳目一新的感觉,而且这类期刊的发行量都能在短期内以异乎寻常的速度上升,一时间此类杂志成了期刊
我国加入WTO后,作为精神文明建设阵地之一的我国出版业将面临新的机遇和挑战。面对中国偌大的市场,国内一些实力相对雄厚的大出版社都在着力开发潜在的出版资源,扩大经营规模,增
期刊
为了在动态环境中快速地跟踪变化后的最优解集,提出一种基于聚类预测模型的动态多目标优化算法.通过对种群聚类,提高预测解集的分布性与广泛性,为分段预测做准备,然后利用历史信息
如何充分发挥学报的功能,许多学报同人结合自己的工作实际进行了策划和实践,取得了相应的效果.笔者在他们的基础上试补充一法,即利用学报中的空白页刊登学术征询.
(接上期)51-70:发展论51.畅销书是出版业的经济生命线,但又是一种大众快餐.不可无,也不可多.由畅销书熏陶出来的人一定是文化短视的一代.出版业不应当为社会过多地培养文化短
随着计算机和Internet主导技术介入人类社会生活的各个层面,进而引起相关领域的革命性变革,网络时代的到来已经成为一个不争的事实.在这样一个时代背景下,高校学报作为高校的
我国出版业现有各类集团约50家,其中国家试点出版集团6家,发行集团3家,报业集团16家,非试点各类集团20余家.集团组建后的发展问题是出版业界关注的焦点.