XML聚类集成研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:xuxiaoxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML聚类集成也与传统的聚类集成算法一样都是通过对原始数据集进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分,因此它比单一XML聚类算法更能处理好数据集的噪声和孤立点、获得更好的聚类效果而成为当前聚类分析的研究热点之一。XML聚类集成又分为小规模的XML聚类集成和大规模的XML聚类集成,由于目前大部分的聚类集成算法是针对小规模数据的聚类集成,这些算法应用到大规模数据聚类集成中不会获得好的聚类效果,因此,本文在研究小规模数据的聚类集成的同时,特别针对大规模的XML数据进行更深入的研究。为了达到实现XML聚类集成的目的,在研究聚类集成前,其首要任务就是选择好的XML文档相似度计算方法,通过本文设计出的XML文档相似度的计算方法与传统的相似度计算方法对比,选择本文设计出的XML文档相似度的计算方法具有更高的准确性和精度,因此在本文的XML聚类集成研究中都采用本文设计的XML相似度计算方法;其次在研究小规模的XML聚类集成算法中,提出基于量子遗传算法的XML聚类集成解决方案,该方案实现的XML聚类质量和聚类精度明显比本文提出的两种单一聚类算法的解决方案要好和高;最后针对数据量从MB到GB和TB且结构复杂、数据分布不均匀、噪声多的XML大数据的聚类集成研究,提出并行AP传播的XML大数据聚类集成解决方案,该方案先对每一个XML大数据进行清洗、划分和抽取,并从划分的子集中抽取子树,通过设计出的随机子空间分类器并行地对抽取的子树进行训练,得到k个具有不同特征的训练子集的分类;其次从设计出的分类器中的各训练子集关系中获得内联相似度矩阵,并通过改进的并行lanczos-QR算法求解其矩阵特征值所对应的特征向量来实现数据的高维约简和低维嵌入;然后结合系统能量理论,设计出基于系统能量的AP算法,多次采用该算法并行地实现样本集的最优能量聚类组合,从而完成聚类集成,为了验证本文提出的算法,实验结果显示,该聚类集成算法比其它聚类算法对XML大数据集具有更好的聚类效果。
其他文献
电磁工程问题中存在很多的平面结构模型,例如贴片天线、微带天线、PCB平板和频率选择表面等。随着计算电磁学和计算机技术的发展,矩量法(MoM)由于它的高精度和通用性被广泛地
随着人口的增加、工业社会的发展,水污染也越来越严重。水中六价铬等重金属含量的超标以及由于磷等造成的水体富营养化使得我国逐渐成为一个水质型缺水国家。目前有关水处理
“和谐社会,以人为本”这是当今社会发展的重要理念。在这一理念的指导下,企业加强人力资源管理显得越发重要。而人力资源管理部门也成为了企业的核心部门之一。对员工的评价
本文基于液体晃动动力学理论和相似理论量纲分析法[1],推导了充液容器液体水平晃动问题下原型与模型的动力学响应相似关系,并对不同的模型进行了数值验证。
在建设现代化民主法治国家的道路中,对于合格的国家公民建设显得愈发重要,公民意识是一个合格现代公民应该要具备的思想观念,而本文的研究对象——小学生因为其自身知识和身心发展的有限性,所以在研究中小学生的公民意识包括:规则意识、权利意识、责任意识、参与意识。学校作为传播知识和思想建设的重要场所,有义务在基础教育的起始阶段——小学教育阶段对学生进行公民意识的培养。班级作为学校里最为贴近学生生活的一个组织系
基于非遗文化校园传承的政策导向和中职工艺美术特色专业教学的需要,运用文献研究法,梳理了国内外对于“泥泥狗文化”引入中职教学以及艺术设计类专业课程主题教学的研究。发现目前将“泥泥狗文化”作为一种教学资源的开发还不够系统和深入,学校教学在泥泥狗与设计专业的创新应用方面的融合以及学生后续的专业学习的衔接方面有待加强的问题,这为即将开展的研究提供了方向。本论文的研究一是为引起相关的教育工作者更多的关注泥泥
在我国历史上的不同时期,乡规民约与国家法的冲突与协调一直是困扰当时统治者的重大难题之一。在当代中国,正确处理乡规民约与国家法二者之间的关系,更具有重要的理论意义和
会议
随着工业4.0的到来,工业控制系统逐渐接入互联网,在提高系统工作效率的同时,也带来了一些安全风险,开放性协议的应用,导致工控设备更易受到网络攻击,如何保障工业设备安全运行,成为工控领域亟待解决的重要问题。利用模糊测试技术(Fuzzing)进行漏洞挖掘,是保障系统安全的常用方法。该方法通过向目标系统发送大量非法数据并监视系统运行情况来发现漏洞。测试用例由随机、不合逻辑的杂乱数据报文构成,将其发送给被
随着经济的发展,企业竞争日益激烈,单个企业已经很难凭借其自身竞争力寻求独自发展,企业间的竞争和共生也正逐渐演化为供应链之间的竞争和共生。供应链作为一种新的企业“生
风电出力的随机性、波动性给电网带来了调峰、调频和电压稳定等问题。但受到地理地貌和大气季风环流影响,地区风电出力具有一定的周期性和规律性。因此,选取出能够反映给定时间内风电出力变化特征的典型场景,是开展风电接纳能力评估、电网规划和调度策略制定的基础。本文针对国内外现有方法的局限性,研究基于实测时间序列的风电出力场景划分方法。论文的主要研究内容如下:(1)基于某地区实际风电出力数据,分析地区风电出力特