基于减法聚类的混合算法研究

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:ynhappyma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于数据库技术的日趋完善带来了剧增的数据量,各个行业已经累计了相当多的数据,在信息量过大的环境里,人们感到很难从大量的信息中找到对自己有用的知识和信息。如何在快速增长的海量数据中挖掘出有用的信息是目前众多学者的研究目标,也是信息技术发展的必然要求。聚类分析作为数据挖掘技术中的一个重要分支,它既可以独自处理数据,又可以结合其它算法一起使用,能有效地了解数据的分布情况,寻找隐藏在数据中的一些特征。本文针对某些聚类算法存在的不足,提出了结合减法聚类方法来提高聚类算法的性能,具体研究内容包括以下几个方面:(1)本文阐述了聚类的基本知识及概念,聚类分析的几个研究方向,聚类的相似性度量函数,以及评估聚类算法质量好坏的准则函数,并研究了聚类的分类及其经典算法的特点及步骤,对比分析了各类聚类算法的性能及各个算法的优缺点和适用范围。(2)提出了混合减法聚类的改进型层次聚类算法。首先采用减法聚类得到一个初始聚类代表点,然后利用最小生成树(MST,Minimum Spanning Tree)中的Kruskal算法寻找最优路径,按权值大小存储类中心间的距离,最后实现分层聚类。通过对UCI数据集进行实验仿真对比,有效验证了所提算法的性能。实验结果表明,混合减法聚类的改进型层次聚类算法比传统的层次聚类算法运行速度快,且聚类结果也比原算法要好。尤其在数据量越多时,所提的新算法在时间消耗方面的优势越突出。(3)提出了混合减法聚类的改进AP聚类的算法,利用减法聚类算法,寻找密度值高的数据点作为聚类的初始中心,然后,计算出初始聚类中心间的相似度距离,结合半监督聚类的先验信息,添加成对限制信息,构造稀疏化相似度矩阵,最后对初始聚类中心进行AP聚类,从而获得合适的分类。实验结果表明,该算法减少了相似度矩阵的存储量,降低了计算量,而且在聚类效果和运算速度上优于原算法。
其他文献
在现代信息技术迅猛发展及Internet广泛应用的今天,信息已成为最具活力的战略资源。随着高等教育事业的发展及其改革的深化,高校人事管理的地位和作用日益重要。研制切实可行的
本文主要介绍了使用截深一米的机组开采在孤岛状态、金属网假顶下分层开采的对拉采面的生产管理技术。其技术关键是采用了以3.2米长的π型钢梁与1米的金属铰接顶梁相配合平行间隔
人体牙髓干细胞主要包括成人恒牙牙髓干细胞( hDPSCs)和儿童乳牙牙髓干细胞, 它们均是源自人体牙髓组织的一类归属间充质干细胞特性的、具有高度增殖能力与多向分化潜能的成
1997年,美国国民生产总值扣除通货膨胀因素影响增长了4%左右,与国民经济发展速度相适应,对矿物资源的需求也有了适度的增长。按现价计算,美国1997年非燃料矿物加工产值增加了约6.5%,
改革开放30年,是军区报纸变化最大、发展最快的时期。这30年,军区报纸高歌猛进、独树一帜,在当前我军军事新闻宣传的方阵中,形成了别样的景观,也折射出我军新时期军 In the
随着人机交互领域科技的不断发展,用户能够以更加自然和舒适的方式与计算机系统进行交互。人机交互建立了人与计算设备之间的纽带,实现了人与计算机之间更加直接、和谐和便捷
介绍了矿用数字多用表的要求及BKZ—11矿用数字多用表的技术特征、结构特点、应用前景。 Describes the requirements of mine digital multimeter and BKZ-11 mine digital mult
针对石油钻井投资大,钻具的采购和供应难以进行有效的计划管理的现状,分析钻井企业钻具的一般管理流程,说明了钻井企业实施ERP系统的必要性,指出对钻具数据的有效管理是钻井企业
由基因突变或启动子超甲基化引发的 DNA 错配修复(MMR)缺陷会造成核苷酸重复区(微卫星)序列超突变,即微卫星不稳定性( MSI). MSI 可促进多种癌症的发生,包括结肠(15% )、胃(2
期刊
随着网络的发展和信息化的逐步深入,企业对数据共享和交换的需求不断增加,迫切需要将其信息化过程中产生的各种异构数据进行整合,从而解决“信息孤岛”问题。建立异构数据集