【摘 要】
:
K-means聚类算法适用于小规模和低维度数据集,对于高维度大规模的数据集,其聚类精度明显下降,计算时间明显加长。k-means聚类算法运行前必须事先给出聚类k值,其聚类结果对初始聚类中心点的选则具有很大的依赖性和随机性,并且极易受噪声点的干扰导致聚类结果不准确。针对K-means算法这些缺陷,论文提出了一种基于属性加权的PWPCA-KDKM改进算法。论文提出的PWPCA算法将主成分分析(PCA)
论文部分内容阅读
K-means聚类算法适用于小规模和低维度数据集,对于高维度大规模的数据集,其聚类精度明显下降,计算时间明显加长。k-means聚类算法运行前必须事先给出聚类k值,其聚类结果对初始聚类中心点的选则具有很大的依赖性和随机性,并且极易受噪声点的干扰导致聚类结果不准确。针对K-means算法这些缺陷,论文提出了一种基于属性加权的PWPCA-KDKM改进算法。论文提出的PWPCA算法将主成分分析(PCA)与线性判别分析(LDA)相结合,使用线性判别分析(LDA)的线性映射与主成分分析(PCA)对高维度大规模数据集进行降维,通过计算各维度的贡献率确定每一维度的权值,利用最小二乘法进行拟合,对于特征权值接近为零的维度进行约简,从而达到属性加权特征选择方式来提取主要维度属性的效果。然后,利用PWPCA算法对精简维度后的数据集进行KDKM聚类,大大降低了算法计算复杂度,提高了 K-means聚类的准确性。与其它聚类分析算法相比,实验表明:通过PWPCA数据降维的KDKM算法可以有效地解决异常点对聚类结果的干扰,大大提高海量高维数据的聚类精度。论文提出了一种基于PWPCA算法的PWPCA-KDKM,基于PWPCA对数据集的进行降维,提取出主属性,加速聚类。借助k’dist曲线图来确定聚类簇数k值,取第i(i≤k)段平缓曲线上所包含点的均值作为第一初始聚类中心。使用基于密度和最小距离算法,从剩余的数据对象中选择k-1个初始聚类中心,使用传统的K-means算法,将集合中的剩余数据对象分到最近的集群中心所在的集群,计算聚类质量评价函数(BWP)的值来评价本次的聚类效果。以此重复k次,将具有最大聚类评价函数值的组作为最终聚类结果。实验证明:PWPCA-KDKM算法在UCI数据集上获得的聚类结果比传统K-means算法聚更准确,聚类结果更稳定。传统的微博舆情分析往往是漫无目的的在微博平台搜寻热点话题,执行效率低、结果不准确。论文分析了微博用户的特点,首先对微博用户的兴趣爱好进行分析,分析之后将关注娱乐、体育等非敏感信息领域的微博用户排除,只关注论文中定义的敏感用户,通过热点话题聚类结果分析表明此种方式结合PWPCA-KDKM算法使得微博监测系统的聚类结果更加准确和细化,更接近实际应用的聚类分析结果。
其他文献
刚地弓形虫(Toxoplasma gondii)是一种可以感染有核细胞的顶复门类寄生原虫。人畜食入被弓形虫卵囊或包囊污染/感染的食物从而感染弓形虫疾病,在中间宿主体内以二分裂的方式进行繁殖。弓形虫病可以引起孕妇及妊娠母畜流产、死胎等症状。猪感染弓形虫可造成60%死亡率。近年来,随着弓形虫感染率的不断上升,筛选有效抗弓形虫药物靶标成为亟待解决的问题。钙离子作为第二信使参与多种途径的调控,前期研究发现
十八大以来,党和国家领导人在不同的讲话中多次提到政府要以服务者的身份,促进非公有制经济健康发展。2016年3月4日,习近平总书记发表重要讲话,指出要构建“亲”“清”新型政
基于分布式大数据系统的城镇区域需水量预测问题是城镇供水系统调度和管理的核心之一。文章设计了一种在云平台上基于BP神经网络的改进算法实现并把其应用于城镇区域需水量预测中,该种方法不仅可以对区域需水量进行科学准确预测,而且可以有效解决传统单机模式下存在的问题,为相关部门决策提供重要支持。根据云南水投公司将采用“互联网+”的思维借助云计算平台,通过移动宽带网将智能水表获取的海量用水数据实时汇聚到云端,然
随着社交网络的快速发展,各种社交网站和应用软件大量涌现并得到广泛应用,例如Facebook,You Tube,微信(Whats App),这使得人们可以随时随地与全球各地的用户进行信息分享与交流。这些社交平台作为当今最主流的通信媒介吸引了海量用户,这意味着在社交网络中包含着大量相互作用的对象。然而在现实中社交网络通常是动态的,其中的对象和链接会随着时间发生剧烈变化。近年来人们对动态社交网络有着一定
改革开放近四十年,职工基本养老保险制度体系逐步完善,制度覆盖人群不断扩大,养老金标准不断提高,基金管理更加科学,可以说改革效果非常明显。本文通过梳理近四十年基本养老
液化天然气(LNG)具有能量体积密度大、储运性能好、安全性好等特点。与普通的汽油和柴油等液体燃料相比,LNG的优势在于可大幅度减少汽车尾气排放;同时,可降低燃料成本。重负荷LNG燃气发动机冷却系统不仅冷却发动机,保证发动机正常运行,而且要将吸收发动机的热量使LNG从液态转变为气态燃料,供给发动机。通常重负荷LNG发动机需要长时间在接近额定功率状况下运转,具有强化程度高、工作时间长,载重吨位大、燃烧
铜铝水滑石(CuAl-LDH)一直以来受到研究人员的广泛关注。通过将过渡金属铜离子引入到LDH的层板上,赋予了其优异的结构与性能。本文以CuAl-LDH为研究对象,分别研究了CuAl-LDH的
网络控制系统(Networked control systems,NCSs)是使用通信网络将分布在不同地域的传感器、控制器和执行机构等工作单元连接在一起从而形成的空间分布式闭环控制系统。NCS凭借其组装灵活、易维护、连接方便等特点在诸多领域不断推广,但是受数据流量变化不规则和带宽因素的影响,使得信号在传输的过程中总会伴随数据丢失和时滞等随机现象。随着计算机网络引入,系统复杂度增加,并且还会面临由网
随着经济社会生活互联网化程度的不断提升,互联网保险的创新发展也进入了升级阶段。一方面,互联网的快速发展推动着保险市场业务模式的不断创新;另一方面,传统保险业在市场的探索中不断发现新的商机,渴望借助先进科技手段通过对传统价值链的升级改造来推动市场均衡发展。本文所研究内容正是基于上述的互联网+保险的大背景,对公司内需求类型进行细分,统计发现第三方互联网平台对接项目在每年新增需求中占比最重且管理过程中矛
SOLO(Structure of the Observed Learning Outcome——可观察的学习成果结构)分类评价理论为澳大利亚心理学家约翰·比格斯(Biggs)及其同事凯文·科里斯(Collis)1982年所创立,把学生的知识和能力发展水平分为5个等级。该评价法能够更好地反映学生语言知识的掌握及语言的使用情况,因此可以更直观、准确地体现学生的语言能力发展水平。目前,此评价方法尚未广