改进的K-means算法研究与实现

来源 :安徽大学 | 被引量 : 0次 | 上传用户:kevinlpr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
初始中心和相似性度量方法的选择都会影响K-means算法精准程度,论文研究的目的是引入新的相似性度量方法和初始中心参数选择技术,从而提高算法的准确度。论文研究内容及方法如下:首先,论文引入密度极小值理论,基于密度参数的基础上,利用欧氏距离计算数据集的密度参数,获取所有的密度参数之后,获取K个中心,如果数据对象A到K个中心具有相同的距离,此时排序簇中数据对象到A的密度距离,选择最小的密度距离并将A归至对应的类中,这就可以使数据对象与邻近的数据对象变得更加紧凑,表明数据对象与邻近对象密度更高,能够更加准确的反映数据集内部的分布式结构关系。其次,论文引入互信息作为相似性度量方法,可以利用互信息评估数据对象之间互相包含的程度,适用于模糊度较高的文档数据以及上下文信息包含量较大的应用场景,比如在文本聚类中,如果两篇文章同属于一个簇,这两片文档的特征词含量一般重叠的较多,因此可以更加准确的发现数据集潜在的结构。论文实验结果表明,引入密度极小值设置初始中心,可以提高K-means算法的准确度;利用互信息改进K-means算法的相似性度量,改进后的K-means算法能够较准确描述数据对象之间的关系,反映数据集的内部结构分布特征,提高数据聚类的稳定性和准确性。改进的K-means算法应用于文本文档聚类过程中,与传统的K-means算法相比,可以提高文本聚类的准确度,能够提高网络文本聚类效果。
其他文献
在经过近几十年的飞速发展之后,目前东亚许多国家由低收入国家步入了中等收入国家之列,随之而来很可能陷入“中等收入陷阱”。日本则是个例外,它是国际上公认的成功跨越“中等收
报纸
本文通过对夫妻财产制度的介绍,浅议了我国当前的法定财产制度的缺陷以及适用分别财产制度的必要性和可行性。
总结了国内外土壤Hg环境质量标准限值,比较了中国和美国对汞污染土壤处理技术规定;在此基础上对热脱附、固化/稳定化、化学萃取和植物修复等Hg污染土壤治理修复进行了综述,总
目的:探讨神经元特异性烯醇化酶(NSE)、突触素(Syn)、嗜铬素A(CgA)与胃癌临床病理和预后的关系。方法:对168例普通型胃癌病例随访5a以上,用免疫组织化学二步法对胃癌组织分别
不久前,SAP公司Business Objects解决方案产品线CEO John Schwarz在北京召开了媒体沟通会。他指出在一个具有高度不确定性、动荡并且经济下滑的大环境中,如何利用相关的工具做
目的:构建人端粒酶逆转录酶(hTERT)真核表达载体pcDNA3.1-hTERT,并观察其对荷瘤小鼠的抗肿瘤效应。方法:用RT-PCR方法扩增出带有HindⅢ,BamHⅠ酶切位点的hTERT基因片段,与pGE
<正>这是一组如今已十分普通的生活场景:坐地铁上班,车厢内有令人眼花缭乱的液晶电视;乘公共汽车,迎面是移动液晶电视;进办公楼,楼梯口、电梯里还是液晶电视;下班后,出租车内
从就地保护、易地保护、再引入三方面,系统总结了1981~2008年间朱鹮拯救与保护工作取得的主要成就,并对野生朱鹮种群自然迁移规律进行了系统研究,提出了野生朱鹮种群自然迁移与季
为了规范和促进能源供应,德国于2005年颁布了新的《能源经济法》①。除了传统的价值目标供应安全和廉价性之外,该法又增添了环境的可承载性,能源效率,消费者保护等新的价值目
对2001~2011年固城湖水环境污染状况评价与时空变化特征分析的基础上,探讨了固城湖的特征污染物及污染来源。结果表明,固城湖水质污染的主要超标因子为TN和TP;总体水质呈现先