一种基于信息熵的混合数据属性加权聚类算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:sea0972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性.
其他文献
对浙江省和国家三部委关于特色小镇的目标与要求进行了比较,指出各省应根据各自省情,针对经济社会发展和城乡建设中存在的突出问题,研究探索特色小镇的培育对策。分析了特色
造纸工业生产力促进中心特种纸委员会第四届特种纸年会暨衢州特种纸产业发展国际论坛于2009年10月16—18日在浙江省衢州市隆重召开。
由中国轻工业杭州机电设计研究院与芬兰Chempolis公司联合开发研制的非木材原料甲酸法制浆示范生产线,在芬兰奥鲁试车成功,生产出的麦草浆指标达到质量要求,标志着非木材原料甲
<正>~~
期刊
草地资源与资源利用者-草信动物的时、空格局及其保持和发展机制,以及对种和生态系统动态所生产的影响一直是草原生态2学研究的主要课题之一,也是草地农业生态学中一切问题的核心
乡村振兴战略是新时代解决"三农"问题的必然要求,是全面建成小康社会决胜阶段的重要路径,具有强烈的时代背景和战略意义。人才是科技兴农的关键环节、是乡村振兴的基础保障,
随着中国城镇化深入推进,农村劳动力无限供给局面发生了巨大转变,“民工荒”呈现出地区、产业、工种等全分位爆发态势,基于大量廉价农村劳力所推进的中国经济由此遭遇极大瓶
我国农村老年人口数量庞大,老龄化速度迅猛。而青壮年劳动力向城市的大量流动与转移,又改变了农村家庭结构,严重冲击了中国传统的农村家庭养老模式。在当前农村社会养老保险发展
辽宁省开原市第二高级中学是一所普通高中,现有教职工186人,在校生3200余人。2001年以来,学校在“以人为本、科研兴校、快乐读高中”办学思想的指引下,实现了学校办学质量、办学
水煤浆燃烧技术是煤炭清洁高效利用的重要技术之一,但与含水量低于6%的煤粉相比,水煤浆燃料里的水分多了24%~28%,一般认为这部分水分在燃料燃烧过程中由于汽化会消耗热量,使