分布式环境下分类变量聚类算法设计与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:FalyE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种重要的数据挖掘技术,它可以在不了解数据背景的情况下完成数据的划分,使得同一个划分中的数据相似度尽可能大,不同划分中数据的相似度尽可能小,以方便数据的分析与管理。与其它数据挖掘技术相比,聚类技术最主要的特点是事先不需要了解数据内部细节,聚类结果完全依赖于数据本身。分类型数据广泛存于各种领域,解决分类变量聚类问题的传统方法是将分类变量转化成数值变量,之后利用数值变量的聚类方法进行聚类。由于分类变量的属性值没有数量关系,传统的处理方法有很大盲目性。一些专门针对分类变量提出的聚类算法,考虑了分类变量的特殊性,虽然改善了分类变量的聚类效果,但聚类精度仍有提升的空间。  基于以上分析,本文的主要工作如下所述:  1)介绍并分析了国内外主要分类变量聚类算法的优缺点;2)针对分类变量相似度定义的不足,提出属性权重相似度的定义;3)利用属性权重相似度,将数据集抽象为无向图,将聚类的过程转化为求无向图连通分量的过程,进而提出一种基于属性权重相似度的分类变量聚类算法;4)为了定量地分析该算法的聚类效果,针对类别归属已知的数据集,提出了一种评价聚类效果的指标;5)利用分布式的思想实现了无向图建立的步骤,大大提高了新提出算法的效率,为该算法处理海量数据提供了依据。  
其他文献
无线自组织网络(Wireless ad hoc network,ad hoc)是由一组带有无线收发装置的移动终端节点组成的一个多跳临时性自组织网络。它可以在任何时刻、任何地点快速构建起一个移动
无线传感器节点随机散布,由电池供电,能量有限是其最主要的特点,数据的发送,接收以及处理都需要消耗能量,而发送数据消耗的能量最多,为节省能量,需为节点寻找一条消耗能量最少的传输
TAL效应物(Transcription activator-like effectors)是黄单胞菌属植物病原菌分泌的一种特殊的三型效应物,在病原菌与寄主相互作用过程中起着重要的作用。TAL效应物的靶标直
随着信息化产业的高速发展以及国家对教育投入程度和规模的扩大,信息技术的不断发展,高校管理信息化程度越来越高,从高校走出的人才对社会新时期的发展发挥着越来越重要的作用。
随着无线传感器网络的应用发展,各类数据查询被不断移植到两层传感器网络中来,对安全性能要求也越来越高。对于简单数据查询,如范围查询,安全研究较多也较充分,但仍存在能耗
随着网格技术发展,KOS网络知识系统,人的认知行为以及信息检索等理论的支持下,心理学中的人的认知行为的概念被广泛的应用在检索网页的设计中,并成为检索网页设计的一大进步
据中国人民银行发布的统计数据,截止到2012年11月我国境内银行借记卡的累积发行量突破30亿,且同比发行增速仍然在加快。显示了银行票据业务进入无纸化、网络化之后,借记卡作
网络技术的高速发展,使得远程教育越来越受到人们的关注。这种基于网络的教育模式将教师和学生分离开来,无法进行面对面的交流与解释,学习者必须进行自主学习。网上答疑系统
随着互联网科技的飞速发展,互联网产品在世界范围内得到了极大的普及。人们的使用伴随着大量历史记录的产生。如何有效利用用户的历史记录,挖掘用户的偏好成为一个大的课题。
众所周知,密码技术和安全协议是保证通信安全的关键所在。但是随着计算机和通信技术的迅猛发展,各种密码破解方法和协议攻击算法不断出现,传统的密码技术和安全协议已不能满足日