混合属性聚类算法研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:heartless850
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据聚类是数据挖掘中的一个重要分支,目前已有的数据聚类算法大部分局限于处理只具有连续属性的数据,另外有少量的算法局限于处理只具有标称属性的数据,如果只处理一类属性,在混合属性条件下必然损失数据信息,影响数据挖掘的质量。如何进行混合属性数据的聚类,目前还是一个充满着挑战性的领域。本文的主要研究工作包括以下几个方面:1.先介绍了K-prototypes算法,然后提出了2种针对K-prototypes的改进方法,第一种是在K-prototypes算法和模糊K-prototypes算法的基础上设计了一种新的算法——类属性分解法,这种方法能够克服原有方法的不足,并可以产生较好的聚类结果。第二种是在K-prototypes算法基础上设计的一种基于分组选择初始点的改进算法,并且通过遗传算法对分组做进一步的改进。2.提出了一种基于BIRCH算法的混合属性的聚类算法,在UCI数据集上的实验表明,文中提出的算法具有较好的性能。3.提出了一种基于改进的DBSCAN算法的混合属性的聚类算法,给出了相关描述,并指出了这种算法的优点。4.给出了一种基于聚类融合的混合属性聚类算法(CEMC),在进行混合属性数据聚类时采用了聚类融合的方法体系,并且推广了聚类融合方法,混合属性数据聚类时通过使用聚类融合理论来求解问题,在本文对这个问题的探讨中,建立了算法框架,进行了求解,提出了目标函数和算法,最后在实际数据中检验了本算法的效果。
其他文献
无线传感器网络(WSN)是由大量低成本、低功耗、处理能力低和能源受限的微型传感器节点组成的无线多跳自组织网络,各节点相互协作地感知、采集、处理和传输网络覆盖区域内被感
分类是数据挖掘和机器学习领域的一个热点问题,传统的分类问题主要关注数据分布平衡的情况,但是在实际应用当中数据不平衡的情况时有发生。数据的不平衡给分类直接或间接地带
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用户体验。但由于Ajax技术可以异步方式与服务
计算机软件业发展至今,已有五十几个年头。大量的应用软件被开发出来。由于历史原因,很多企业级应用软件存在着技术陈旧、系统结构混乱、文档缺失和维护成本高等问题,但由于
伴随着国家大数据战略的实施,以电子商务为首的互联网应用与现代生活深度融合的同时,也逐渐促进了汽车等传统行业市场经营和发展模式的转型。互联网平台和信息技术的发展为消
粗糙集理论是一种处理不精确和不确定性知识的数学工具,已被广泛的应用在数据挖掘、机器学习、软计算等相关领域。其中,基于粗糙集理论方法进行的时间序列数据分析研究已经取
分布式约束优化问题(DCOP)作为多Agent系统协作问题的重要而有用的抽象,是解决分布式智能系统建模和多目标协同优化的有效技术,具有重要的研究意义和实用价值。与传统的集中
本文分析了社会容忍延迟网络(Delay Tolerant Networks)的路由问题。根据社会网络具有的社区、中心、相似度等特征,提出了一种适用于社会网络的DTN路由算法。随着手机、PDA等
数字水印是将一些标志信息嵌入到数字产品(视频、音频、图像、文本等)中,在不影响原始宿主数据可用性的同时对数字产品提供版权保护和数据完整性认证的一种技术。随着多媒体
行动推理和知识表示是人工智能的重要研究领域。行动推理在认知机器人、Web服务、工作流等多个领域中得到应用。行动推理的主要任务是给出系统的初始状态和变化规则来预测某