【摘 要】
:
迄今为止,人们已经提出了许多聚类算法。由于k-means类型算法在对大规模数据进行聚类时效率较高而且具有处理数值属性和分类属性的能力,从而被广泛应用在市场研究和数据挖掘
论文部分内容阅读
迄今为止,人们已经提出了许多聚类算法。由于k-means类型算法在对大规模数据进行聚类时效率较高而且具有处理数值属性和分类属性的能力,从而被广泛应用在市场研究和数据挖掘领域中。然而,在数据挖掘过程中,应用k-means类型算法的一个主要问题就是变量选择问题。k-means类型算法在聚类过程中对每一个变量都同等看待,不具备自动选择变量的能力。实际上,一个用户感兴趣的聚类结构通常只限定在变量集合的一个子集上,而并非整个变量集合,由于包含了某些噪音变量可能会掩盖了聚类结构的发现。在现实世界的数据库中,例如大银行中的客户数据库,通常包含大量的属性(变量),而每个变量对聚类结果的贡献都不相同。因此,怎样从大量的变量当中选择合适的变量进行聚类是一个非常困难并且非常重要的问题。本文实现了一个基于k-means的变量自动加权聚类算法W-k-means,并通过在模拟数据上与不带权重的k-means类型算法和具有固定权重的k-means类型算法进行了实验分析,证明了W-k-means算法在识别噪音变量和发现聚类能力上的优越性。其次,本文基于W-k-means算法并结合K-mode和K-prototypes算法,分别提出了处理分类属性的变量加权聚类算法W-k-mode和处理数值和分类混合属性的变量加权算法W-k-prototypes,并通过实验证明其发现聚类能力的优越性。最后,基于W-k-prototypes算法实现了一个符合业界标准CRISP(Cross Industry Standard Process for Data Mining)模型的聚类分析系统。
其他文献
为了加强和改进城市供水和节水工作,促进社会和经济的可持续发展,《城市供水管网漏损控制及评定标准》CJJ92-2002要求供水企业必须详细掌握管网现状资料,建立完整的供水管网技术
随着全球经济的发展,社会对物流服务要求日益强烈,物流企业有很大的发展前景,但物流产业的现状并非令人满意。一方面,物流企业核心业务远未形成,组织架构不规范,缺乏服务意识;另一方
经济全球化、时代信息化,企业经营环境日趋复杂、竞争日渐激烈。企业所面临的不确定因素将会层出不穷,突如其来的危机可能随时出现。 近年来,国内众多企业纷纷陷入程度不一、
在过去,由于政治因素,中国与印尼的政治经济关系不太融洽。然而,随着中国经济在世界市场中的份额与地位逐渐上升,特别是通过一些多边贸易合作组织,例如世界贸易组织(WTO)、亚太经
目的探究老年急性脑梗死并发肺部感染患者预后的影响因素与结果。方法选取2018年3月~2019年3月我院收治的老年急性脑梗死患者80例作为研究对象,对其临床资料进行分析与考量,
“支架”理论自问世以来,受到语言学界和应用学界的极大关注,它不仅具有重大的理论价值,而且在外语教学中具有广泛的应用价值,本文对这一理论应用到高中英语写作做了一次小小的尝
透明质酸(Hyaluronic acid or Hyaluronan,简称HA)是一种直链高分子粘多糖,具有独特的“锁水”功能。HA在化妆品、外伤及关节和眼科手术、眼药水等方面有广泛的应用。为了进
哈工大低温与超导技术研究所于2003年研制的7W/4.5K G-M/J-T氦制冷机存在降温速度慢,效率不高等缺点,系统有必要进一步优化和改进,优化的重点将放在综合考虑系统动、静态指标
语言是一门实践性很强的学科,是人类思维和交流的工具。随着国际间的往来日益加强,外语越来越强调其交际功能。然而,长期以来,我国的中小学外语教学一直采用传统的教学方法,即以老
地下空间资源作为城市空间资源的一个重要组成部分,越来越为世界各国所重视并加以综合规划和发展利用。城市地下空间利用有广阔前景,掌握并控制城市地下空间资源,发挥其在社