基于密度峰值和维度概率模型的混合属性数据聚类研究

来源 :浙江工业大学 | 被引量 : 5次 | 上传用户:oraclenienan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人工智能、机器学习和数据挖掘技术对现代社会的影响越来越深远。聚类分析作为人类认识世界的基本能力,受到了越来越多科研工作者的重视。由于混合属性数据的普遍存在和其统一距离度量的困难性,混合属性数据聚类的研究一直是聚类分析研究中的热点之一。本文对混合属性数据聚类中的相似性度量、聚簇信息表示、自适应聚类和基于密度峰值和维度概率模型的聚类新方法进行了深入研究分析,取得了如下研究成果:(1)针对聚簇信息的表示问题,创新性地提出了维度概率模型的概念。本文首先定义了面向数值属性数据的维度概率分布、维度概率摘要等相关概念和点簇相似度、簇簇相似度的计算方法,接着提出了基于该模型的DMPCAH层次聚类算法。最后通过实验对比分析发现,该算法比传统的K-Means算法和AGNES层次聚类算法在聚类精度上有了较大的提高,并可实现聚簇数目的自动确定和离群点的识别。在此研究基础上,本文进一步将维度概率模型扩展到混合属性数据的聚类分析中,定义了面向混合属性数据的维度概率模型的相关概念和相似度计算方法。基于此模型,结合最新的密度峰值聚类算法,提出了面向混合属性数据的DPKM和DPM聚类算法。实验分析表明,DPKM算法能够有效进行混合属性数据聚类,比传统的K-Prototypes算法聚类精度更高;DPM算法利用点簇相似性度量对DPC聚类的数据点进行重新分配,能够有效提高原DPC聚类算法的聚类效果。(2)针对混合属性数据统一相似性度量的问题,本文提出了一种统一距离度量方法(简称为UDM距离),并将其用于生成混合属性数据的距离矩阵;接着提出了一种用于混合属性数据聚类的DPC_M算法,通过实验分析表明,在UCI真实数据集中,DPC_M算法的聚类准确度比传统的K-Prototypes算法提高了 4%~13%。此外,本文还将此UDM距离度量方法与现有的Gower距离、K-Prototypes距离、OCIL改进距离、Goodall距离进行了比较研究,从实验结果来看,本文提出的UDM距离方法在所有实验数据集中表现最稳定,其时间复杂度也比较低,运行时间随着数据点数的增长率最慢。(3)针对混合属性数据集中统一相似性度量方法不够稳定,传统算法无法自动确定聚簇数目等问题,提出了一种基于密度峰值的混合属性数据自适应融合聚类框架和一种基于该框架的ACEDP算法。算法首先将数据集的数值属性子集采用可自动确定聚簇数目的聚类算法进行聚类,其结果映射为分类属性加入到分类属性数据子集中;然后采用基于熵权值改进的Goodall距离度量方法生成新分类属性数据集的距离矩阵,最后采用基于双拐点改进的可自动确定聚簇中心的密度峰值聚类算法进行自适应融合聚类。在真实数据集上的实验表明,该方法能够有效实现混合属性聚类,提高聚类精度并自动确定聚簇数目。
其他文献
习近平总书记指出,作风建设永远在路上。各级领导干部要带头转变作风,身体力行,以上率下,形成"头雁效应"。带头"自身过硬"。要加强党的十九大精神和习近平总书记系列重要讲话
本文的研究工作是国家自然科学基金项目“基于振动能量流分析的损伤结构波动特性与损伤识别(50375059)”的一部分。本文对裂纹损伤结构的振动功率流特性进行了理论研究和实验
<正>今年以来,保险监管部门连续对人身保险市场出现的"退旧保新"现象发布风险提示,提醒广大保险消费者理性消费,维护自身合法权益。5月中旬,北京市保监局在官网发布风险提示,
在如今竞争日趋白热化的手机市场,各个品牌业已形成了自己独有的配置、营销特色。在众多品牌中,小米、VIVO、OPPO、华为作为出货量和使用率较高的几个品牌,每次发布的新机配
心智哲学视角下的语言研究主要探讨语言表达和心智活动的关系。2010年以来国内心智哲学视角下的语言研究成果表明,现有研究在内容上主要涵盖心智哲学和语言研究的理论和方法
<正>叶广芩的《采桑子》主要讲述了一个大家族由辉煌到衰败的过程,本身就是满清贵族的叶广芩对这一过程深有体会,她曾经是满清贵族之一,也曾经脱离这个身份成为平民老百姓,也
学习文言文的重要性毋庸置疑,但围绕文言文教学的争论也常常听到,在文言文学习中,"工具性"和"人文性"更是许多人热烈讨论的话题。本文作者结合《语文课程标准》关于文言文教
<正> 经济效益现状 四川省安岳县近几年,在经济条件和自然条件具有代表性的两个镇,建立两个成本核算点,长期对农产品成本及经济效益进行调查。据调查,1983年以来,棉花生产经
因2005年上海高考试题答案对输出功率问题的求解缺陷而引发的思考,对电源输出功率进行探究,总结规律并在运用的基础上,提出知识和逻辑的整体性要求. Due to the defects cau