改进的近邻传播聚类算法及其应用研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:stoudemire21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是多元统计分析的一个重要组成部分,广泛应用于社会生活的各个领域。近邻传播聚类算法是一种新型无监督聚类算法,由Frey和Dueck于2007年提出。该算法不需要给定初始聚类中心和簇的数量,只要构造相似度矩阵,建立偏向参数,即可通过消息传递机制,自动确定适合的类代表点。初步研究表明该算法具有许多优良的性质,如运算速度快、误差平方和小、聚类精度高等,但也有不足之处。首先,AP算法选择负的欧式距离作为其相似度度量,但欧式距离只适用于样本相互独立的情况,易受量纲的影响,且认为每个属性对距离的重要性相同。本文提出基于均方差的加权马氏距离,再将此加权马氏距离的负数作为AP算法的相似度度量,马氏距离能够自适应地调整数据的几何分布,消除属性之间相关性的干扰,基于均方差给属性加权,又综合考虑了属性相对重要程度对最终聚类的影响。采用此相似度度量,不仅扩大了算法的应用范围,也使聚类结果更精确。其次,AP算法中将每个点的偏向参数P设置为相同的值,即默认全部样本点成为类代表的可能性相等,忽略了数据分布特性对某点能否成为类代表的影响。针对此缺陷,本文提出基于其它所有点到某点的隶属度之和越大则该点成为类代表可能性越大的假设来设置P,实现了不同的点赋予不同的P值。基于数据特性设置P值,即事先给成为类代表可能性大的点赋予更高的P值,减少算法迭代次数及运行时间。同时,本文基于柯西收敛准则,实证分析了模型中归属度矩阵及吸引度矩阵的收敛性。最后,为获得从1到k的k个聚类,提出自适应步长,动态调整P值进行聚类的方法,并在此基础上研究了P值与聚类数目的关系,进一步对模型进行了优化。并利用Gap指标估计出最佳聚类数。通过对UCI数据库中的一些数据集进行仿真实验,证明了该模型具有可行性和优越性。
其他文献
经济活动总是在不同的空间区位中进行的,但空间概念在主流经济学中往往被忽视,因此交通设施和运输活动也并未反映在主流经济学的体系中。位于不同区域的生产资源和经济活动只有通过良好的交通基础设施联接才可能进入社会分工体系,从而扩大市场规模、实现规模经济,最终实现报酬递增和经济增长。交通发展的滞后,会由于高昂的运输费用而割裂市场,限制专业化分工的范围与深度,抑制经济发展。因此,交通运输是经济发展和市场经济运
采用MATLAB编程求取线性系统的时域性能指标,用户只需从键盘上输入线性系统的传递函数的分子、分母多项式系数,就可以获得该系统的时域性能指标和阶跃响应图,使得时域性能指
金融市场伴随着实体经济的产生而产生,伴随着实体经济的发展而不断创新。从金融市场和金融工具的本意来讲,是要为实体经济服务。实体经济的发展有着自身的运行规律,呈现出周期性
随着世界经济的发展和全球化趋势的不断加快,创新能力正日益成为经济社会发展的决定性力量,成为综合国力竞争的焦点。我国现在有664个核心城市,城市是区域发展的核心,研究城市的
采用单体硼为供硼剂对TC21钛合金表面进行稀土催化表面强化热处理,对渗硼层组织形貌、硬度、磨痕形貌和磨损率进行了研究.结果表明单体硼渗剂中CeO2配比为7wt%左右的渗硼层连
国有企业思想政治工作是凝聚企业发展共识和持久动力的重要举措,企业健康稳定发展,做好职工的思想政治工作至关重要.新时代国企如何做好职工思想政治工作,关键在于践行以职工
通优粳1号父母本生育期相差4~6d,播始历期相差3~5 d,父本植株比母本高6~8 cm,花时比母本早30~60 min。制种技术要点:适期播种,父母本播差期3~5 d;适时移栽,合理布局,父母本行
大豆是我国主要粮食作物之一,约占农作物总播种面积的6%,居三大粮食作物之首。大豆加工副产品豆粕是动物蛋白饲料的重要来源,对我国的畜牧业的发展具有极其重要的作用。由于大豆
一次,我打扫小暗室,拿出点儿试条相纸给学生玩.一个学生看了一会儿说:“我姥姥家也有这玩意,还有照相机,还有不知道是干什么用的一堆东西.”我想,终于找到能一起谈论摄影的人
本文基于动态随机一般均衡模型,建立了一个包含家庭部门、厂商部门、政府部门三部门的两国经济模型,利用汇改后中国的宏观经济数据对模型参数进行了校准与估计,其中使用贝叶斯估