基于划分的聚类算法研究与应用

被引量 : 0次 | 上传用户:xixicoco606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于划分的聚类算法主要有K均值和K中心点算法,其他的方法都是这两种算法的变种。然而,K均值算法聚类结果有波动,取决于初始的K个中心点选择。造成这一结果的原因是K均值法初始时是随机选取中心点,迭代过程可能会终止于一个局部极值点,而这个极值点很可能不是最优点;传统的K中心点的聚类算法虽然能够得到较好的局部搜索结果,但需要很长的计算时间。为了改进K均值算法结果的波动性,本文提出一种优化初始点的K均值算法:先用一种方法探测数据集内的分布区域,分析数据集内的分布情况,然后根据数据集的分布情况,生成一颗聚类树;每次聚类时,根据用户输入的参数K,对这棵聚类树用二分查找,确定一个合适的相似度阀值,使得这棵树产生K+X(X>0,根据实际情况选择)划分,再把其中的平均相似度较小的X个区域划分到其他K簇中。最后,得到的K个簇,计算每一簇的中心,找出离这个中心最近的点作为初始的聚类中心。本文的方法是根据数据点的分布情况来选择初始中心,实验结果证明,有效避免了随机选择带来的聚类结果的波动性,比传统的K均值算法有着更高的查准率和查全率。为了使K中心点算法既能快速实现局部搜索过程,又能得到较好的局部极大解,本文作如下改进:当用一个更好的非中心对象替代某个中心对象后,先在每一个簇中找一个较优的初始聚类中心,然后找出使当前簇内目标函数值最大的对象并用其替代原来的中心对象,再重新分配剩余的对象。这样能够使目标函数值以更快的速度增加,从而加快收敛到局部极大解的速度。实验结果证明了本文做的改进,比传统的算法有着更快的收敛速度和更高的准确率。最后,本文把改进的算法应用于大连市公安局网上作战系统,对违法犯罪信息进行了聚类分析。
其他文献
招商引资是当前中国地方政府广泛推行的重要经济政策,已经和正在深刻地影响着地方的经济社会生活。这种现象已经引起学术界的高度关注和重视。招商引资在带给地方经济新的活
高速公路是国家公路运输网的骨干之一,具有特别重要的政治、经济意义,与一般公路相比,高速公路建设资金巨大,使用寿命长的特点,社会对高速公路的服务水平要求很高,具体体现为
<正>公私合作制度发端于英国并于自20世纪90年代以来被引入日本,通过制度嫁接,并融合英国PFI(Private Finance Initiative)经验,形成了独具特色的日本PFI体系和框架。为了推
本文针对东莞市统一基本医疗保险制度存在的问题,提出了今后需要加强医药卫生体制四位一体的联动协同改革机制建设,补充了针对外来务工人员保险需求的条款的建议,以期东莞市
长期以来,我国生鲜农产品基于“商物合一”的物流模式没有改变,加之物流保鲜技术的制约和分销物流网络结点布局不合理,解决物流周期长、损耗大、费用高的问题仍然效果不明显
创业教育是使受教育者能够在社会经济、文化、政治领域内进行创新,开辟或拓展新的发展空间,并为他人和社会提供机遇的探索性行为的教育活动。以美国为代表的创业教育已进入成
<正>50多年来,我一直从事各种识字教材的编辑工作,并组织了长时期的小学语文教改实验。我觉得要改革识字教学必须树立正确的指导思想,即树立正确的教学理念。包括:1.坚持小学
随着人们对物流成本节约能给企业以及整个社会带来巨大效益的认识不断加深,物流成本控制问题受到了普遍关注。尤其是与欧美发达国家相比,目前我国物流成本居高不下。因此,如
随着风电装机容量的不断增长以及大容量风电场的不断出现,风力发电对电网的影响越来越大。由于风电机组与传统同步发电机组具有不同的特性以及自然界风速固有的间歇性、随机
文章围绕如何运用BIM技术对建筑企业工程管理工作中的工程招标、工程进度计划、过程成本控制、工程索赔及结算等方面作了详细的分析,并提出了一些看法。