K均值算法研究及其应用

被引量 : 0次 | 上传用户:mashangdenglu888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术诞生于信息大爆炸的时代,用于在大规模数据中获取数据中隐含的关系和模式。其中,聚类方式作为数据挖掘技术中的一项重要的技术,随着其理论的不断发展和完善,该技术已经应用到了极其广泛的领域,如商务决策,图像识别,数据模式识别等。交通事故原因分析对于聚类分析来说,则是一个较为新颖的应用领域。随着交通事故数据的不断累积,亟需要一种数据挖掘技术对其发生的模式进行挖掘,从而能有效规避事故。聚类分析,尤其是聚类分析中的K均值算法是一个较好的选择。本文首先对K均值算法进行了较为深入地研究。K均值聚类算法是一种被广泛应用的聚类算法,其特点是高效,实现简单。然而,该算法本身存在着多方面的不足,其中,初始聚类中心点的选择不当和离群点严重影响着该聚类算法的准确性和收敛速度。目前存在的针对于K均值算法改进中,基于密度加权的K均值改进算法具有较好的聚类效果,然而该算法的时间复杂度为O(N2),是较为低效的。本文则提出一种改进,既能获得较好的聚类效果,又能保证改进后算法的线性时间复杂度。本文首先针对初始聚类中心点的选择提出了一种方法,能够在数据对象空间中均匀选择中心点;而对于离群点,本文也给出了相应的检测方法,以防止离群点对聚类效果的干扰。本文通过理论证明改进后的算法能够保持线性的时间复杂度,因此改进算法相对于基于密度加权的K均值算法更高效。本文选用UCI机器学习数据库的数据集进行对比实验进一步说明改进后算法的高效性和准确性。本文针对交通事故数据的特点进行了深入地研究。交通事故数据的类型往往包含连续值和离散值,而目前存在的对于交通事故数据的聚类分析中,处理连续值和离散值的方式是一样的,这显然是不合适的。因此本文在交通事故数据的预处理步骤中,对离散值的处理方式进行了改进。然后本文将改进后的K均值算法应用到交通事故原因分析中;在得到了聚类簇后,本文又提出了如何针对交通事故数据中不同的数据类型,得到每个聚类簇的典型的表征;然后根据这些表征进行分析并得出了较为合理的事故原因分类。
其他文献
船舶柴油发电机组是船舶电力推进系统的重要组成部分,其运行特性与电力推进系统的运行与控制密切相关。大连海事大学电力推进实验室柴油发电机组部分没有采用真实的柴油机,而
<正>彩特美肥料生物活化剂是美国细胞酶实验室有限公司研发的新型生物活化剂,其通过多种途径(包括N2固定)促进氮被生物体吸收,促进土壤细菌、放线菌和真菌等繁殖和活性及有机
藏族服饰具有浓郁的地方民族特点和艺术特色。透过藏族服饰文化的表象,可以窥见藏族人民在漫长的历史变迁过程中,逐渐适应独特的生态环境和生计方式而形成的民族文化心理、人
红色旅游作为一种新型主题性旅游形式,在神州大地逐渐兴起。积极发展红色旅游,既是深入贯彻党的十六届四中全会精神、不断提高建设社会主义先进文化能力的重要举措,也是改进
合作教学是近年海外汉语国际推广中出现的一种新的教学模式。合作教师从教学出发,按照教材共商定教学计划,通过发挥各自特长,优势互补,合作完成各个教学环节,达到预期目标。合作教
中央空调作为楼宇自动化的关键设备之一,已引起越来越多的关注。随着楼宇自动化的不断发展,传统的工业现场控制管理模式已经无法适应楼宇自动化的需求,而远程监控系统逐渐进入人
韭菜在江苏省大丰市有着广泛的种植基础,常年种植面积在4.5万亩左右,近年来呈现出不断扩大的趋势,韭菜的品质和产量也十分的优异,韭菜生产已经成为当地农民经济收入的主要来
<正>2011年9月15日,落户在山东省高密市的国内规模最大的铜铟镓硒薄膜太阳能光伏屋顶电站,首期安装规模300kW工程成功与国家电网系统并网发电。该项目座落于高密市的城北工业
<正>2012年11月7日,全球知名电力和自动化集团ABB宣布在直流断路研发领域取得突破性进展。这一技术突破解决了电力工程领域的百年难题,为打造更高效可靠的电力供应系统铺平了
在分析中国农产品冷链物流基础设施落后、第三方物流发展缓慢、供应链管理水平较低、冷链物流标准缺失、冷链意识有待进一步提高等发展现状的基础上,总结了以加工企业为核心