数据挖掘中聚类分析算法研究与应用

被引量 : 0次 | 上传用户:yuanma3746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。聚类分析算法大体上分为:划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题,最优解问题、算法对输入参数的依赖性问题。DBSCAN是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高,而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在对DBSCAN算法不足的分析基础上,对DBSCAN算法进行了改进。从DBSCAN算法可以看出,全局变量Eps值影响了聚类质量,尤其是数据分布不均匀时。因此考虑对数据进行一个划分,每一个划分中的数据分布相对较均匀,根据每个划分中数据的分布密集程度来选取Eps值。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目k是输入参数,该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结果。对K-means聚类算法中聚类结果对初始聚类中心的依赖进行了分析和尝试改进,对聚类中心的选取进行了改进。最后在这些工作基础之上,根据康定师专数学系2006级48名学生在2005—2006学年度7门学科的考试分数,采用聚类算法,对学生进行分类。
其他文献
随着陕西省外向型经济的不断发展,投资软环境建设的重要性和必要性日益显现。陕西地处中国内陆,与沿海发达省份相比在软环境建设方面还存在不少差距。鉴于此,陕西投资软环境
当前,在经济全球化的影响下,高等教育国际化进程日益加速。全世界各国的大学纷纷制定国际化战略。他们通过开展国际开发、增设国际教育课程、吸引更多留学生,开办海外合作教
测试技术是衡量生产率、制造能力以及实用性水平的标志。传统的电台测试系统是采用以无线电综合测试仪为中心搭建或采用分立仪器搭建的手动测试环境,这种方法成本高、自动化
综述了目前焦化行业的概况,针对独立焦化企业产品单一、经营状况不断恶化的局面,提出了独立焦化企业产品结构调整的几种思路。以某3家独立焦化企业为例,根据企业实际情况,确
为了比较清晰地揭示当代大学生的政治心理,提高大学生政治心理教育的针对性、实效性,本课题采用调查研究方法、文献研究方法,以本人参与的一课题组的问卷调查数据,并辅之以访
结合国内外竹子标准现状,分析了中国竹子标准国际化的优势,探讨了拟优先制定的竹子国际标准及措施。中国是世界上最主要的产竹国,竹类种质资源、竹林面积、竹材蓄积量及产量
随着社会信息化的迅猛发展,电子商务和电子政务已经成为其主要发展趋势,为适应发展趋势,电子军务也成为了军队信息化建设的重要目标。将具有专业特定功能的电子军务应用系统
随着新课改的实施,中职语文教育对语文整体教育质量具有十分重要的影响,受到学生和教师的广泛关注。根据多年的教学实践,对现阶段中职语文教学中存在的问题进行分析,并提出了
在青海省的西北部 ,有一部分长相与当地群众明显不同 ,宗教信仰和回族相近 ,服饰、语言等方面与蒙古族相同的人 ,人们称他们为“托茂人” ,他们自称是“托茂族”。本文根据此
在当今社会发展日新月异的新形势下,教育的目标和要求也发生了变化。根据国家相关的法律法规及方针政策,初中思想品德教育在实现“培养教学对象具有现代人应有的品质”这一目