基于Weka平台的改进模型C均值聚类算法研究与应用

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:or4108432566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据资源中获取有用信息和知识资源的方法。聚类算法是数据挖掘算法中被广泛使用和研究的算法之一,其中模糊C均值聚类算法利用模糊理论根据隶属度来划分实例属于哪个类别,对待聚类数据的分析更加客观。本文分析研究了模糊C均值聚类算法,该算法简单且聚类性能较好,但是对初始值较敏感,容易使算法陷入局部极小值,而得不到全局最优,不但迭代次数会增加,而且最终容易导致聚类失败。针对模糊C均值聚类算法存在的这种问题,提出了一种基于实例密度的模糊C均值聚类算法,使类中心更加接近实际聚类中心,减少了迭代次数,提高了聚类效果。通过在模拟数据集和UCI数据集上进行实验,验证了改进后算法的有效性。系统功能丰富、操作简便、基于Java语言的开源数据挖掘工具Weka倍受数据挖掘研究者的关注。但是Weka在聚类方面集成算法较少,因此,针对Weka系统的开发环境结构、接口规范、添加新算法的具体方法及实现步骤进行研究,对其进行二次开发,实现了层次聚类算法SmipleChameleon算法、模糊C均值聚类算法以及改进后的模糊C均值聚类算法。为了进一步验证改进后算法的有效性,本文将改进后算法应用于社会保险审计数据中。通过对社会保险审计数据进行分析研究,根据其数据具有数据量大、缴费类型多以及存在冗余数据的特点,对数据进行数据合并和属性选择等预处理,将传统模糊C均值聚类算法及改进后算法针对每个地区的四个聚类目的进行对比实验。通过分析实验结果,得出改进后算法减少了迭代次数的同时提高了聚类效果,再次验证了改进后算法的有效性。
其他文献
固态变压器(SST)是一种通过电力电子变流器实现电力系统中电压变换和能量传递的新型变压器。它不仅具备传统电力变压器能够实现的电压变换、原副边相互隔离以及电能传输的基
基于两位优秀师范生的案例,分析了优秀数学师范生教学能力发展的特征:重视课程学习,主动参与教学实践活动,积极参加教学技能比赛,参与教学研究,参与班级及社团管理,参加校园活动等,发
双重加工模型认为,药物依赖者的行为是冲动性系统和控制系统共同作用的结果。现有的药物依赖研究几乎均是在单一的维度上割裂地考察这两个系统,根据其结果难以全面理解药物依
实现了计算机控制下的基于USB接口芯片PDIUSBD12和Microchip微控制器PIC16F877芯片的多通道数据采集存储,并以此为基础设计了一种宫腔多生理参数检测系统,能够完成多路宫腔内
本文从断裂的沉积、地貌和变形特征方面研究了昌马断裂的运动方式。结果表明,昌马断裂是一条枢纽断裂,枢纽轴位于断裂中段。提出了昌马断裂的力学模式,认为昌马地震是在北东~南西向水平挤压应力产生的左旋剪切应力和垂直断裂面的正压力联合作用下,昌马断裂枢纽轴部的介质强化,应力集中的结果
用硝酸-硫酸-高锰酸钾在高压锅中溶样,采用氢化物发生原子荧光光谱法测定建筑用粘合剂中汞.相对标准偏差为4.3%,回收率为87.6%-106%.该方法快速、简单、准确.
本文研究了氯磺酚偶氮硫代若丹宁(HSCT)与铂的显色反应,在盐酸介质中,HSCT与铂反应生成2:1稳定络合物,λmax=535nm,ε=6.24×10^4L·mol^-1·cm^-1。铂含量在0-50μg/2
一、西南地区构造活动力源与地壳物质运动基本形式西南地区位于青藏高原东南边缘,巨厚的青藏高原地壳中贮存着约10~(25)焦耳位能量,与全球地震活动一百万年释放的能量相当。在高原地壳内,由附加地形重力负荷与地幔对山根的上托,上下夹挤形成一个强大的水平应力体系(图1.a.b.c.d),在
期刊
本文提出了基体匹配校准曲线,ICP-AES法直接测定高纯氧化钽中13种杂质元素的分析方法,并考察了光谱干扰以及基体效应的影响,确定了仪器最佳工作条件.结果表明:各元素的测定下