基于人工免疫的自适应谱聚类算法研究与应用

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:luke_2013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会保险审计是关乎国计民生的重大事情。有效的审计措施能够及时发现社会保险缴纳是够违规,来维护劳动者的合法权益。目前审计手段主要有人工审计和计算机审计。其中人工审计主要方法为抽样审计,人工审计相对滞后且费时费力,而抽样审计则存在盲目性,漏洞较多。计算机审计方面主要是采用审计系统,虽然在一定程度上提高了审计效率但是审计精确度较低。面对海量社保审计数据,传统人工审计方法和计算机审计方法显得捉襟见肘。数据挖掘能从海量数据中挖掘有用的知识,因此研究学者开始应用数据挖掘的方法来对审计数据进行分析。在数据挖掘中有多种方法,其中聚类分析具有伸缩性强、对领域知识依赖性弱、受噪声影响小等优点。因此本文采用聚类来分析社保审计数据。传统聚类算法虽然实现简单、使用方便,但是较易陷入局部最优解,且在非凸空间聚类效果较差。谱聚类算法根据谱图划分理论,对数据进行谱映射,在任意样本空间有较好的鲁棒性,因此本文采用谱聚类算法来解决传统聚类算法存在的问题。本文深刻分析了谱聚类算法,提出传统谱聚类算法虽然能够解决一些问题,但是仍然需要人工方法输入聚类分组数K值。聚类分组数的确定至关重要,急需对传统谱聚类算法进行优化。针对传统谱聚类算法的优化需求,本文深入研究和分析了人工免疫系统。在此基础之上提出了一种基于人工免疫的自适应谱聚类算法,实现了聚类分组数的自动获取,提高了聚类效果。该算法模拟了抗体的克隆变异,经过初次免疫应答和二次免疫应答,完成了抗体对抗原的免疫识别。实现算法之后在一些常用数据集上进行了实验,并与传统谱聚类、遗传算法的实验结果进行了对比,验证了基于人工免疫的自适应谱聚类算法的可行性和稳定性。本文对社保审计数据特点进行了分析之后,发现还需对算法做出进一步改进,因此本文在基于人工免疫的自适应谱聚类算法的基础上做出改进,根据数据的属性对数据分析的贡献大小不同,对数据属性加权,加入了一定的专家知识,提出了一种基于半监督的自适应谱聚类算法。本文对社保审计数据进行了属性选择、数据填补、数据合并、分类属性转换等预处理之后,用基于半监督的自适应谱聚类算法对预处理好的数据进行了分析,分别得出了各项指标是否违规的结论,并与专家实际标注的结果进行了对比分析,得出了算法准确率。本文还将上述算法的结果与传统谱聚类、遗传算法在社保数据上的实验结果进行了对比,得出该算法具有较高的稳定性。最后把实验结果进行归纳整理出一些规则,并且同当地的政策进行对比,其结果基本吻合,进一步验证了该算法的优点。
其他文献
无线传感器网络技术起源于上世纪九十年代,改变了很多场合下的信息获取、传输和处理的方式,引领着监测环境,获取监测数据的新潮流。   本文在阐述无线传感器网络数据融合
机器人系统将人类从一些繁琐、枯燥的,不适宜人类存在的工作环境的劳动中解放出来,给人类的生活、工作带来了极大的方便。机器人系统的发展在人类未来的生活中,工作中都具有
随着信息化建设的深入和网络技术的发展,各种数据库的开发应用带来了越来越多的数据源,此外数据格式的日益复杂化以及企业数据需求反馈时间的缩短,使传统决策支持模型越来越
随着因特网服务的不断深入,互联网商业服务深入人心,由此得到了飞速发展,而在没有实物参考的情况下,网民在消费时无法对商品进行预测,在做出选择之前更多的依赖于其他买家的
无线传感器网络(WSN)节点的计算、通信和存储能力都十分有限,以及WSN的事件突发性和固有的多到一、多跳的通信模式使其在数据传输过程中经常发生拥塞。拥塞不仅导致数据包的
随着Internet技术和图形图像学的飞速发展,网络多媒体信息呈爆炸式增长,而原始的文本检索技术已不能满足人们日益增加的知识需求,因此近年来基于内容的三维模型检索成为了一
近些年来,随着计算机技术和软件开发技术的发展,软件及其相关产品能够更加方便和广泛的传播;随之而来的软件版权保护问题也越来越引起了人们的关注,软件篡改,盗版,逆向工程等等都给
随着现代计算技术的大力发展以及计算机软件在社会各领域中的广泛应用,软件的规模不断扩大,系统的复杂程度也变的越来越高,在软件运行中表现的新特性为运行的动态性、执行过
随着我国人地矛盾的日益尖锐,不仅需要对现有土地资源做好节约集约的开发利用,更需要对未利用地进行科学、合理的开发与利用。开发利用低丘缓坡地资源是缓解人地冲突、实现土地
长期以来,汽车工业作为国家重点投资和发展的产业取得了一定的成绩,经过建国50年的发展,我国汽车业已经具备了较好的产业基础,汽车总产量己跃居世界第1位,汽车工业对国民经济发展