聚类分析和离群点识别技术研究及其应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shanlai_lu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操作,对于动态数据集一般采取对整个数据集重新进行离群点分析的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,增量式离群点分析技术正越来越引人关注。本文首先总结、探讨关于数据挖掘、离群点分析、聚类算法以及计算机审计等方面取得的已有主要研究成果,并详细阐释了基于密度的聚类算法DBSCAN和基于密度的离群点识别算法LOF的主要思想、算法流程,并在此基础上,提出了基于局部密度的增量式离群点识别算法IncrementalLOF,并结合社会保障联网审计系统(N-SAS),通过实验验证了LOF与IncrementalLOF在离群点分析结果上的一致性,和IncrementalLOF在大数据量环境下更加卓越的性能,以及IncrementalLOF能对所提供的数据进行挖掘,得出一些反常的、隐藏在大数据后的有违规缴费等可能的信息,为社保审计提供可靠依据,提高审计工作效率,规范社会保险业务,减少社会保险金欺诈等。
其他文献
本文从分析火力发电厂动力用煤现状入手,在详细研究动力配煤技术与决策支持系统理论的基础上,提出把决策支持系统引入到动力配煤领域。以动力配煤技术和决策支持系统技术为支撑
随着身份识别重要性的不断提高,指纹识别的应用领域日益广泛:电脑识别、信用卡识别、个人通讯设备识别、考勤、考试、政府的福利发放等方面都需要用到指纹识别。指纹识别是一
语义检索作为一种新的信息检索技术,它可以在知识理解和知识推理的基础上实现对信息资源的准确、全面的检索。对语义检索的研究不仅仅在信息管理领域,还包括人工智能、互联网等
反求工程中,由三维测距仪获取的点云常常存在空洞,给后期的几何建模工作带来很大的困难。本文在已有的边界提取与曲面重建方法的基础上,提出了一种基于点模型的点云空洞检测与修
近年来,Web服务以其协议标准化、低耦合以及平台无关性的优点,在应用集成方面得到了迅猛的发展。随之而来的问题是,如何在海量的Web服务中找到合适的服务,即服务发现,已经成为Web
企业信息门户作为一种信息和应用整合模式,能够有效地整合企业的信息资源和应用系统。它为企业的员工、客户、合作伙伴等提供了一个基于Web的统一平台,在这个平台上,企业门户
语音识别主要指让机器听懂人的语言,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别中,端点检测占有非常重要的地位。在低信噪比环境下,
随着信息时代的到来,网络上的数据呈指数级的增加,由于数据的自治性、异构性和分布性特点,造成“信息孤岛”,数据的复用和共享大大地下降。关联数据的出现解决了这一难题。旅
流媒体以其特有的娱乐性和交互性正在成为推动未来带宽应用的主动力。如何在Internet网络上提供大规模的流媒体内容分发一直是近十年多里流媒体研究领域的核心问题。IP组播让
本文以研究和实现一个易于扩展和维护的具有快速部署能力的银行综合业务系统开发平台为主要目的,总结了平台中的核心技术-MVC模式重用和数据驱动技术,重点介绍了基于设计模式