基于密度差异的离群点检测研究

来源 :北京交通大学 | 被引量 : 16次 | 上传用户:yellowuncle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术高速发展,数据采集和存储技术不断进步,无论企业、科研机构、政府机关等都积累了大量且结构复杂的数据。在获得海量数据的同时,如何从中快速、有效地提取有价值的知识是近年的研究热点,而数据挖掘就是提取潜在有价值知识的有效技术。随着挖掘异常数据必要性的增加,离群数据挖掘任务越来越受到广泛关注。如网络入侵检测、病例研究、商业分析等,罕见事件往往比普遍的事件更具有价值,这表明某些离群数据本身并非错误,这些数据常常蕴含着非常有意义的知识。因此,检测离群数据成为许多领域的研究热点。现有的离群点检测算法大致可以分为以下几类:基于分布的、基于距离的、基于深度的、基于密度的以及基于聚类的离群点检测算法。基于密度的局部离群点检测算法,并非将离群点看作一种“非此即彼”的二元性质,而是评估一个对象是离群点的程度。基于密度的离群点检测算法具有更广泛的应用前景。本论文主要研究基于密度的局部离群点和集体离群点检测算法。通过分析研究已有的基于密度差异的局部离群点检测方法,提出了基于属性密度差异的局部离群点检测算法;分析集体离群点,将聚类思想引入基于属性密度差异的集体离群点检测算法,并改进离群因子计算方法。具体内容如下:针对局部离群点检测,基于属性密度差异的离群点检测算法考虑不同属性对离群性作用的差异性,利用信息熵确定离群属性,为数据点计算加权距离,并给离群属性赋予较大的权重。在处理高维数据时,确定次要属性后采用属性约简方法,在保证检测精度的同时降低计算复杂度。理论分析和实验表明,该改进算法能更准确估计数据密度,参数少,能很好地适用于高维数据,整体性能优于同类算法。针对集体离群点检测,引入聚类思想明确数据集的结构特点,在应用基于属性密度差异的离群点检测算法估计初始聚类中心后,应用FCM形成聚类簇,然后通过一定规则区分大簇和小簇,最后利用改进的因子计算方法计算基于密度的离群因子DBLOF。算法认为小簇更有可能是集体离群点,聚类的主要目的是得出离群簇偏离聚类簇的知识。实验证明,在检测集体离群点时,该算法性能比较稳定。
其他文献
在计算机动画技术中,本文在基于元球的三维物体变形和使用模糊C均值聚类算法处理误差数据的两个方面做了改进工作。   元球(metaball)造型是一种隐式曲面造型技术。通过改
遥感影像分类是遥感研究领域的一个重要内容。对于怎样解决多类别图像的分类,并且满足一定的精度要求,是遥感应用研究中的一个关键问题,特别是在地质调查、矿产勘查方面具有十分重要的现实意义。神经网络技术是遥感影像分类处理的一个重要手段。BP神经网络具有较强的学习能力,在分类识别方面具有广泛的运用。但是,BP神经网络学习收敛速度缓慢、训练过程易陷入局部极小值,所以论文采用自适应的学习速率和附加动量法改进BP
数据挖掘是指从大型数据库中发现潜在的、新颖的、有价值的、可用的及能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要研究领域,主要是发现数据库中属性之
科研项目管理是一项系统工程,随着信息社会的发展,信息技术在管理上越来越深入而广泛的应用,信息化建设已成为经济和科技发展的一项重要的战略任务,而管理信息系统的实施在技术上
随着高清数字电视、智能手机等信息家电的迅速普及,信息家电设备的网络互联被迫切需求。针对家庭网络的不同需求,各种组织纷纷提出了针对不同服务的协议,其中UPnP协议因其协
随着计算机网络技术的飞速发展以及数字信息资源在各个领域的迅速普及,建立标准统一、符合国际规范的网络安全基础资源平台已经成为网络安全信息共享的重要工具。当前各国政
随着计算机的飞速发展,教学系统软件得到了广泛的应用与发展,实现了现代化的教学方式。同时,由于高校实行扩招,学生的人数增加很快,这就需要配备相应的教师队伍。为了保障教
计算机网络安全是一门以理论为基础,以实际操作为主要内容的大、中专学校普遍需要开设的课程。由于资金和设备的原因,各个院校对于计算机网络安全这门课程的实验还不能给予应有
由于视频编解码技术会造成一定程度的图像失真,因此,如何评价视频码流的图像质量是数字视频编码技术首要面对的问题。所有视频质量评价方法中,计算重构视频和原始视频的峰值
互联网的普及使用以及电子商务的发展让用户可以享受电子商务系统提供的越来越多的服务,随即而来的是信息的急剧膨胀,“信息过载”、“资源迷向”等问题相继出现,大量的信息经常