基于邻域粗糙集的离群点检测研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:wayaya001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘领域的一个重要研究方向,其目的是找出数据集中行为显著不同于其他数据对象的数据对象。离群点检测在入侵检测、信用卡欺诈、医学诊断等领域都具有重要的研究和应用价值。近年来,离群点检测方面的研究受到广泛关注。很多学者提出了一系列的离群点检测方法,然而很多现有的方法没有考虑到数据的不确定性与不完备性。因此,粗糙集的理论被广泛用于离群点检测。但是,经典的粗糙集方法在处理数值型和混合型数据集时需要对其中的数值型数据进行离散化处理,而离散化过程面临信息丢失的问题,容易导致离群点检测的性能下降。目前,如何解决这些问题成为该领域的研究热点。本文首先介绍了主要的离群点检测算法并讨论了邻域粗糙集的基本概念。其次,为了解决现有的基于粗糙集的离群点检测方法不能有效处理数值型数据集和混合型数据集的问题,提出了一个邻域粒度熵模型,并提出了一种基于邻域粒度熵的离群点检测算法,该算法能够同时从数值型数据集和混合型数据集中有效地检测出离群点。第三,提出了邻域粒度区分指数,并将邻域粒度区分指数与基于距离的离群点检测方法结合在一起。能够同时解决基于粗糙集的离群点检测方法不能有效处理数值型和混合型数据集的问题,以及基于距离的离群点检测方法不能有效处理符号型和混合型数据集的问题。本文的主要工作可以归纳如下:(1)邻域粒度熵模型本文提出了一种新的信息熵模型——邻域粒度熵,邻域粒度熵提供了一种更加全面的不确定性度量机制,它将邻域信息熵和邻域知识粒度这两个概念融合在一起,其中前者可以刻画邻域知识的完备性,而后者则可以刻画邻域知识的粒度大小。(2)基于邻域粒度熵的离群点检测算法针对传统的基于粗糙集的离群点检测算法不能有效处理数值型和混合型数据集的问题,本文采用了基于邻域粗糙集的离群点检测方法,并将邻域粒度熵引入到基于邻域粗糙集的离群点检测算法中,提出了一种基于邻域粒度熵的离群点检测算法(OD_NGE)。通过邻域粒度熵计算每个数据对象的离群因子,能够从数值型和混合型数据集中有效地检测出离群点。并在公开数据集上与其他多种算法进行比较,证明了该算法的有效性。(3)邻域粒度区分指数本文提出了一种新的基于邻域关系的信息判别度量,称为邻域粒度区分指数。邻域粒度区分指数具有与香农熵相似的性质,然而,它直接定义在邻域关系上,通过计算邻域关系的势而不是邻域相似类来获得,更加高效快捷。同时,因为结合了邻域粒度的概念,能够有效地度量特征子集的区分能力。(4)基于邻域粒度区分指数与距离的离群点检测算法针对传统的基于距离的离群点检测算法不能有效处理符号型和混合型数据集,而基于经典粗糙集的离群点检测算法不能有效处理数值型数据和混合型数据的问题,将邻域粒度区分指数引入到基于距离的离群点检测算法中,提出了一种基于邻域粒度区分指数与距离的离群点检测算法(OD_NGDID)。能够从数值型、符号型和混合型数据集中有效地检测出离群点。并在公开数据集上与其他多种算法进行比较,证明了该算法的有效性。
其他文献
根据国家统计局数据显示,2006年后,我国年新出生人口数量开始出现下降趋势,新生儿出生率持续走低,到2019年人口出生率下降至1.04‰,出生人口数量下滑严重,母婴行业的使用人群也呈现缩小的态势。与此同时,我国经济水平持续提升,GDP和人均收入、消费水平逐年攀升,因此,居民的日常物质需求已经产生了巨大的变化,从过去的追求“有”逐步升级成追求“好”,母婴行业迎来了新的发展机遇,用户追求高品质的好产品
学位
学位
随着信息化时代的到来,纸质档案已经被时代淘汰。这些纸质档案不仅浪费了空间资源人力物力财力,并且查找起来也非常的麻烦。所以很多的企业都有将档案电子化的需求,但是通过人力进行电子化过程效率极其低下,而且录入过程需要非常仔细,否则就会出现录入错误信息的情况,这时就需要引入人工智能机器视觉来代替人工完成电子化过程。所以本文将自然资源档案文字识别作为研究主题,对其电子化过程需要用到的一系列算法进行研究,并且
学位
随着智能技术的发展,机器人的应用场景因其具有精准、自动、可塑性强的优势而逐渐变得广泛。在化工领域,化学分析实验是该领域进行研究、学习和生产过程中一个必不可少的环节。但目前来看,化学实验方面的智能化水平不高,为了加快科技创新,打造智能实验室,我国已经出台了一系列扶持政策。所以,充分发挥机器人的优势,用其代替实验员去完成一些流程繁琐、危险性高的实验将成为化学实验室智能化发展的主要方向。而在这个过程中,
学位
实现“碳达峰、碳中和”的重要举措是构建以可再生能源为主体的新型电力系统。近几年,太阳能、风电能、潮汐能、生物质能等可再生能源发电被大力部署,特别是小型和大型光伏电站发展迅速。然而,由于光伏发电的不确定性和间歇性,为电力系统的平稳运营提出了巨大挑战,精准的光伏发电功率预测可以更好的分配电力储备,为风险决策、微电网的能源管理提供参考。因此,本文以深度学习为基础进行短期光伏发电功率预测,以期更好的为电力
学位
S公司是一家成立于1997年生产锂离子电池的上市企业,主要服务于各大手机终端品牌,随着手机市场需求趋近饱和,各大品牌竞争越来越大,争相在续航里程、整体性价比、低价、摄像精度等方面做出差异化的竞争力来吸引顾客;终端手机客户对一级、二级甚至三级供应商的管控越来越强,而S公司作为手机O DM/DEM厂商,在日趋壮大的基础上,面临的压力也越来越大,急需形成一个独立且有效的采购策略,来支撑S公司后续的发展。
学位
伴随着我国互联网产业和国际贸易的高速发展,其核心环节——物流行业,已经成为了国民经济的重要组成部分,目前国内各家物流企业之间的市场竞争日益白热化,物流企业为了维持业务的高效增长,不断延长工作时间、加大工作强度,导致工作压力越来越高。根据相关理论,适当的工作压力可以激发员工活力,使员工保持良好的工作积极性和绩效产出,但过度的工作压力会严重影响员工工作状态,对企业经营造成危害。研究如何采取有效的措施来
学位
学位
近些年来,人们的生活变得越来越好,大家对生命安全和财产安全的关注度也在大幅提高,也因此对安防产品的质量要求在不断提高;另外,伴随着科学技术的进步,公司竞争对手的实力也在不断提高,人们在安防产品上的选择越来越多。由于安防产品的特殊性,任何一次质量事故都有可能导致公司失去市场。因此,提高产品质量是公司获取竞争优势的最好途径。本文在文献研究的基础上,了解国内外质量管理研究的成果和局限性。并以此为基础,运
学位
知识经济时代下国民经济各行业的发展竞争日渐激烈,互联网科技型公司的发展一定需要丰富的人才资源的强力支撑。科学的人才管理作为高科技企业发展的必然选择业已是企业竞争能力提升的关键因素。也就是说,企业的长足发展必须建立在高素质人才充分的保留基础上并且具备发挥人才价值的合理人才配置的基础上。企业只有不断提升人才获取能力、保留能力,进而才能在竞争中实现生存和发展的目标。WK公司作为软件和信息服务提供商,致力
学位