基于聚类离群因子和唯一最近邻居集的离群点检测算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:sunday_rectina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测作为数据挖掘技术的重要研究领域之一,是发现数据价值的一种重要手段,可以用来从大量的数据中挖掘出与大多数数据呈现不一致规律的异常点,这些异常点往往蕴藏着更加有价值的信息。正是由于离群点检测有着如此重要的研究意义,使得国内外学者在该领域的研究十分活跃。本文针对基于聚类的离群点检测算法存在的低效率、低耦合性问题进行了深入研究,主要研究内容包括以下两个方面。
  首先,本文对基于密度峰值快速搜索聚类的离群点检测算法进行了研究,为解决该算法存在的参数问题和决策欺诈现象进,提出了基于聚类离群因子的离群点检测算法,该算法引入相互邻居和相互邻居搜索算法用以解决参数问题;提出相互密度的概念用以刻画数据与周围数据点的紧密程度以抑制决策欺诈现象;提出聚类的离群因子用以度量聚类离群程度。该算法根据聚类的离群因子找出离群聚类以检测离群点。
  其次,对基于唯一最近邻居集和密度聚类的离群点检测算法进行了研究,为解决该算法存在的假近邻现象、聚类合并现象进,提出了一种改进的基于唯一最近邻居集的离群点检测算法。该算法使用唯一最近邻居集基数检测孤立离群点,使用聚类离群因子检测离群小聚类,并引入传播范围阈的概念,用以解决聚类合并问题。算法既能检测单个孤立的离群点又能检测离群小聚类。
  最后,在UCI模拟数据集和真实数据下,验证了本文提出的算法,并和基于密度峰值快速搜索聚类的离群点检测算、基于唯一最近邻居集和密度聚类的离群点检测算法进行了对比,验证了本文算法能很好的进行聚类和离群数据的检测。
其他文献
清末民初,湖南是留学运动发展较快的大省。湖南留学运动开始于维新变法运动时期,在短短的20余年间,大量湘籍学子或东渡日本,或留学欧美,使湖南留学运动高潮迭起。在整个留学运动中,湘籍留学生们发扬团结奋进、自强不息的精神,“吃得苦、霸得蛮”,“心忧天下,敢为人先”。他们始终把个人的前途、命运与现实的政治需要、民族的危亡紧密地结合起来,体现了“经世、爱国、务实、奋斗”的湖湘人文精神。清末民初湖南留学运动发
学位
鸦片战争后,清政府依据条约被迫开放了一批通商口岸,称之为“条约口岸”或“约开口岸”(Treaty ports)。19世纪末,因列强侵略的刺激,清政府为避免丧失更多主权,主动开放了一批通商口岸,这些口岸出自上谕钦定,一般称为自开口岸(The ports openedvoluntarily by China)。岳州就是清政府首批的自开口岸之一。岳州开埠缘于英德续借款,是清廷面对列强索开湘潭的要求,以岳
学位
陈夔龙历任漕运总督、河南巡抚、江苏巡抚、湖广总督、直隶总督,是清末最后十年一个重要的督抚。他的经济思想是在近代西方资本主义国家经济侵略逐渐加深、国内传统的经济方式受到严重冲击的条件下产生和发展的。在农业方面,他强调农业具有重要的基础作用,主张农业与工艺、商业相互结合,并且设立具有近代性质的农业学校,培养农业人才。他的一系列农业主张有利于近代农业的发展,有利于提高中国的农业生产力,有利于中国农业由传
学位
东魏北齐政权无论是中央高官还是地方官吏都贪污成风,然而,最高统治者对贪污不但不加以治理,反而姑息纵容,自身带头奢侈腐化,上行下效,贪污腐败愈演愈烈。统治者从自身统治利益出发,也曾对贪污采取了一定的治理措施。但上层统治集团治贪的不彻底性,导致治贪的失败。治贪失败使北齐政权“赋敛日重,帑藏空竭,贿赂公行,赃官遍地”。官吏贪纵,政治腐败,最终为北周所灭。贪政,不仅对东魏北齐政权影响深远,同时也影响至以后
学位
Broiler chicken is one of the most important source of animal protein associated with meat production for human consumption.The gastrointestinal tract(GIT)of chickens accommodate a large number of mic
学位
该文围绕着建立一套自主知识产权的虹膜识别系统,做了如下工作:一.算法方面,针对虹膜识别的关键技术:虹膜定位和编码,研究了一套有自己特色的虹膜识别算法.1.虹膜定位算法,提出了一种利用块操作技术的圆定位方法.2.虹膜编码算法,提出一种具有自己特色的采用复数高斯一维连续小波变换的编码算法,提取其小波变换系数,并对它进行0/1二值编码.二.在上述算法的基础上,研制了一套软件系统,配合实验室自行设计的硬件
该文系统地分析了敏感膜功函数变化及引起功函数变化的机理,臭氧在敏感膜表面的单层及多层吸附模型,并在实验中制作了多种栅结构(片状悬浮栅以及白金网状悬浮栅),采用多敏感膜和混和膜,检测ppb范围内臭氧浓度的复合栅FET型(HSGFET)臭氧传感器.分析和比较了不同栅结构和不同敏感膜的悬浮栅FET型臭氧传感器的实验结果,测量和分析了温度对传感器响应特性的影响.
该文设计出解决结构不确定性的Min-Max内模PID控制器和解决非结构不确定性的PID+Q控制器.其中,Min-Max内模PID控制器设计基于内模控制原理,提出了设计鲁棒内模PID控制器的极小极大法,分析了常见控制系统中各参数的最坏点,并针对系统模型的最坏点设计鲁棒内模控制器,以提高了控制系统在参数摄动范围下的鲁棒性能和鲁棒稳定性.PID+Q控制基于H控制理论,在考虑系统具有相乘性摄动不确定性的条
随着地理定位技术的迅速发展,空间关键字查询引起了空间数据库研究机构和工业界的广泛关注。空间关键字查询利用对象的位置信息和文本信息,查找出与查询中指定的参数最匹配的单个或多个对象。随着人们需求的增加,越来越多的用户开始关注查询对象的有效时间信息。因此,为了满足用户的需要,本文针对已知时间的空间关键字覆盖查询和集合查询进行了深入地研究。  首先,由于现有的空间关键字覆盖查询只考虑了文本相关性与位置相关
随着互联网技术的发展及普及,软件也从传统的单机软件发展到具有网络通信功能的多机软件,同时大型软件系统也发展成由多个可以独立运行又具有交互特征的软件个体组成。互联网模式下,软件之间的交互日益频繁,具有交互特征的软件逐渐形成群体,其个体行为不断地影响着群体的特性。目前,软件系统在各行各业得到普遍运用,成为行业发展的重要组成部分,怎样确保软件系统稳定高效地运转,提高软件系统的维护效率成为重要的研究课题。