【摘 要】
:
近年来,科学技术发展越来越快,信息知识的传播也更加广泛,数据挖掘这门技术在各方面得到了推广。数据挖掘为了在大规模的、不确定的数据集中,找出人们事先不知道的,但蕴含意义的知识。离群点检测作为数据挖掘的一个重要组成部分,主要用来找出显著偏离或不满足一般对象行为特征的对象。目前,离群点检测在生活中各领域已经得到了广泛地应用。传统的离群点检测算法在一定程度上只能检测出适用自身算法的异常数据对象,因此均存在
论文部分内容阅读
近年来,科学技术发展越来越快,信息知识的传播也更加广泛,数据挖掘这门技术在各方面得到了推广。数据挖掘为了在大规模的、不确定的数据集中,找出人们事先不知道的,但蕴含意义的知识。离群点检测作为数据挖掘的一个重要组成部分,主要用来找出显著偏离或不满足一般对象行为特征的对象。目前,离群点检测在生活中各领域已经得到了广泛地应用。传统的离群点检测算法在一定程度上只能检测出适用自身算法的异常数据对象,因此均存在一些缺陷,如检测效率低、检测精度差等。本文针对传统的基于密度算法的执行效率较低,并只在一定规模的数据集中有效,遇到大规模数据集时,通常查准率较低,重复计算的步骤过多等问题,从而提出了基于方形邻域和裁剪因子的离群点检测方法。首先,采用方形邻域,吸取网格算法的思想,以扩张的方形邻域代替网格分割,快速地排除聚类点,避免了网格算法的“维灾”问题。其次,为了提高算法的精确度,引入裁剪因子的概念对候选离群点集进行精选。然后,给出了新的局部稀疏指数来评估对象的离群程度。为了验证改进算法的性能,实验选取真实数据集和合成数据集进行仿真,并与传统的离群点检测算法进行比较分析。实验结果表明,改进的算法能有效的识别离群点,并在执行效率上有明显的优势。最后,将改进算法应用到网络入侵检测系统中。分析了KDDCUP99数据的属性、攻击类型和分布,并将入侵数据进行预处理,通过实验说明了算法在入侵检测方面具有良好的应用前景。
其他文献
随着社会经济的不断发展和医疗水平的不断进步,人们的健康也得到越来越多的保证,寿命越来越长,然而,伴随而来的却是社会的人口老龄化问题。由于我国的养老事业还处于起步阶段
数学思想方法是数学知识的精髓,是知识转化为能力的桥梁。在数学教学中,除了加强基础知识和基本技能教学外,还应重视数学思想的挖掘,适时渗透在教学的各个环节中,使学生在潜
在城市化日益发达的今天,城市交通理论引起了越来越多研究人员的重视。国际城市交通理论在诸多研究者的不懈努力下取得了长足的发展,然而突破性的成果仍然是凤毛麟角;从国内
<正> 出西安南门前行,在长安路之西侧不远,耸立着一座挺拔秀丽的砖塔,这就是唐代保留至今的荐福寺佛塔——小雁塔。唐代初期,佛教兴盛,皇室贵族常常以兴建佛寺,剃度僧民,为其
目的:探讨吗替麦考酚酯(MMF)对老年系统性红斑狼疮(SLE)的外周血T细胞、B细胞、自然杀伤(NK)细胞水平变化的影响。方法:选取30例老年SLE患者作为实验组,同时随机抽取30例健康老年作为
目的分析甘孜州地区急性脑血管病患者发病病因,以指导临床治疗与预防.方法回顾性分析85例急性脑血管病患者的症状体征及确诊的方法.结果病因和饮食习惯、病史、环境因素等有
目的 研究肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)的流行特征、临床特点及危险因素,为HFRS的预防控制和临床诊断提供依据。方法 收集湖北省近5年HFRS临
目的探讨推拿刮痧治疗慢性失眠症的效果及对匹兹堡睡眠量表(PSQI问卷)睡眠指数的影响。方法选择失眠症患者78例,在患者知情同意的情况下,采用推拿刮痧手法进行治疗,治疗前后
互联网金融的发展与创新,推动了传统金融机构向新型网络借贷的转型,网络借贷形式呈现多样化,各类金融平台逐步占领高校校园市场。由于大学生网络借贷平台过快发展,导致侵权法
<正>Gitelman综合征是一种少见病。本文报道2例Gitelman综合征的诊疗体会。资料与方法1.一般资料两例均为女性患者,其中1例40岁,自9岁起反复肢体抽搐;另1例37岁,近半年反复下