基于自然邻的无参异常点检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xuxiaoxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在一些应用场景下异常的偏离大多数数据的数据(异常点)被认为是有价值的信息,这些数据可以提供重要的价值,比如异常点检测技术已经广泛地应用在金融欺诈、医学辅助筛查、网络入侵检测等领域。传统的异常点检测算法存在两个比较大的问题:第一就是需要输入过多参数的问题,第二就是top-n问题,即给定数据集必须事先确定异常点个数,但是在实际数据集的异常点检测时并不能事先知道异常点的个数。针对上述现存的两个问题,本文主要研究数据的无参异常点检测算法,研究了两种异常点异常度—即引质方比和标准差值边界度以及两种无参的数据异常点检测算法。第一种无参异常点检测算法是基于引质方比(异常度因子)提取核心点,该算法首先使用自然邻算法自动确定数据集的k值,提取所有引质方比小于数据引质方比均值的数据点作为核心点,然后基于自然邻和深度优先搜索对所提取出的核心点进行聚类,把所有数据点数目小于k的聚类中的数据点设置为非核心点,最后利用逆近邻分配非核心点,确定一个数据点是不是异常点的标准就是它的逆近邻是否是核心点,经过不断的迭代,最终剩下的非核心点就是异常点,而获得的所有异常点的引质方比作为该异常点的异常度因子。第二种无参异常点检测算法是基于标准差值边界度(异常度因子)提取核心点,该算法处理模式和以上算法类似,区别在于提取核心点的方法:把所有标准差值边界度小于所有数据标准差值边界度均值的数据点作为核心点,同时异常点的异常度因子由最后得到的异常点的标准差值边界度确定。论文中采用自然邻算法解决了现有的异常点检测算法输入参数过多的问题,用引质方比和标准差值边界度提取核心点以及逆近邻较好地解决了现有异常点检测算法的top-n问题。通过在人工数据集、真实数据集上的实验与另外七种不同异常点检测算法比较,结果表明本文提出的两种无参异常点检测算法在检测准确度F-measure和AUC指标上都优于所比较的异常点检测算法,从而说明本论文改进得到的基于自然邻的无参异常点检测算法是行之有效的。
其他文献
随着各国在高铁技术投入的不断增加,高速列车的行驶速度有了大幅度的提高,我国经过几次全国大提速后,列车运行速度已经达到了世界先进水平。目前应用较多的空电复合制动方式在快速性和准确性方面存在一些不足,因此研究新的制动方法对于保证列车行车安全具有重要意义。综合考虑众多制动方式,液压制动技术在汽车方面已经很成熟,但是应用到列车上的制动研究还比较少见,本文将液压制动技术应用到高速列车上进行研究,主要完成的研
工业机器人作为智能制造领域的关键装备而广泛用于搬运任务。当前在新能源汽车电池生产中,机器人搬运电池大多采用离线编程或者在线逐点示教的方式。随着汽车迭代升级速度加快以及个性定制需求加大,人工示教搬运电池的方式存在调试周期长、适用性差、成本高等缺点。该方式已经难以满足新能源汽车生产线对柔性、智能的需求。针对人工示教适应性差的问题,本文以智能柔性生产线上电池的自主搬运为研究对象,从电池的位姿估计、机器人
随着当今社会信息化的迅猛发展,对集成电路和微/纳器件的性能提出了更高的要求。电子器件在服役过程中承受机械和循环疲劳载荷,其力学性能的优劣制约着金属互连线长期服役可靠性。而石墨烯因其具有优异的电学、热学和理化性能,近年来已成为材料科学领域的研究热点。高质量石墨烯薄膜对微/纳器件金属互连线力学性能是否有影响,以及作用机理尚有待探究。本研究以退火态多晶纯铜箔作为研究对象,采用化学气相沉积法,在铜箔表面生
在西部大开发“西气东输”过程中,气田天然气处理站的井口原料气内常含有少量的水和重烃等,在进入对外长输管道之前,为了防止C5以上重烃凝固造成冰堵,形成水合物,减少游离水和C5+重烃对管道的腐蚀,减小输送阻力等,工艺上需要采用脱水脱烃的处理方式,称为“浅脱”(Shallow Cut),即采用温降法通过丙烷制冷的热交换器冷却原料气,使原料气中水露点和烃露点降至-5℃以下,符合分离要求,再通过低温气液分离
激光焊接是一种利用高能量密度的激光束作为热源进行高效精密焊接的工艺技术,具有热输入小、效率高以及容易实现自动化等显著优势,在航空工业和机械制造等领域有着广阔的发展和应用前景。随着制造业的不断发展,要求现代焊接技术逐步实现以节能、高效、优质的发展目标,使得降低焊接能耗、提高焊接工艺能效成为焊接领域待解决的重要问题之一。目前,针对激光焊接的研究主要集中在焊缝形貌、焊缝缺陷和力学性能等方面,对激光焊接能
液流电池作为一种先进的大规模储能技术,可弥补间歇性能源发电的不足,最大化利用可再生能源发电;可应用于电力系统的各个环节,提高电力系统的可靠性和稳定性。传统的水系液流电池(全钒液流电池、铁铬液流电池等)受开路电压和活性物质浓度的限制,能量密度较低(<50 Wh/L),限制进一步商业化应用。因此,开发新型的高能量密度的液流电池体系至关重要。本课题以正极活性物质铁氰化钾(K3[Fe(CN)]6)和高锰酸
为实现高速列车轻量化,铝合金材料被广泛应用于高速列车的多种部件,7N01铝合金是理想的中强可焊结构材料,多用于端面梁、车端缓冲器、侧面构件骨架和车架枕梁等部位。目前,7N01铝合金多使用ER5356焊丝进行MIG焊接,填充金属ER5356本身属于Al-Mg系不可热处理强化的合金,然而大量的拉伸试验结果显示,焊接接头随着停放时间的延长,拉伸试样均断裂在焊缝区,而强度却明显提高,表明焊缝区发生了自然时
“十三五”以来,我国南方高山风电资源快速开发。与北方地区相比,这些地区冬季空气潮湿,风电场覆冰问题突出,严重影响风电机组安全稳定运行。目前,关于风力发电机叶片覆冰监测问题,国内外研究大多以模型计算和传感器监测为主,存在着精度有限,成本昂贵,难以对已经投产的风力发电机进行监测等问题。从图像处理和试验相结合角度开展风力发电机叶片覆冰监测的研究,具有重要的理论意义和工程价值。论文的具体工作与成果如下:(
从IT向DT时代转变的今天,数据的爆炸式增长,大量冗杂的信息常常给人们的生活工作带来选择困扰,而在这些繁杂数据治理的问题上很多公司和企业也面临严峻考验。因此,为了解决当今大量数据过载及用户选择困扰等问题,该领域研究者提出针对用户特征为其推荐符合用户喜好的产品或服务,但是目前的很多推荐系统仍存在冷启动、数据稀疏、潜在特征不明确、用户与产品交互方式单一等问题,造成推荐准确度参差不齐。为改善上述不足,论
智能环境中由于需求不同导致的变化因素,单纯通过算法来适应这些变化会造成系统适应能力较差,导致在当前环境下智能系统难以得到广泛的应用和推广。软件定义智能将支撑智能实现的通用要素分离出来,成为预装在节点设备上的“智能层”,再把变化因素归纳为规则,智能层通过更新规则的方式解决各种变化所导致适应性差的问题。本文将软件定义智能应用于智能环境中的睡眠动作识别系统,主要包含以下工作:(1)基于软件定义智能层次化