【摘 要】
:
互联网技术的发展促使人们在机器学习和数据挖掘领域中不断提高对数据的要求,同时对数据中的异常点检测的研究也更加深入。目前,异常检测方法主要根据不同的检测模型来分,通
论文部分内容阅读
互联网技术的发展促使人们在机器学习和数据挖掘领域中不断提高对数据的要求,同时对数据中的异常点检测的研究也更加深入。目前,异常检测方法主要根据不同的检测模型来分,通常可以分为基于统计、距离、密度、子空间和集成学习的这几种异常点检测方法。本文综合上述几种异常检测方法的优缺点,提出两种基于隔离思想的异常检测方法。针对孤立森林面对高维、海量、属性之间相关性低的大数据集中全局异常检测精度低的问题,本文提出一种基于精确欧式局部敏感哈希和隔离原理的异常检测方法。首先,该方法利用精确欧式局部敏感哈希对原始数据集进行随机哈希函数簇的操作,以达到映射降维的目的。随后利用数据之间距离关系,进行主次哈希函数计算,即对映射数据集进行哈希桶计算,使得原始数据空间中分布较为集中的数据点经过分桶后出现在同一个桶内的概率较大,得到分桶后对应的降维子数据集。然后,再使用孤立森林对降维子数据集进行异常数据检测。最后,孤立森林构建孤立树时,对于如何选择最优分割属性和分割值的问题,本文提出了一种均值优化策略。实验结果证明,与孤立森林因随机性生成的孤立树相比,本文所提方法只需要使用较少的孤立树来构成森林,能有效地提高在高维海量低相关数据集中孤立森林算法的全局异常检测精度。针对孤立森林面对高维、海量大数据集中局部异常检测精度低的问题,本文提出一种基于核函数局部敏感哈希和隔离原理的异常检测方法。首先,该方法利用高斯核函数局部敏感哈希构建核哈希函数实例来核化数据集,将数据从原始数据空间映射至高维特征空间中,使局部异常问题转化为全局异常问题。然后,由均值优化的孤立森林对核化后的数据进行异常检测。实验结果表明,在保持孤立森林检测全局异常能力的基础上,所提方法还提高了孤立森林检测局部异常的精度。
其他文献
怪胎形象是德语文学中一个有趣的话题和现象。这类人因为社会、家庭或者自身性格的原因,以另类的举止、行为和思想与社会环境格格不入。本文选取德语文学中的怪胎形象这一话
目的:探讨热休克蛋白70(heat shock protein 70 HSP70)检测在急性心肌梗死(AMI)诊断及治疗中的意义。方法:本研究选择内蒙古医科大学附属医院心血管内科2017年12月至2018年12月住院的急性心肌梗死患者共160例(男112、女48例)为实验组、同期正常体检者共40例(男28、女12例)作为对照;又将实验组分为急性期和恢复期。采用酶联免疫分析法(双抗体夹心法)检测血清
自美国北岭地震和日本阪神地震爆发以来,钢框架结构中节点的转动变形能力逐步得到重视,而半刚性节点因其能兼顾承载能力和变形能力也逐步受到设计人员的青睐。在半刚性节点的众多研究方法中,组件法因其物理含义明确、适用性强、计算效率高等优点而被欧洲钢结构规范Eurocode 3所采用并推广。其中,受拉区的等效T形件为整个节点贡献了最为显著的转动变形能力,是半刚性梁-柱节点的核心组件,因而具有显著的研究意义。然
针对带有优先经验回放机制的深度强化学习中存在的学习效果容易受到时序误差离群值的不利影响、学习过程忽略立即回报和时间差分误差小的经验、算法难以收敛等问题提出了优先
当前交通事故频发,智能驾驶技术成为解决这一问题的有效手段之一,车道线检测是智能驾驶技术的基础而重要的组成部分,对车辆的路径规划及行为决策中发挥了重要的作用。通过对
近年来,随着世界各国经济快速发展、社会生产力的不断提升、社会物质生活不断丰富,经济与生态环境的不协调发展也日益突显出来。空气污染的问题日益突出,雾霾天气在全球多个
目的1.研究Er:YAG激光对含管间峡区根管的杀菌作用,并挑选出杀菌效果最好的Er:YAG激光功率;2.研究Er:YAG激光配合NaClO冲洗对含有管间峡区根管的清理作用。方法1.经锥形束CT
近年来,随着大型癌症登记数据的易获得性和研究的重要性,癌症生存模型中地理和风险效应的灵活组合正变得越来越受欢迎.大多数空间生存模型会从不同亚群中随机获得生存曲线.然而,在流行病学的研究中,两个亚群的生存曲线通常会相交,因此在不做修改的情况下标准的生存模型是不能使用的.通常的解决办法是在成比例风险模型或完全非参数模型中加入时变回归效应,然而上述两种模型中任何一种都会破坏拟合模型的易解释性.为了解决这
近些年来,相变材料的理论研究以及实际应用大多数集中在有机相变材料方面,对无机相变材料的研究少有涉猎。无机相变材料不仅具有导热率高,熔化范围短等优点,而且价格低廉。为同时满足北方猪舍猪只腹感温度的需求,以及国家所提倡的节能环保的方针。因此将无机相变材料应用到北方猪舍猪床结构设计中具有重大的意义。本文通过对国内外无机相变材料相关文献阅读的基础上,结合现在对无机相变材料实际应用的研究现状,依据猪的生物学
事件抽取旨在挖掘文本描述的具体事件信息,是信息抽取领域的一个重要研究任务。自动内容抽取(Automatic Content Extraction,简称:ACE)对事件抽取进行详细定义,分为触发词检