基于邻域一致性的异常检测序列集成方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:cyhacmacyh007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等.数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果.由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用.大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足.集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性.文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency Based Sequential Ensemble Method for Outlier Detection,LCSE).首先基于多样性构造异常检测基本模型,其次根据全局集成一致性筛选出异常候选点,最后考虑数据局部邻域相关性选择并组合基本模型结果.通过实验验证,LCSE相比传统方法异常检测的准确率平均提升了20.7%,与集成算法LSCP_AOM和iForest相比,性能(AUC)平均提升了3.6%,因此其性能优于其他集成方法和神经网络方法.
其他文献
依存句法分析旨在识别句子中词与词之间的句法依赖关系.依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能.训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题.文中针对低资源依存句法分析问题,提出了多种数据增强策略.所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题.通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力.在(Universal Dependencies treebanks,UD tre
近年来,人工智能技术被广泛地应用于多个领域.其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用.然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果.相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的.针对这一应用现状,文中首先围绕“数据非均衡”问题开展了文献调研,尝试通过寻找该问题的通用解决办
科研是高等学校的重要职能之一,加强高职院校科研与社会服务能力是全面实现高职教育高质量发展的重要目标之一.选择论文、课题、专利、科研与社会服务经费等考察视角,对全国1386所高职院校现时科研与社会服务发展状况进行定量分析,发现高职院校的整体科研水平还处于比较低的阶段,校际之间、不同类型之间和不同省域之间,其发展水平也很不平衡,但已有一小部分高职院校表现突出.以后需要进一步提高对科研与社会服务重要性的认识,制定和完善科研与社会服务方面的相关制度,加强师资队伍建设,改善科研条件与环境,并根据各自发展特性及差异采
教学质量是高职院校的生命线,课堂教学质量是教学质量的基础.要提高高职院校教育质量,必须提高教师课堂教学质量.长期的督导听课评课实践证明,评价教师一堂课质量的优劣,必须关注教师“教什么”“怎么教”和“教的效果”,即教师是否根据人才培养方案确定符合学生实际接受能力的教学目标和教学内容,是否遵循课堂教学基本程序、明确教学目标、选择恰当的教学方法、突出重点和难点、提高学生学习兴趣,达到教书与育人的统一,以及是否以学生为主体,激发了学生学习积极性,实现了预期的教学目标等过程要素.只有这样才能作出客观公正的评价,才能
聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用.通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来.作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点.然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题.文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans.该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方
现实世界中的信息网络大多为异质信息网络,旨在表示低维空间中节点数据的网络表示方法已普遍用于分析异质信息网络,从而有效融合异质网络中丰富的语义信息和结构信息.但是现有的异质网络表示方法通常采用负采样从网络中随机选择节点,并且对节点和边的异质性学习能力不足.受生成式对抗网络和元路径的启发,文中提出了一种新型的异质网络表示方法.首先对采样方法使用元路径的策略进行改进,根据元路径不同的权重取样,使样本更好地体现节点之间存在的直接和间接关系,增强样本的语义关联.然后在生成对抗的博弈过程中使模型充分考虑节点和边的异质
推荐系统如今已被广泛应用于生活中,大大便利了人们的生活.传统的推荐方法主要是针对用户与物品的交互情况进行分析,分析用户与物品的历史记录,得到的只是用户过去对于物品的喜好程度.序列化推荐系统通过分析用户近一段时间与物品交互的序列,来考虑用户前后行为的关联性,能够获得用户短期内对物品的喜好程度.然而,序列化方法强调的是用户与物品在短期的联系,忽视了物品属性之间存在的关系.针对以上问题,文中提出了融合时间特性和用户偏好的卷积序列化推荐(Convolutional Embedding Recommendation
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言的相互转换,更是两个民族之间的交流,因此受到国内外的广泛关注.文中主要对蒙汉神经机器翻译的发展历程和研究现状进行阐述,随后选取了近年来蒙汉神经机器翻译研究的前沿方法,包括基于无监督学习和半监
针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中.具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求.实验发现,基于ERNIE+CNN+Capsule的组合模型在真实的电子病历数据集上取得了良好的效果.此外,受图像风格迁移的启发,文中训练了从电子病历文本到病情自述文本的风格转换模型,利用非平行数据,在风格转换模型的基础上