基于粒计算的离群点挖掘方法研究

来源 :哈尔滨工程大学 | 被引量 : 3次 | 上传用户：playallprogram

【摘要】

：

离群点挖掘是数据挖掘领域的一项重要研究内容,目的在于发现数据中的异常知识,在实际生产、生活和科学研究中有着重要的应用价值。近年来,随着数据规模的增大和应用场景的复

【作者】

：

杨金鸿

【出处】

：

哈尔滨工程大学

【发表日期】

：

2017年01期

【关键词】

：

离群点挖掘聚类粒计算一类分类多粒度群决策

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

离群点挖掘是数据挖掘领域的一项重要研究内容,目的在于发现数据中的异常知识,在实际生产、生活和科学研究中有着重要的应用价值。近年来,随着数据规模的增大和应用场景的复杂化,离群点挖掘问题面临着新的挑战。粒计算作为一种处理模糊海量信息的重要理论,已发展成为人工智能领域的一个热门研究方向。粒计算是对人类全局分析能力的一种模拟,它从不同的层次将错综复杂的问题抽象归纳为比较简单的模型粒,然后对这些简单的模型粒进行分析求解。具体地说,粒计算就是应用分组、分类、聚类等手段多层次分析问题和求解问题的理论和方法,是信息处理的一种新的理念和范式。课题针对现有离群点挖掘方法面临的若干问题,从粒计算角度出发,通过对数据的聚类、分类以及多层次分析,提出了四种不同的离群点挖掘方法。并利用实验对比的方式验证了本文所提出方法的有效性。主要研究内容如下:(1)针对目前基于聚类的离群点挖掘方法只考虑聚类最优而未对离群点挖掘进行优化的问题,同时为了有效利用数据集中的少量标记信息提高离群点挖掘的精度,提出了基于特征加权半监督聚类粒化的离群点挖掘方法。聚类粒化过程中,目标函数为不同的特征分配了自适应权重,综合考虑了聚类和离群点检测之间的相互影响,并遵循最大化标记正常点对于其所属聚簇的隶属度、最小化标记正常点对于其非所属聚簇的隶属度和最小化标记离群点对每个聚簇的隶属度的原则。通过以上半监督聚类模型,可获得数据集的模糊划分,从而诱导出每个聚簇所对应的模糊信息粒。在以上模糊信息粒框架下,根据离群点对每个模糊信息粒的隶属度均较低的原则,定义了数据点的离群度。根据每个样本的离群度,高效地挖掘出数据集中的离群点。(2)基于SVDD的离群点挖掘方法将正常数据作为训练集进行描述和建模,位于决策边界外的数据点被认为是离群点。针对SVDD模型训练集中含有的少量离群点会对决策超球面产生不利影响的问题,提出了基于单簇核PCM的SVDD离群点挖掘方法。该方法通过在核空间中对训练样本进行单簇PCM聚类粒化,得到样本的置信度。然后,将各训练样本对信息粒的置信度引入到传统的SVDD模型中,用以区分不同训练样本对训练模型的不同贡献。由于离群样本通常远离聚簇中心,具有较低的置信度,该离群点挖掘方法可减少离群样本对决策边界的负面影响。(3)为了降低高维数据训练集中离群点对一类支持向量机训练过程的不利影响,提出一种基于流形距离的模糊粒一类支持向量机模型(MD-OCSVM),用于高维数据集离群点挖掘。首先,定义一种流形距离,使得分布于同一个流形上的正常样本之间的流形距离较短,分布于流形之上的正常点与分布于流形之外的离群点之间的距离较远。在流形距离下建立了训练集的模糊粒表示,利用样本点与粒中心的流形距离给出样本的对模糊粒的隶属度,该隶属度反映了该样本点在训练过程中发挥的重要程度。由于离群点往往偏离于流形,一般具有较低的隶属度。MD-OCSVM将模糊粒信息引入到训练模型中,降低了离群点对决策边界的影响,改善了高维数据集的离群点挖掘效果。分别在模拟数据集、高维UCI数据集和故障检测数据集实验中验证了MD-OCSVM方法的有效性。(4)为克服单粒度仅能从单一视角、单一层次分析异常信息的局限性,基于多粒度理论模型提出了一种无监督的离群点挖掘模型。本文首先对数据集进行邻域粒化,构建了多粒度邻域层次模型。然后在多粒度邻域层次模型下,定义了三种新的离群特征,在多个视角下对数据点的离群特性进行描述。由于不同粒度下对数据离群特性的分析尺度和深度不同,为了实现多个视角决策的互补,进而形成对数据是否离群的综合决策,建立了基于群决策的多粒度邻域融合的模型。在决策融合过程中,遵循群体决策与个体决策最大一致性的原则,获得每个粒度在融合过程中的最优权值。最终,可以根据多粒度的群体决策得出各数据点的群体离群程度,进而提取出数据集中的离群点。最后,总结全文的主要研究工作,并提出本文工作的不足和下一步的研究内容。

其他文献

CCSA组织联合讨论“IPv6地址管理与编码”系列标准

今年6月初，网络与安全技术工作委员会（TC8）安全管理工作组与IP与多媒体通信技术工作委员会（TCl）网络协议系统与设备工作组在南京首次召开联合会议。会议的主题围绕13项IPv6地址管

期刊

地址管理IPV6标准草案CCSA编码多媒体通信技术设备制造商组织

向家坝一上海±800kV特高压直流输电示范工程荣获第五届中国工业大奖

2018年12月9日,经国务院批准设立的我国工业领域最高奖项—第五届中国工业大奖在北京人民大会堂隆重揭晓,向家坝一上海±800kV特高压直流输电示范工程荣获本届中国工业大

期刊

特高压直流输电示范工程中国工业向家坝上海北京人民大会堂1000kV特高压交流

加强终端安全标准体系建设服务于移动互联网应用与创新

在移动互联网应用和终端技术工作委员会（TC11）召开的全会上，来自工业和信息化部电信管理局电信设备管理处调研员庾志成介绍了2012年我国移动互联网及智能终端蓬勃发展的趋势以及

期刊

移动互联网标准体系建设终端安全应用电信管理局创新服务个人信息安全

在线婚恋平台个体使用意愿的二元性及悖论研究

随着社交网络技术应用的迅猛发展,面向在线婚恋服务的社交网络平台应运而生,开启了全新的开放式网络婚恋模式。它颠覆了传统婚恋模式,打破了时间和空间的限制,可为人们提供更

学位

使用倾向社会认知理论二元性悖论归因理论在线婚恋平台

节能与自动化推动工控电器发展

生产自动化推进与节能的要求促进了工控电器的发展,介绍近期推出的工控电器新技术、新产品。接触器：小尺寸和高性能接触器,安装尺寸比一般接触器缩小32%,机械寿命达1 000万次

期刊

接触器低压断路器节电智能化产品综述

北电推出WDM—PON

北电和LG-北电近日介绍了一种新的以太网接入系统。能够帮助业务提供商解决其网络中至关重要的最后一英里的带宽瓶颈问题。这种接入系统考虑到了高速核心网络与单独的用户接

期刊

以太网接入技术PONWDM接入系统核心网络业务提供商带宽瓶颈数据传递

形位公差带方向浅析

形位公差是工程图样中一项重要的技术要求,掌握公差带方向是全面掌握形位公差的重要因素之一.本文就形位公差带的方向作了一定分析,指出公差带的方向应与正确评定被测要素误

期刊

形位公差公差带被测要素正确工程图样方向评定浅析重要因素放置geometric tolerance zone aspect of geomet

1992～1993:广东省水电投产的丰收年

在最近召开的广东省水力发电学会第三次代表大会上,省电力局副局长、广州抽水蓄能电站联营公司总经理、省水力发电学会理事长罗绍基同志说:1992～1993年将是广东省水电建设投产

期刊

抽水蓄能电站两台长罗联营公司上库副局长学会理事面板坝新坝型水电站水库

TCl召开第十九次全会研讨“IPv6与IPv4业务互通”和“未来网络”技术

2011年4月20～22日。IP与多媒体通信技术工作委员会（TCl）第十九次全会在昆明召开。会议由主席蒋林涛主持，工业和信息化部科技司通信标准处徐鹏出席会议并讲话。26个会员单位的149

期刊

多媒体通信技术TCL业务互通IPV4IPV6网络会员单位通信标准

中国计划开发建设商用快堆核电站

中国核工业集团公司科技委副主任沈文权4日说，他们计划在2020年建成中等规模的原型快堆核电站，2025年开工建设大型快堆示范电站，2030年后建设具有国际上第四代核电技术特点的商

期刊

商用快堆核电站2020年2025年大型快堆示范电站中国核工业集团公司科技委沈文权

基于粒计算的离群点挖掘方法研究

与本文相关的学术论文