离群检测及离群释义空间查找算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:curarchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集中的离群点是指那些偏离常规数据对象的数据点,它们表现为与常规数据的产生机制完全不同。离群点可能蕴含着重要的信息,如在信用卡欺诈行为、通信盗用行为、网络入侵行为等领域中离群点是数据分析的主要对象;在疾病诊断、天文观察等研究领域,离群对象可能给予我们新的视角,导致新理论或新应用的出现。离群挖掘就是利用统计学、机器学习、智能计算、可视化等技术来发现数据集中的离群点,供用户进行分析和研究。离群挖掘具有重要的学术意义和广泛的应用前景。面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常行为是一个具有挑战性的问题。聚类结构是数据在形成过程中所体现出来的一种常见形式,数据不同类别之间具有较明显的特征差异。与传统的聚类算法相比,谱聚类具有能在任意形状的样本空间上聚类,且收敛于全局最优解的特点,因此近年来得到了广泛应用。云模型是在概率论和模糊数学理论两者的基础之上形成的定性概念和其定量表示之间相互转换的模型。其中的正态云模型将实际应用中不符合正态分布严格定义的分布纳入泛正态分布的范畴。数据集中的离群点之所以会有离群行为的产生,是因为体现该离群点的各个属性字段或者属性字段的组合的取值和常规数据不同。在检测到这些离群点之后,分析其离群的行为以及对其离群行为作出解释,不仅有助于加深我们对数据集的理解,还可以帮助我们提高在新产生的数据集上检测离群数据的效果和效率。本论文将谱聚类方法和云模型理论用于发现数据集中的离群点,同时对离群点的离群行为进行分析和解释。主要研究工作和成果如下:(1)针对复杂数据集的聚类问题,提出一种改进的谱聚类算法。该算法引入与密度有关的自适应邻居规模参数更精确地计算对象间的相似性,实现更精确的聚类。基于该算法获得的稳定聚类能够有效地检测离群点。(2)提出一种基于谱聚类的数据集聚类分析与离群检测算法。该算法通过计算不同聚类数目下的动态有效性指标来自动确定数据集的最优聚类数,然后计算“小聚类”的成员的局部离群因子,并根据该局部离群因子确定该成员是否是离群点。(3)将云模型中云滴对于云模型的隶属度概念与数据点在数据集中的离群度相结合,提出一种基于云模型的离群数据检测算法。该算法首先计算数据对象在各个属性字段上的离群度,再计算数据对象在全属性集上的离群度,最后根据离群度的大小查找出数据集中的离群数据。(4)针对当前离群挖掘主要集中于如何检测离群点,而忽视了对离群点产生原因和离群行为的分析,论文提出一种查找离群点的离群行为子空间和关键离群行为子空间的算法。引入“强离群释义空间”和“弱离群释义空间”的概念,并提出一种检测离群点离群释义空间的算法。
其他文献
LED大屏幕上,一架白色的精致小飞机吸引了所有的目光,只见它直直地升至距离地面100米左右的半空,快速地向前移动,消失在画面中。原来第三视角的摄像机已经追不上那架无人机。
领域本体作为一种能在语义和知识层次上描述信息的概念模型,在智能信息检索、知识获取、自然语言理解和Web信息处理等方面发挥着重要的作用。然而由于领域本体构建原则的不确
语义Web系统的核心是本体。大家公认在语义Web领域本体和信息抽取(IE)的组合构成了一个知识处理循环:本体在合适的上下文为IE提供文本解释,使其更准确更有效,而IE可以提取新知
在计算机视觉研究领域里,运动物体检测作为预处理技术中非常重要的任务,就是将感兴趣的运动物体从背景中分离出来,在智能视频监控(Automatic VideoSurvalliance,AVS)、视频压缩、
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文针对土壤取样提出一种中空螺旋无水取土钻具,采用无水循环、单动双管(外中心管及内衬管)回转钻进工艺以及超前管靴合金钻头等结构设计降低对土样的扰动,其工作原理是外部
[目的]明确氯化苦对重茬草莓土壤生物(微生物数量)和非生物因子(酶活性和肥力)是否有影响。[方法]采用田间熏蒸技术,以草莓缓苗期和幼果期土样为研究对象。[结果]氯化苦熏蒸
试验旨在分析内蒙古生鲜乳中氨基酸含量、乳蛋白营养价值及其在不同地区的差异,为生鲜乳营养品质评定提供理论依据。选取内蒙古呼伦贝尔市、锡林郭勒盟、乌兰察布市、赤峰市
为研究道床裂纹对无砟轨道受力的影响,根据道床裂纹的特点,基于线弹性断裂力学理论,构造20节点六面体奇异等参单元反映裂纹尖端奇异,建立含裂纹的无砟轨道空间有限元模型,分
旅游活动对生态环境的影响是不可避免的。文章以宁夏沙漠景区为例,运用模糊综合评价法构建了旅游活动对沙漠生态环境影响的评价指标体系,将旅游对景区环境的影响进行了定量化