一种分布式数据集上top-n异常点挖掘的高效算法

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户：climb_climb

【摘要】

：

【作者】

：

张重生冯海军陈红梁思维李翠平

【机构】

：

中国人民大学信息学院北京 100872 数据工程与知识工程教育部重点实验室北京 100872

【出处】

：

第二十五届中国数据库学术会议(NDBC2008)

【发表日期】

：

2008年5期

【关键词】

：

异常点挖掘分布式数据集 top-n 数据挖掘 K-Means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

异常点挖掘是一种从数据中分析并发现潜在的反常对象的数据挖掘技术,它在实际生活中有很多的应用,如入侵检测、金融数据分析、病症数据分析等。异常点挖掘具体技术与所研究的数据类型和数据环境有密切关系,已有研究大多是假定数据是集中分布在一张单表上的,而实际应用中很多数据是分布式的.分析了水平分布的数据集上异常点挖掘的问题,并提出了一个改进的基于Birch的分布式数据集中上top-n异常点挖掘的算法MOD.MOD首先在各分支节点上提取聚类特征概要信息,并将其发送到查询节点.查询节点同步地构造特征向量树CF-tree,并使用K-Means算法对CF-tree的叶节点聚类生成微聚类.通过估量微聚类的异常值的范围,能够排除大量的不包含top-n异常点的微聚类,最后对剩余的候选微聚类中的对象做具体异常值计算.模拟实验验证了MOD能够避免大量数据的传输和集中,在不太影响检测结果的准确度的前提下,能够较好地提高异常点挖掘的效率。

其他文献

不确定数据集上的k-Skyline查询

由于数据本身固有的不确定性、采集的随机性及不精确性导致现实应用中产生了大量的不确定数据集.基于概率Skyline的思想,提出了不确定数据集上的k-Skyline查询,用于查询Skyline概率最大的k个对象,并设计了一个高效算法:GIKS(grid indexed k-skyline).GIKS是一个自底向上的网格索引方法,将数据空间分割为多个易于处理的小区域,利用网格的优势分而治之;同时借助索引

会议

概率SkylineTop-k查询多标准决策网格索引结构不确定数据集信息共享

基于XPath的Web页面自动清洗算法

针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法。算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识别并消除更多相似页面中的噪声内容.实验结果证明了该清洗方法的有效性及准确性。

会议

噪声内容Web页面清洗自动清洗DOM公共XPath

关系数据库上基于语义的top-k关键字查询

给定关键字集合,关系数据库上的关键字查询返回一个元组连接树集合.现有的关键字查询处理方法要求元组连接树的每个叶节点至少包含一个查询关键字.但是,这些方法都忽略了与查询关键字语义相关的元组。因此,提出一种基于语义的关键字查询处理算法。首先定义了查询关键字与元组连接树的语义相关性评价函数,然后在查询处理过程中利用该评价函数,以产生相关性最高的top-k结果.最后,实验结果表明该查询处理算法的准确性和高

会议

关系数据库top-k语义关键字查询元组连接树

一种基于动态用户模型的个性化Web搜索算法

个性化Web搜索能够根据用户兴趣偏好为不同用户返回更符合其信息需求的个性化查询结果,是解决查询歧义性问题、提高搜索精度和用户满意度的有效途径.但用户查询复杂多样,基于用户所有历史查询而建立的静态用户模型往往不准确,降低了个性化搜索的性能.针对这一问题,提出了一种基于动态用户模型的个性化算法。在建立该用户模型时,将与当前查询相似性较高的历史查询赋予较高的权重,去除不相关查询,提高用户模型的可靠性和准

会议

个性化Web搜索动态用户模型用户兴趣搜索引擎个性化查询

一种面向近似查询的图数据库索引方法

提出了一种在图数据库中建立相似匹配查找的索引方法。因为图的近似匹配是一个NP难问题,为了避免在数据库上的顺序查找,利用k-邻接子图索引一个大规模的图数据库,首先给出k-邻接子图索引的过滤机制以及生成k-邻接子图集的广度优先搜索算法,然后通过建立k-邻接子图字典的方法压缩存储空间并优化索引,最后讨论索引的维护方法。对于一个基于编辑距离范围的近似查询,通过在k-邻接子图索引上的过滤,最终可以得到一个远

会议

近似查询图数据库索引邻接子图广度优先搜索

阈值区间:一种基于XCLS和XCLSE的改进方案

分析了XML文档聚类的应用趋势与前景,提出了XML聚类算法所面临的一些问题。详细介绍了由Richi Nayak提出的快速而高效的增量式XML文档聚类算法XCLS和XCLSE.算法提出一种新的XML数据表示结构Level Structure,并在此基础上定义了基于层次相似度的文档聚类计算方式,而不需再花费大量时间与工作来计算"逐对"XML文档之间的相似度.对XCLS和XCLSE算法结合语义的过程进行

会议

XML文档聚类层次结构层次相似度XCLSXCLSE语义信息

数据流中基于PB-tree的当前最大频繁项集挖掘算法

数据流中最大频繁项集挖掘是许多数据挖掘应用中的关键问题。提出了一种基于滑动窗口快速挖掘最大频繁项集的算法SW-MFI,创建了PB-tree数据结构来维护当前滑动窗口内所有事务,它采用了数据的垂直表示和指向当前最大频繁项集的指针.利用PB-tree,SW-MFI算法可快速挖掘当前滑动窗口内最大频繁项集,从而大大提高了挖掘效率。

会议

最大频繁项集PB-tree数据流滑动窗口数据挖掘SW-MFI算法

Intranet中Web对象的属性挖掘

随着互随着互联网的迅速发展,网络环境中的数据管理与挖掘成为研究热点.基于关键词的搜索引擎虽然获得巨大成功,仍无法满足人们的搜索需求.目前已有很多研究将网页中的文本信息进行更深一层的抽象,即对象化的抽象,然而由于Internet环境的复杂性,Web对象的信息通常难以挖掘整合.基于已有的Web框架,着眼于结构封闭性好,相关度高的intranet语料环境,将传统的面向对象的分析方式应用到Web对象建模的

会议

Web对象属性挖掘intranet搜索引擎对象化抽象

TEXEM:一种基于实体的邮件任务提取策略

在信息化飞速发展的今天,电子邮件的使用正在变得越来越频繁,而且其应用场合也在不断扩展,目前世界上很大一部分、并且越来越多的商业和个人往来都是通过电子邮件完成的.电子邮件的作用正在被人们不断拓展,特别是它作为任务管理和协作管理的重要工具和手段,被人们广泛使用。但是由于电子邮件数量越来越大,其设计初衷只是单纯的通信手段,具有轻量性和随意性等特点,因此当前的邮件管理工具很难有效地组织和管理人们的大量邮件

会议

任务提取实体识别电子邮件处理聚类任务管理TEXEM

一种基于贝叶斯的多窗口数据流分类模型

近年来,数据流挖掘已成为知识发现领域中的一个研究热点,而数据无限性和概念漂移性等特征使得传统的分类算法不能很好地适应数据流环境.提出一种基于贝叶斯的多窗口数据流分类模型(Bayesian classifier for classifying data streams based on multi-windows,BCCDSMW)对数据流进行分类.BCCDSMW考虑离散属性和连续属性的不同处理,对时

会议

数据流挖掘分类模型贝叶斯分类器滑动窗口

一种分布式数据集上top-n异常点挖掘的高效算法

与本文相关的学术论文