高维数据挖掘中若干关键问题的研究

被引量 : 113次 | 上传用户:geona
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘指的是从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的研究方向之一。在实际应用中经常会碰到高维数据,如交易数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等。由于这种数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用L_p距离作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:一个可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。 本文对高维数据挖掘中的相似性搜索、高维数据聚类、高维数据异常检测及电子商务中的协同过滤技术进行了研究,指出了高维给这些领域带来的影响,提出了一些解决问题的方法,具有一定的理论意义和现实的指导意义。 本文的主要工作如下: (1)通过对高维数据特点的分析,提出了一种新的相似性度量函数Hsim(),该函数可以避免在高维空间中分辨能力下降的问题,还可以将数值型的数据和二值型数据相似性的计算整合在一个统一的框架中。并将它与其它的相似性函数进行了比较; (2)结合量化交易数据的特点,提出了一种新的量化交易数据相似性搜索方法,这种算法基于一种称为特征表的结构,对数据有较高的修剪率,能大大提高相似性搜索的速度; (3)提出了一种新的基于用户评分数据的协同过滤算法,并通过实验证明该算法不仅提高了推荐的效率,还对推荐精度有一定的提高; (4)分析了高维数据聚类的算法,提出了基于对象相似性的高维数据聚类框架; (5)对高维对异常检测算法的影响进行了分析,给出了投影异常检测的概念。提出了一种动态环境下局部异常的增量挖掘算法IncLOF,并通过实验和LOF算 摘 要法进行了比较,结果表明在动态高维的环境下,当高维索引结构失效的情况下。能大大提高局部异常的挖掘效率。
其他文献
语言是人类文明和发展的产物,它又直接地反映着人类活动与社会的发展状况。而活跃在大众媒体当中的语言又是最能体现语言动态的一面镜子,折射出社会经济、文化、教育等诸多方面
国际直接投资作为国际间的一个经济现象,从其出现至今,对各国经济的发展,对世界经济的全球化已经和正在产生着重要的影响。各国在大力发展国际贸易的同时,更加重视国际投资在拓展
鲜切果蔬属于生鲜食品,加工造成的机械损伤会引发一系列不利的生理生化反应,导致鲜切果蔬货架期变短,限制了鲜切果蔬工业的发展。臭氧(水)处理是一种高效、环保、节能的杀菌
本项研究主要从语言学的角度探讨警察讯问的提问策略。我们在Halliday(1994)的主位理论和Verschueren(1999)的顺应论基础上构建了理论框架。在这样的框架下,我们主要分析两个
南北朝至宋元时期,由于民族的融合、文化的交流以及佛教的传播等因素的共同作用,汉语在语音、词汇、语法等各个方面都发生了较大变化。在汉语史上,这段时期正处于中古早期至近代
《仓颉篇》是我国古代识字教材的代表性著作,成书于两千多年前秦统一之初,并于汉而亡于宋,所载的是秦汉时期一种规范语言、文字。清代的学者根据可以找到的考古资料和散佚的
采用建模仿真方法对武器系统实施全寿命、全方位、全系统的管理,是武器装备研制、采办、训练必不可少的环节和发展方向。文章简要概述了武器系统建模仿真的标准及发展现状,并
<正>全球商务与支付行业企业eBay于2013年11月27日发布了《大中华区跨境电子商务零售出口产业地图》,揭晓大中华区跨境电商零售出口中心及其区域产业特色。位于东部沿海的出
中国传统文化中蕴含了丰富的心理健康思想,中国人的自我认知和社会知觉、情绪和行为反应,以及追求真实和谐和勇于悦纳进取的思想具有鲜明的民族文化特点。本文试图立足于本民
根据国家电力公司对农村电网建设与改造项目所提出的技术原则的控制要求,结合广西农村电网的实际情况,介绍广西农村电网建没与改造应遵循的技术原则。