数据流频繁项挖掘与聚类分析的研究

被引量 : 19次 | 上传用户:tx9yhbkyyp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展和信息技术的广泛应用引发了一类新型应用,包括计算机网络流量控制、网络安全监控、金融应用、环境监测和日志分析等。在这些新型的应用中,数据以流的形式产生,它实时、持续、有序地到达。这种由一系列连续且有序的数据组成的序列被称为数据流。与传统数据库不同,数据流具有如下特点:无限性;不可再现性;数据到达速率极快;数据的到达次序不受应用约束。分析和挖掘数据流已成为热点研究问题。数据流挖掘即在流式数据上提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据流挖掘主要是通过挖掘频繁项(集)、分类分析、聚类分析、异常分析等知识发现活动,以寻找数据流中的关联规则、分类规则、聚类模式、异常模式等类型的知识。如挖掘数据流中的频繁项可应用于基于流量的网络计费、网络交通阻塞控制、网络安全监控等。对数据流进行聚类分析可应用于监测网络入侵、在线新闻组过滤、话题识别与跟踪、对交通拥塞与地理环境等进行实时监控、对大型公司中不同顾客群进行划分、检测金融欺诈等。由于存储空间的有限性与数据流的无限性,使得存储数据流中的全部数据以提供精确的挖掘结果是不实际的。因此,在数据流处理模型中,数据流处理算法只存储数据流的概要信息,并随着流中数据不断到来,不断更新流概要,同时根据用户的查询要求,利用所维护的数据流概要信息,为用户提供近似的查询结果。由于频繁项挖掘与聚类分析在网络数据流分析中有着重要的应用,我们主要进行数据流环境下的频繁项挖掘与聚类分析方法的研究。在网络数据流及大量的其它应用领域中,数据类型多种多样,它们不仅包括数值型数据,而且包括非数值型数据,且这些数据经常会有几十甚至几百个属性,使得研究混合属性数据流的聚类及高维属性数据流聚类均具有重要的理论价值与实际意义。以生物系统的机理为基础设计算法和系统是近代研究的热点,并已取得了瞩目成效。而人工免疫系统(AIS)结合了分类器、神经网络和机器推理等系统的一些优点,具有提供新颖的问题解决方法的潜力。同时AIS在数据流聚类中也已有了初步研究,本文针对现有基于AIS的数据流聚类存在的不足,研究新的基于AIS的数据流聚类算法。本文的研究内容和创新工作可概括为以下四个方面。(1)数据流频繁项挖掘算法的研究本文在Bloom Filter的基础上,提出空间效率高、可支持表达庞大数据集及较高查找效率的数据结构—可扩展Bloom Filter,并基于该数据结构提出基于界标窗口模型的数据流频繁项挖掘算法(FI-ESBFL),同时通过理论证明只需比同类算法中更少的计数器数目即可达到相同的精度与置信度要求。FI-ESBFL可以根据数据流中数据的不同分布及不同的数据项的多少动态调整所使用的内存空间,从而大大减少了内存空间的浪费。实验证明FI-ESBFL具有更高的空间效率与较高的时间效率。本文在FI-EBFSL的基础上还提出了基于衰减窗口模型的数据流频繁项挖掘算法—FI-ESBFD及基于滑动窗口模型的数据流频繁项挖掘算法—FIS-EBFS。FIS-EBFSD具有在一般情况下比同类算法有更高的时间与空间效率。FIS-EBFS具有高效的时间性能。(2)混合属性数据流聚类分析算法的研究本文提出两种不同的基于熵的混合属性数据对象间相似性度量,并在此基础上提出两类混合属性数据流聚类算法——CNCE-Stream与CNCDE-Stream。其中CNCDE-Stream同时利用欧式距离与熵来定义混合属性数据对象间的相似性。在算法CNCE-Stream中,利用单一的量——熵度量混合属性数据对象间的相似性,提出数据流环境下概率密度函数的估计方法—S核方法和带混合属性的类的期望熵计算方法。实验结果表明,CNCDE-Stream与CNCE-Stream均具有较高的聚类质量,且CNCDE-Stream具有很高的时间效率。(3)高维数据流子空间聚类分析算法的研究针对大部分现有的数据流聚类算法只适合于待聚类的数据含有的维度较低的情况及现有数据流子空间聚类算法的不足,本文提出基于网格与密度的高维数据流子空间聚类算法—SOStream。SOStream在线维护一个所有密集网格单元的超集,并提出延迟插入潜在密集网格单元与定期修剪非密集(稀疏)网格单元策略,提高了算法的时间与空间效率。当用户请求时,利用在线维护的密集网格单元生成最终类结构。我们通过实验证明了本算法的有效性。(4)基于人工免疫原理的数据流聚类分析算法的研究本文根据人工免疫系统可动态适应外部环境的变化,提出一种新的基于人工免疫网络的数据流聚类算法—AIN-Stream。AIN-Stream利用外部抗原(流数据)对B细胞的激励作用定义B细胞的激励度,并通过为B细胞创建特征向量,利用统计分析的方法自动确定基于人工免疫聚类算法的关键参数—B细胞识别区域,保证了聚类结果的稳定性。同时,AIN-Stream利用B细胞特征向量中的统计信息更有效地去除冗余B细胞,进一步提高了算法效率。在生成聚类结果时,AIN-Stream无需指定类数,可真正实现无监督聚类。实验表明,AIN-Stream能够动态适应数据流的变化,并具较高的聚类质量,且具有更高的空间效率与明显的时间效率提高。本文提出的算法是对现有数据流上的频繁项挖掘技术与聚类分析技术的补充与改进,理论分析与实验结果表明本文算法能够较为有效地解决相应问题。
其他文献
南非作为非洲经济飞速发展的典型代表,与中国的经济往来日益频繁。这使得了解和研究南非反就业歧视立法成为我国学术界和政府层面的迫切需要,同时也能对中国公司或公民深入南
随着旅游业的迅猛发展 ,旅游市场竞争日趋激烈 ,旅游地形象问题越来越受到理论界和业界人士的关注。本文以长春市为例 ,将企业CI理论导入城市旅游形象设计中 ,分别从理念形象
在一些人看来,作为国际法上用于解决领土争端传统方法之一的共管是一种"权宜之计",业已成为"历史遗产"。实际上,这些理解是片面的。在国家主权管辖范围业已扩大的情况下,需要
少数民族权利是一个综合性的范畴体系,其形式具有多样性。它既包括作为群体的少数民族的集体权利,又包括作为个体的少数民族成员的个人权利;既包括少数民族的生存权、也包括
滑阀副是通过阀芯、阀套重叠处阀口控制流体流动方向及流量大小的,阀套工作边棱边质量对伺服阀工作性能有决定性影响。阀套内环槽全开口工作边常常利用硬车后研磨的工艺方法
试卷讲评课要集中精力解决好某个或几个主要问题,要讲数学思想,把形式不同而解题思想方法相似的习题归纳成类,把不同类型的问题从数学本质上进行整合,归纳出一般规律,适度拓
权利作为法律体系的核心,是人的基本价值追求。它既是人类文明社会的实质性要求,也一直是法学理论和各部门法关注的焦点。在中国的法治进程中,人们的权利意识开始觉醒,权利观
英语课堂是我国目前大多数英语学习者接触和使用英语语言的主要场所,而教师话语(teacher talk, TT)的数量与质量影响甚至决定了语言课堂教学的成败和学习者的语言习得。教师
<正>在整个吴门画派的绘画体系中,虽然明代四家在人物与花鸟方面都取得了不错的建树,但山水画在他们的创作中依然是占有绝对主导地位的绘画分科,以至于明代中期之后中国的绘
刑罚现代化的一个重要标志就是刑罚轻缓化,刑罚轻缓化实现的重要途径就是拓宽非监禁刑的适用范围,在这些非监禁刑措施中,罚金刑占有很重要的地位,发达国家都很重视罚金刑的作