权重滑动窗模型在流数据中的应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:guaidaokid2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据挖掘中的一项重要任务就是挖掘序列模式,其目的是在流数据中挖掘出所有满足最小支持度的频繁序列。流数据中序列模式的挖掘的应用十分广泛,包括网络流量访问日志分析,web点击流分析,网络入侵检测,金融事务数据的动态跟踪,以及连锁商店的在线交易数据分析,等等。由于流数据的大小不确定,反应速度较快,不能回溯访问之前的事务,并且没有合适的系统对流数据到达的顺序进行控制,使得在流数据中挖掘频繁序列模式是一项很艰巨的挑战。   目前有三种流数据挖掘模型,分别是时间戳窗口模型,倾斜窗口模型以及滑动窗模型。本文采用滑动窗模型,并根据用户的偏好给不同窗口分配不同的权重。这样可以直接反映用户的偏好以及不同窗口在挖掘过程中的重要性。   本文简要介绍了序列模式挖掘算法SPAM,并基于SPAM的特点和不足提出SPAM—Imp算法,对SPAM算法进行优化。本文利用SPAM算法,提出SWSS算法和MSWSS算法分别挖掘基于权重滑动窗模型中的频繁序列模式和最大频繁序列模式,并利用SPAM-Imp算法提出SWSS-Imp算法和MSWSS-Imp算法分别对SWSS算法和MSWSS算法进行性能优化。为了验证SWSS算法和MSWSS算法的可行性,本文采用多组标准测试数据对算法进行实验对比。除此之外,为了验证SPAM-Imp算法、SWSS-Imp算法以及MSWSS-Imp算法的相对性能优化,本文同样利用多组测试数据对算法进行实验对比。实验结果表明,本文提出的SWSS算法和MSWSS算法是可行的,并且后续改进算法在挖掘性能上有明显优势。
其他文献
统一建模语言(UML,Unified Modeling Language)是一种面向对象通用可视化建模语言,迄今为止已经成功地应用在诸如电信、金融、政府、电子、国防、航天航空、制造与工业自动化
功能磁共振成像(fMRI)技术具有无创检测、空间分辨率高等优点,目前被广泛应用于脑科学的研究。独立成分分析(ICA)是近年来发展起来的实现fMRI信号分离的有效手段。不同于经典
Web服务作为一种新兴的Web应用模式和崭新的分布式计算模型,已逐渐成为分布、动态和异构环境下,数据和系统集成的有效机制,发展非常迅速,相关研究如火如荼地开展,新的理念和技术层
三维模型作为新一代数字几何媒体,在互联网的大背景下,其应用促使基于内容的三维模型检索技术应运而生。随着三维模型在越来越多的领域扮演着越来越重要的角色,开展三维模型
人脸识别(Face Recognition,FR)也称自动人脸识别(Automated Face Recognition,AFR),是一个近年得到广泛关注的研究热点,其相关技术的应用范围也在不断扩展。人脸识别一般包
随着三维建模技术的不断提高和虚拟现实技术的深入发展,三维技术已经逐渐成为各个研究领域的新宠儿。在网络上,涌现了海量的三维模型,各种三维搜索引擎也相继问世。由于三维
航拍图像是运用航空手段、遥感技术等进行拍摄的反映地表形态的数据,而作为分析手段的航拍图像处理技术,被广泛运用于军事国防、交通建设、水利工程、生态研究、城市规划等领
生物特征识别技术因为具有安全性、稳定性和便捷性等特点,被广泛地应用于身份鉴别领域。常用于识别的生物特征包括指纹、人脸、声纹、虹膜、视网膜、掌形、签名、掌纹等。由
计算机立体显示技术能使二维平面设备展现具有深度层次的立体视觉效果,它是虚拟现实的关键技术之一,也是一个基本的虚拟现实系统必须具备的条件。本文从立体知觉出发,研究立
词汇语义知识库是语义分析的基础,目前词汇语义知识库构建仍是基于手工的方法。本文分析了HNC、HowNet和CCD语义词典的来源、对概念的描述体系和词典的组织结构,阐述了三者在