时间序列模式挖掘算法研究

被引量 : 7次 | 上传用户:wxrwzzsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘相关的研究领域越来越热门,除了关联规则的挖掘外,也有学者致力于探讨时间因子的关联规则,大致可区分为消费者购买行为分析、网页浏览分析,以及时间趋势分析等。而在探讨消费者购买行为的时间序列,多借着候选序列的产生及验证,以渐进的过程来产生频繁模式,然而验证的过程必须重复扫描数据库,也因此造成系统沉重的负担而导致效率不佳。序列模式挖掘作为数据挖掘领域的研究热点之一,其任务是从序列数据库中挖掘出最大频繁序列供决策者做出决策。它主要用于捕获与时间相关的典型行为,即捕获那些重复出现从而可用于决策的行为。假如有一个序列数据库,其中每个序列是一个按照事务时间排序的事务集合的列表,每个事务集合是一个项的集合,那么序列模式挖掘就是要找出满足用户给定的最小支持度的所有序列模式。挖掘系统的效率问题是数据挖掘研究的重要内容之一。经典的序列模式挖掘算法AprioriAll在空间和时间的复杂性上,有着难以避免的局限性,本文引入了一种基于邻接矩阵的序列模式挖掘算法,在中间过程中不需要产生候选项的算法,从而避免了反复扫描数据库时在时间上的开销。但是,基于邻接矩阵算法在数据库中的项目较多,并且含有大量事务时,内存空间的开销很大,当内存不能装入所有模式映射信息时,算法将难以有效地工作。本文提出了一种新的序列模式挖掘算法TTSP。在此算法中,我们采用了一种我们称之为“序列线索树”(sequences thread tree)的数据结构。在建构算法的过程中,我们详细地讨论了算法的每个步骤,并且在几个不同尺寸的合成数据库上对算法的挖掘功能做了实验,验证了TTSP算法的有效性,并分析了算法的关键参数对算法性能的影响。通过对TTSP和FPAM进行对比试验,验证了TTSP的优越性。实验结果同时还表明,采用此算法的增量挖掘功能比其它正常挖掘算法在效率上有了很大的提高;同时,由于此算法的执行成效与事务数据库尺寸呈现出一种线性关系,因此认为该算法具有较好的可伸缩性。
其他文献
文学观问题是文学研究的一个基本问题,本论文试图通过对鲁迅、胡适二人文学观的比较,理出其中对当代文学发展具有的普遍指导意义。本论文对文学观的讨论,限定在文学的本质、文学
二维排样问题是希尔伯特提出的23道数学难题之一,它属于NP完全问题,也是复杂的非线性约束优化问题,至今在理论上尚未找到答案。然而排样问题广泛存在于诸如板金下料、服装裁
随着知识经济全球化时代的到来,世界各地教育改革的步伐在不断加快。我国教育部在2001年7月颁发了《基础教育课程改革纲要(试行)》,提倡大力推进基础教育课程改革,调整和改革基
<正>5月9日上午10点,小米手机即将迎来第八轮开放购买日。此前,每轮开放购买,10万台小米手机总能在很短的时间内售罄。小米官方提供的数据显示,进行7次开放购买之后,目前已经
《天浴》是严歌苓创作的短篇小说,它以文革为背景,讲述了女知青文秀为了回城出卖自己,最终走向毁灭的故事。文章通过对文秀命运的解读,重点分析左右文秀命运的关键因素,进而
《边城》是沈从文先生在上世纪30年代的代表作,在这部著作中,翠翠这个形象的分析是评论家们老生常谈的问题,本文引用海德格尔阐释诗人荷尔德林的《人,诗意的栖居》提出的"诗
汽车动力性与经济性是汽车最重要、最基本的性能。在以往通常需要在完成汽车道路试验以后才能对其进行评价,但随着汽车技术、计算机技术的发展及消费者对经济性的关注逐步提
1990年,普拉哈拉德(C.K.Frahalad)和哈默(Gary Hamel)在《哈拂商业评论》上发表《公司的核心竞争力》这篇文章,随后,在学术界和企业界掀起了研究核心竞争力的热潮。但到目前
学生体质健康下降令人担忧,党和国家一直非常关心和重视学生的身体健康,颁布《国家学生体质健康标准》几经修改完善,目的在于激励、促进学生体质健康发展,引导学生积极进行身
脑胶质瘤是最常见的颅内肿瘤之一。我国颅内肿瘤总的发病率为32/10万人,其中脑胶质瘤占颅内肿瘤的35.26~60.96%(平均44.69%)。脑胶质瘤可发生在任何年龄,但以20岁至50岁为最多