基于聚类分区的序列模式挖掘算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:f805616873
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课题。数据规模的增大对挖掘算法提出了更高的要求。本文针对目前序列模式发现研究中的一些问题展开研究,主要研究工作如下:(1)详细讨论了序列模式的基本模型以及经典的发现方法,展现了序列模式发现研究领域的应用前景及所面临的挑战。(2)针对PrefixSpan算法产生的投影数据库花费较多的存储空间及扫描时间,提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度。实验证明,PSD算法比PrefixSpan算法具有更好的时空性能。(3)对较大数据集挖掘序列模式,提出基于分区的序列模式挖掘算法,以期克服有限存储问题,为并行处理及分布式处理做好基础。此外,当给出的分区数固定时,不同的分区性能可能存在较大差异,本文通过聚类方法对数据集预处理,以得到可以产生较少局部频繁序列的特定分区,最终得到较少的全局候选序列以减少第二遍扫描时间。理论分析和实验表明,本文所提出的方法可比普通分区方法得到更加优化的分区从而效率更高。
其他文献
知识管理本质上是一种管理思想,实施知识管理是组织的一项投资,任何投资都要对其投入效果进行评估和测量。所以在实施知识管理后,组织还需要建立知识管理实施效果跟踪和评估措施
短期时序记忆是工作记忆的一种,它对从一般的知识获取到推理都起到了重要作用。以国际WIC研究院的研究课题为例,归纳推理、演绎推理、学习稳定性、决策、问题求解的神经科学基
软件可靠性是软件质量的重要方面.软件失效是系统失效或系统服务质量降级的主要因素.准确地评估软件系统的可靠性、预测软件可靠性随测试过程的增长能为软件发布和测试资源的
Web服务是近年来新兴的Web应用方式,其发展十分迅速。随着其应用范围的扩大以及Web服务动态组合需求的提出,Web服务的发布与发现,成为Web服务应用的一个关键问题之一。 传统
随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历
随着计算机网络的发展和技术的进步,网络游戏逐渐成为人们重要的娱乐方式。一个网络游戏系统需要支持分布在各地的成百上千的玩家同时在线游戏,繁重的处理任务使性能问题成为
移动机器人由于具备较强的适应性和自主性,在医疗、灾难救援、家政服务等领域得到广泛应用。建立精准的三维地图和实现精确的定位是移动机器人实现自主导航的关键,也是完成后
循环展开是一种非常重要的循环变换技术,不仅能够直接提高程序的性能,而且可以为其它优化创造优化机会。目前编译器基本都是使用启发式方法选择展开策略。循环展开与其他优化
手语是听力障碍者在日常生活、工作中与人交流、表达意图的主要手段,然而当今社会中信息传播的主要方式都是建立在自然语言之上,对听力障碍者接受信息、融入社会主体造成极大的
数据中心网络的相关研究中,流量管理问题一直备受关注。当前大数据应用对传输时延、网络流量控制提出了更高的要求,这需要对网络流调度进一步优化。同时现有的网络流调度算法