基于投影位置的序列模式挖掘算法研究与应用

来源 :广西大学 | 被引量 : 0次 | 上传用户:joeyifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的快速发展和广泛应用,Web已经成为人们获取知识和交流信息的重要渠道之一,融入到人们的工作、学习和生活的方方面面,Web日志中收集了大量的用户访问数据,如何高效分析和利用这些海量数据成为当前数据挖掘的研究热点。序列模式挖掘(Sequential Pattern Mining, SPM)主要研究如何在带有时间特征的数据信息中挖掘频繁发生的序列。近年来序列模式挖掘研究发展迅速,并广泛应用于Web日志分析、客户购买行为模式预测、疾病诊断、自然灾害预测和DNA序列分析等领域。本文针对Web日志海量信息的挖掘问题,对序列模式挖掘进行了比较深入的研究,探讨了序列挖掘算法的相关问题。本文主要完成以下几个方面的工作:(1)首先了解序列模式挖掘相关背景及国内外研究现状,研究了当前最具代表性的序列模式挖掘算法以及分析其存在的问题。(2)重点分析了PrefixSpan算法,发现该算法在挖掘过程中产生大量投影数据库和扫描不可能出现序列,特别在挖掘密数据集和长序列模式时,使得算法性能急剧下降。针对此问题,提出一种基于投影位置的序列模式挖掘算法(Projection position-based Sequential Pattern Mining, PSPM),将改进后的算法在UCI公共数据集上进行验证,并分析对比算法性能。实验结果表明,本文提出的PSPM算法具有更好的可行性和可伸缩性。(3)通过分析发现Web日志数据具有一些特殊性,针对Web日志数据特点,将上文提出的PSPM算法扩展为PSPM WEB算法并应用到Web日志挖掘中,解决个性化的信息服务和构建智能化Web站点的问题。通过序列模式分析,发现用户对Web站点访问的行为模式,依据所发现的行为模式对用户的访问习惯进行预测,进一步构建简洁高效的Web站点结构,最终达到方便用户,提高Web站点整体价值的目的。因此,研究和提出高效的序列模式算法,在Web日志挖掘的应用上具有一定的科学研究意义和学术价值。
其他文献
电容层析成像(Electrical Capacitance Tomography,简称ECT)技术是基于电容敏感原理的电学层析成像技术,该技术以其价格低廉、非侵入、结构简单、响应快、无辐射等优点,近年来被
斜视一直都是社会关注的热点问题。斜视患者双眼不能够同时注视同一个物体。斜视患者通常还有双眼眼位不对称、阅读障碍、立体感很差、不能够准确的判断物体的位置和距离等严
当今社会,全球化已经成为城市发展的整体趋势,而实现城市信息化正是一个城市融入全球化浪潮所需的必要条件。随着互联网的普及,越来越多的用户通过网络来获取城市信息。因此,
2006年微软公司提出基表加扩展表SaaS多租户数据存储模式,在该模式中使用基表存储租户的公共数据字段,数据处理效率较高;使用扩展表(键-值对)存储租户的扩展数据,由于在扩展数
随着网络技术的迅猛发展,以Internet为代表的信息网络逐渐渗透到我们生活的各个方面,并在政治、军事、经济、文化等众多领域中扮演着越来越重要的角色,这使得无论是运营商还是用
森林火灾严重破坏生态系统及人类的生命财产安全,因此研究林火蔓延机理,对林火蔓延发展进行准确地预测和模拟,可以有效地制定扑火决策,控制火场的持续蔓延。然而作为一种复杂
骨架是概括表示三维模型的一种抽象化手段,它能有效刻画并表达模型的拓扑结构和形状特征,同时节省模型在计算机上的存储空间,因此骨架提取技术被广泛应用于各领域。但是传统
在图像中自动发现人感兴趣的目标是计算视觉中非常有用的技术,近年来一直是计算视觉中的热门研究领域。显著区域检测技术广泛应用于图像压缩、图像检索、基于内容的图像缩放
自然界中的植物具有典型的复杂自相似结构,自然景观模拟是分形的主要应用领域之一,而植物模拟是自然景观模拟的主要研究方向。本文在分形图形学的基础上,通过对自然景物进行
3D打印是一种新型制造技术,将引起生产方式的变革。然而,3D打印机的尺寸有限,若打印大体积模型则需要先将其分割成块,分割策略直接影响模型打印成本和精度。此外,为进一步提