论文部分内容阅读
随着信息化技术的快速发展和广泛应用,Web已经成为人们获取知识和交流信息的重要渠道之一,融入到人们的工作、学习和生活的方方面面,Web日志中收集了大量的用户访问数据,如何高效分析和利用这些海量数据成为当前数据挖掘的研究热点。序列模式挖掘(Sequential Pattern Mining, SPM)主要研究如何在带有时间特征的数据信息中挖掘频繁发生的序列。近年来序列模式挖掘研究发展迅速,并广泛应用于Web日志分析、客户购买行为模式预测、疾病诊断、自然灾害预测和DNA序列分析等领域。本文针对Web日志海量信息的挖掘问题,对序列模式挖掘进行了比较深入的研究,探讨了序列挖掘算法的相关问题。本文主要完成以下几个方面的工作:(1)首先了解序列模式挖掘相关背景及国内外研究现状,研究了当前最具代表性的序列模式挖掘算法以及分析其存在的问题。(2)重点分析了PrefixSpan算法,发现该算法在挖掘过程中产生大量投影数据库和扫描不可能出现序列,特别在挖掘密数据集和长序列模式时,使得算法性能急剧下降。针对此问题,提出一种基于投影位置的序列模式挖掘算法(Projection position-based Sequential Pattern Mining, PSPM),将改进后的算法在UCI公共数据集上进行验证,并分析对比算法性能。实验结果表明,本文提出的PSPM算法具有更好的可行性和可伸缩性。(3)通过分析发现Web日志数据具有一些特殊性,针对Web日志数据特点,将上文提出的PSPM算法扩展为PSPM WEB算法并应用到Web日志挖掘中,解决个性化的信息服务和构建智能化Web站点的问题。通过序列模式分析,发现用户对Web站点访问的行为模式,依据所发现的行为模式对用户的访问习惯进行预测,进一步构建简洁高效的Web站点结构,最终达到方便用户,提高Web站点整体价值的目的。因此,研究和提出高效的序列模式算法,在Web日志挖掘的应用上具有一定的科学研究意义和学术价值。