基于WEB日志的数据挖掘研究

被引量 : 0次 | 上传用户:kgfu86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW网上可利用信息呈现爆炸性的增长,人们急需要从WWW网上发现有用的知识。面对海量的信息,人们获取有价值的信息变得越来越困难。Web服务器访问日志文件,记录了用户的地址、访问日期和时间、方法、网页、信息大小等用户访问信息和交互信息。Web日志挖掘主要是从Web服务器的访问日志文件中抽取用户感兴趣的访问模式,发现用户的浏览行为,实现个性化推荐服务。聚类可发现具有相似浏览行为的用户群,也可对具有相似特征的页面分组。但传统的聚类未考虑用户偏好的多样性,导致聚类效果不理想。本文对现有聚类算法进行了深入的研究,提出了改进的LFCM模糊聚类算法,对用户事务聚类。频繁访问路径反映了用户的访问模式。Apriori关联规则是挖掘频繁访问路径的一种典型方法,但会产生大量的候选项目集,效率不高。本文中,挖掘频繁访问路径的基本思想是挖掘长度为k的频繁访问路径通过两个长度为k-1的频繁访问路径自连接产生,这种算法可以减少数据库扫描次数,提高效率。目前网页推荐常采用页面的访问频次、访问时间反映用户的兴趣度。我们认为这种方式不能完全反映用户的兴趣度。为此,我们提出频繁访问路径和网页的访问频次、会话结尾的页面可以体现用户的兴趣浏览模式。本文从大量的Web日志中对有效挖掘用户访问模式进行探索,主要研究工作如下:①介绍和分析了预处理技术,包括数据净化、用户识别、会话识别、路径补充、事务识别等,预处理是Web挖掘过程中关键的一步,其结果直接影响挖掘的效果。②通过引入模糊数学,利用其处理不精确、不确定性问题的优势,在研究了模糊c-均值(FCM)聚类算法的基础上,提出了改进的LFCM算法,降低了时间复杂度,LFCM算法的时间复杂度与输入的用户事务数n和选择参数p成线性比例关系。实验结果表明LFCM较FCM算法可以更有效地实现聚类。本文还引入了聚类有效性函数,以获得最佳的分类数。③频繁访问路径反映了用户的访问模式,利用最大向前访问路径(MFP)方法和基于有向树的方法识别用户事务模式,频繁访问路径从用户会话的最大向前访问路径中产生。本文研究了一个新的网页推荐算法,向用户推荐可能感兴趣的页面。④初步设计了一个具有个性化推荐的系统原型,系统实时监测用户的访问行为,根据当前用户的访问情况,预测用户下一个可能访问的页面,动态为其推荐兴趣度最高的页面。
其他文献
曹操的游仙诗多基于自己宏大抱负难以实现,抒发的是一种时不我待的感情;曹植的游仙诗多基于不堪忍受其兄、侄的迫害,抒发的是一种慷慨悲凉的感情。
《句法结构》是现当代语言学中"乔姆斯基革命"的经典奠基之作。经过半个世纪的发展,生成语法经历了由语言习得认识论的刺激贫乏问题到探索语言背后的心理机制问题,再到普遍语
目前,我国能源需求继续增长,安全保障形势严峻;能源发展不平衡,调整结构任重道远;资源环境约束增强,节能减排压力巨大;能效亟需提高,合理控制能源消费总量任务艰巨;绿色能源
文中概述了古今中医医家对银屑病病因病机的认识,总结了他们探求本病病因病机的方法,认为有必要进行多中心大规模的临床研究,以期总结出本病的基本病因病机,从而更好地指导本
<正> 一前几年,我们曾写过一篇《殷周青铜容器上鸟纹的断代研究》,发表在《考古学报》1984年3期,作为青铜器纹饰断代研究的尝试,颇受各方的注意。本文是此项研究课题的继续,
电子杂志在中国已经进入了一个高速发展的时期,传统媒体电子化的进程是不以任何人的意志为转移的,未来的发展前景无庸置疑。电子杂志与传统纸媒杂志相比有许多优势,而传统纸
21世纪是信息时代,全球经济一体化和信息量的迅速增长,促进企业必须走信息化管理的道路.ERP系统在企业的应用,已成为改善企业管理、实施企业管理信息化,增强企业核心竞争力的
目的:评价万汶注射液和乳酸钠林格液预扩容对连续硬膜外阻滞下剖宫产术中母体血流动力学的影响。方法:48例足月妊娠孕妇、ASA1-2级、拟急诊行剖宫产手术,随机分为4组,各12例。监
目的探讨自体疣皮下植入联合二氧化碳(CO2)激光和香菇菌多糖治疗尖锐湿疣的疗效。方法将37例患者随机分为2组,对照组采用CO2激光,口服香菇菌多糖治疗,治疗组在此基础上加用自