基于Web日志挖掘和关联规则的个性化推荐系统模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:comeon833833
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,互联网提供的丰富信息在助推社会产业部门升级的同时也带来了一些问题,如信息的急速增长易产生大爆炸效应,造成“信息过载”。同时,为了对互联网用户提供更加全面的信息资源,网站经营者和管理者不断向Web站点中添加信息,这就使得Web站点的拓扑结构日益复杂化。由于向Web站点新添加的资源可能不符合用户的真实需求,易造成用户浏览Web站点时出现“资源迷向”。因此,如何从海量的数据中发现人们感兴趣的信息是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。Web挖掘是一项综合技术,它涉及Web技术、数据挖掘、信息学、计算机语言学等多个领域。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web使用挖掘,智能查询,建立Metaweb数据仓库等。Web使用挖掘就是从服务器日志中发现用户行为特征和导航模式。本文系统阐述了数据挖掘、Web挖掘以及Web使用挖掘的整个流程,重点研究了Web日志预处理过程、关联规则挖掘模型和滑动窗口推荐模型三方面内容。首先,Web日志预处理过程包括:数据清理、用户识别、会话识别、路径补充和事务识别。经过预处理阶段,可以从用户访问信息中去除大量无关的数据,同时也对Internet上的用户访问信息进行结构化处理,并将其以事务或会话的形式保存在关系数据库中。然后,对预处理后的数据,本文采用加权关联规则对其进行挖掘。经典的关联规则挖掘算法Apriori不仅能够发现Web访问页面之间的相互联系,而且对发现用户偏好导航模式有重要作用。但是,将Apriori算法应用于Web日志挖掘也有其主观局限性。Apriori算法隐含的假设是所有页面的重要性是相同的,它并没有考虑到页面之间的差异性,因此,使用该规则挖掘出来的数据中可能会遗漏掉某些用户感兴趣的页面。针对Apriori算法在Web日志挖掘应用中存在的不足,本文引入“页面权值”这一概念,它反映了用户对页面的真实喜好。根据页面权值的定义,我们综合考虑用户对页面的浏览时间和访问频次两个因素,并在此基础上提出了W-Apriori算法。该算法采用扩展布尔矩阵的表示方式来描述事务数据库,这样有助于事务数据库的压缩。同时,权值的引入也有利于区分页面之间的差异,有效地解决了挖掘过程中遗漏某些重要页面的问题。最后,本文将挖掘得到的规则形成规则库,结合使用滑动窗口技术,设计实践基于关联规则挖掘的Web日志推荐模型。该模型不仅能够有效解决“信息过载”和“资源迷向”等问题。而且可以将用户感兴趣的页面推荐给相关Web用户,实现推荐的个性化。
其他文献
目的:至今关于造影剂肾病(CIN)的诊断标准没有统一意见,对于目前国际上广泛应用的定义是欧洲泌尿生殖放射学会于2005年发布的造影剂指南:于血管内应用造影剂3天出现的肾脏损害,主
将海上补给路径规划问题(URRP)与传统的旅行商问题(TSP)进行比较,分析了它们之间的联系与区别。在此基础之上,应用一种改进的TSP问题,对海上补给路径规划进行了数学描述。针
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着人类社会的进步和经济的快速发展,人类对矿产资源的需求量不断增加,而传统矿产资源具有不可再生性,而且大量的开发利用会严重破坏环境,绿色矿产不仅包括能源矿产而且还包
随着城市化的发展,带来城市人口的猛增,随之接踵而来就是交通拥堵,道路拥堵,出行难度大已经成为每一名上班族每天都讨论的问题。这种现状下,反而给城市轨道交通的发展带来了
作为中心血站及时准确地了解掌握临床单位用血量状况,对于本地区血液资源合理利用、无偿献血工作的推进以及科学合理用血都有重要现实意义。现将2003年至2007年本血站向秦皇岛
LTE(Long Term Evolution),是目前无线通信领域里最热门的研究方向之一。LTE是由3GPP组织制定的4G全球通用标准,主要应用于手机及数据卡等终端的高速无线通讯。为了满足高速无
目的探讨胸部刀刺伤致胸廓内血管破裂的临床特点,诊断与急救治疗.方法对我院1992年10月至2004年10月收治的24例胸部刀刺伤致胸廓内血管破裂的救治进行回顾性分析.结果 24例患