基于用户浏览路径的Web用户聚类研究

被引量 : 0次 | 上传用户:water198206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,Web在信息共享、电子商务和提供在线服务方面得到广泛的应用。越来越多的人利用Internet来查找自己所需要的信息,如何帮助用户快速的查找到自己想要的信息,满足他们的个性化需求便成为现代网络技术关注的重要问题。为解决这一问题,研究人员提出了Web用户聚类方法。Web用户聚类通过对相似用户归类,了解用户群体的需求和兴趣,从而为用户提供更优质的服务。Web用户聚类主要是对Web日志进行挖掘,主要包括三个步骤:首先对日志进行预处理提取用户的特征;然后根据用户特征计算用户间的相似度;最后进行用户聚类。用户特征的提取和用户相似度计算在聚类过程中非常重要,它们的好坏直接影响用户聚类的效果。目前,用户特征或者采用用户会话路径来表示,或者采用事务识别出的目标页面来表示,但是会话路径粒度通常太大,目标页面也很难发现用户的浏览行为;相似度计算时,已有方法主要进行集合之间的交集运算,还有方法提出采用平均停留时间来计算相似度,但这些方法都不能很好的发掘用户的真正兴趣。针对上述的问题,本文提出一种新的用户特征表示方法,采用事务识别提取的路径来表示用户特征。它比用户会话路径粒度小,同时弥补了目标页面表示用户特征的不足,能很好的发现用户的浏览行为。并以此为基础,提出一种新的相似度计算方——WUSC(Web UserSimilarity Calculating)。该方法将事务路径看作一个有序序列,考虑用户问路径上的相同部分和整条路径的关系,并充分结合用户浏览路径上的停留时间来计算用户间的相似度。用户浏览路径上的停留时间主要通过路径上各个页面停留时间来计算,页面停留时间指下一页面开始访问的时刻减去本页面开始访问的时刻,这种停留时间计算方法能较真实地反映用户的兴趣。最后,在新的用户特征表示方法和WUSC方法基础上,使用UBPC聚类算法完成基于用户浏览路径的Web用户聚类,并进行对比实验。实验结果证明:本文方法对用户相似度的计算更接近真实的情况,能够达到提高Web用户聚类的效果。
其他文献
合作学习作为一种新型的、行之有效的教学模式被广泛地应用课堂教学中.相比于传统的个体学习,合作学习注重师生之间,生生之间通过共同的努力完成任务,要求学生个体与合作伙伴
果树修剪是果树科学管理的一个关键环节,直接影响着果实的产量。本文以果树修剪技术要点为研究对象,从果树修剪的意义出发,简要阐述了果树修剪技术的要点及修剪时的注意事项,
近年来,国际间的交流与合作日益增多,学习英语成为21世纪人才的基本要求之一。然而,英语学习在很大程度上与学习动机密切相关,只有当学习者积极主动的想学而又善于利用合理的
21世纪,世界进入了知识经济的时代,人力资源成为第一资源,优秀的员工成为企业竞争取胜的关键因素。企业要成为学习型、创新型企业,就必须加强、重视员工培训体系建设。中小企
陕西是古代丝绸之路的起点,具有发达的交通网络、丰富的能源资源和深厚的文化底蕴,区位优势明显,加快建设丝绸之路经济带新起点意义重大。陕西应充分发挥自身优势,加快改进经
家族企业主要是指由一群具有血缘关系的人,共同创立和经营的企业,企业所有权完全由家族所有或绝对由家族控股。家族企业本质上是家族与企业的统一体,家族企业就是“家族+企业
改革开放的持续深化大幅提升了我国总体经济实力和综合国力,在加快我国向小康社会迈进的同时,我国也进入了急剧的社会转型期。所有制结构、组织形式、就业方式、利益关系、分
都市生态农业,产生在具有较高的城市化水平的大都市周边地区及其辐射地区。都市生态农业的发展遵循经济效益、生态效益、社会效益相统一的可持续发展原则,以都市文明为依托,
近年来中欧之间的贸易飞速发展,同时中国与欧盟的贸易失衡呈现不断扩大的趋势,欧盟内部的贸易保护主义倾向日益增强。中欧贸易摩擦的加剧不仅制约了中国出口贸易的发展,破坏
根据科学性、客观性和可行性原则,从政府宏观调控、资源现状和服务水平三个层面设计了5个综合性评价指标,并选取2003年、2006年、2009年三个时间节点,构建起职业教育评价指数