基于用户评论的推荐算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:quguangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网迅速发展,信息数据呈爆炸式增长。为了在海量的数据中挖掘出用户感兴趣的内容信息,推荐算法应运而生。基于用户的协同过滤推荐算法是常用的推荐算法之一,由于存在数据稀疏性问题和冷启动问题,系统的推荐效果差强人意。评论文本含有丰富的产品信息和用户观点,可以用来提高系统的推荐效果,近年来引起了学者们的研究兴趣。本文主要利用评论文本改进基于用户的协同过滤推荐算法,主要的研究内容如下:(1)深入分析评论文本的特点。传统的TFIDF算法应用于评论短文本时,重要词汇和次要词汇的词频分布差别不大,无法有效地提取出文本中的关键信息。针对该问题,本文引入评论数据集中的helpful反馈值,改进了TFIDF算法,从而区分了重要词汇与次要词汇,便于提取关键信息。(2)传统的TextRank算法在抽取关键词时,词汇节点跳转到邻接节点时均分权重,未考虑不同邻接节点的重要性差异。鉴于此,结合改进的TFIDF算法重新引导TextRank算法中权重分配的过程,提高了关键词抽取的准确性。然而,改进后的TextRank算法抽取出的关键词包含很多同义词、重复词,若不进行降维处理则会影响后续用户主题偏好相似度的计算。本文利用SVD奇异值分解算法将产品-关键词矩阵映射到潜在语义空间里,通过对产品的关键词进行语义归类来发掘产品主题分布特征。(3)针对传统的协同过滤推荐模型中用户相似度计算过分依赖用户评分的问题,将产品的主题分布特征引入评分预测模型。通过统计用户所有打分的产品的主题分布特征来计算用户间的主题偏好相似度,并将其与评分相似度相融合计算用户综合相似度。改进的用户综合相似度较之单一的评分相似度降低了评分预测的误差。(4)在亚马逊的movie&TV评论数据集上对本文提出的算法进行验证,并与三种现有算法进行了对比。实验表明本文提出的算法可以提高评分预测准确性,提升推荐质量,在一定程度上缓解数据稀性问题。
其他文献
2013年6月24日上午,山西大学文学院教授,博士生导师,著名话剧《立秋》的编剧姚宝碹教授应邀来我院,在内蒙古大学南校区艺术学院影视戏剧系戏剧综合大教室,为师生们带来了一场题为
城乡统筹的基础在于城乡经济的统筹。产业尤其是第一产业作为农村经济的载体,它的投入规模与效能直接影响着农村社会、经济的发展,同时也决定着我国城乡统筹战略的最终实现,
随着工业机器人技术的发展,机器人已进入医学领域,为众多医疗应用开发新型机器人,已成为全球机器人领域重要的研究方向。在口腔医学中,机器人已经应用于修复、正畸、种植、牙
论述了移动存储介质认证的必要性,给出了识别USB设备插拔的方法,研究分析了几种常见的认证控制方式,提出了一种基于数字证书的移动存储介质认证方法。为移动存储介质的监控管理
通过露天盆栽实验,研究了蔬菜中镉、锌、铜的形态分布及各形态随土壤中重金属添加浓度和蔬菜生长时间的变化规律.结果表明,镉主要以氯化钠提取态的形式存在,锌主要以醋酸提取
生态建设是充分利用生态系统的自然规律,是自然和人工的结合,达到高效和谐,实现环境、经济、社会效益的统一。文章提出做好环境保护、建设生态环境的重要性,分析北票市环境现
<正> 高锰钢(110Γ13Л)通常应用于制造承受冲击载荷的零件,在淬火之后为稳定的奥氏体组织。该钢制造的零件在服役中失效的主要形式是金属的压溃和接触损伤。欲改善这类破损
【正】 经济危机是資本主义发展的必然伴侶,研究经济危机对于揭示資本主义经济和政治发展的前景具有重大的意义。但是,研究資本主义经济危机,决不能只从一个国家来着眼,因为,
为了解我国奶山羊无浆体病的流行情况,应用套式PCR方法对2012年7月至2014年9月采自河南、云南、陕西共12个县区奶山羊的300份血样和204份奶样无浆体16SrRNA基因和MSP4基因进
《现代汉语辞典》将承诺解释为“对某项事务答应照办”。当承诺人做出某项承诺时,就意味着他已经订立了一项约定或合同,并许诺按照要求履行相应的责任或义务。保密承诺是指保