论文部分内容阅读
电子商务在人们日常生活中扮演着越来越重要的角色,人们越来越习惯于网上购物,研究者获取例如在线评论等用户的主观观点数据也变得越发的容易。但由于交易量的爆发式增长,留存海量信息的同时也产生了信息过载。面对海量数据,建立一个高效有用的过滤机制去发现有用的信息就显得尤为重要,于是人们越来越重视对于推荐系统的研究。推荐系统是利用用户的历史数据向其提供商品信息和建议,辅助用户购买所需产品的系统。个性化推荐是根据用户的某种特点和行为,定制化的为用户推荐感兴趣的信息和商品。作为推荐系统的经典方法,协同过滤分为基于用户(User CF)和基于物品(Item CF)两大类。早期的协同过滤通过计算用户评分相似度进行推荐,并没有考虑到用户或商品的特征的细粒度分析,其只能包含用户对于产品的整体态度,而不能体现用户的个性化因素,亦不能包含产品在某方面的独特性。而商品评论中往往包含用户对于产品的偏好以及对于商品某方面带有情感极性的评价,也会更大程度上影响用户的购买行为,所以使用基于内容的观点挖掘的方法能够比基于评分的方法有更好的推荐精度。虽然目前基于物品的协同过滤算法已经转向从产品特征的角度进行研究,但只是单纯的研究产品之间的某方面相似度,很少有人结合人与物品的关系,即用户需求与某一特征之间的关系进行考虑,这种关系体现在对物品相似度的衡量需要选取用户真正需要的特征而不是全部的特征。这种考虑的缺失也影响了推荐系统的性能。在影响性能的同时,另一个问题是推荐算法不具备可解释性。以往的推荐系统是将人或物向量化,单纯的计算空间距离得出相似性进行推荐,其只能用数学逻辑解释而没有现实场景的因素作支撑。而卡诺模型的需求分组能力恰好能够解决以上这两个问题。本文以此为背景,做了以下三方面的工作:1)本文以推荐算法、情感分析、卡诺模型三个方面进行了文献综述。其中推荐算法部分详细介绍了协同过滤算法的原理、研究现状和常见问题及解决方案。情感分析部分分别从篇章级、句子级、词汇级的具体研究问题与当前已有成果进行述评。卡诺模型部分详细的介绍了其原理和应用方式、卡诺模型所应用的领域以及对本领域的研究现状。2)为了解决前述问题,本文在基于观点挖掘的协同过滤基础上,引入了卡诺模型处理特征情感分组问题。该算法通过情感分析的方法来计算用户对于从评论数据中的特征的情感极性,并结合模糊卡诺模型对特征按需求程度进行分组,使用高需求的特征来代替全部特征度量产品相似度,一方面缓解了协同过滤稀疏性,另一方面提高推荐系统效果和效率。3)本文提出的方法,在相似性的度量上,特征选择是基于用户的个人需求的,是以先场景后建模的一种方式进行相似度计算,卡诺模型的使用也使推荐系统从单纯的计算结果推荐变得具备了可解释性。本文将提出的算法模型应用到实际场景中,使用Amazon公开数据集进行验证,选择了音乐设备和智能手机两个品类分别进行实验。最终的实验结果表明针对于传统协同过滤算法,推荐效果在推荐速度和推荐精度均有提升。同时为了证明卡诺模型在该领域应用的合理性,进行了相关实证研究。