基于改进相似度和用户聚类的新闻推荐方法

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:fxily
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展使信息的发布和传播变得非常容易,这在带来巨大便利的同时也带来了信息过载的问题。以新闻数据为例,面对每天成千上万的新闻报道,用户如何在短时间里找到自己感兴趣的新闻是每个用户必须面对的问题。个性化推荐可以解决这个问题。个性化推荐目前已在业界被广泛应用并取得很大成效,但传统的推荐系统把追求较高准确性作为推荐目标,忽略了其他指标,导致了用户满意度不高。近些年越来越多的专家学者关注到推荐系统多样性的重要性,一般来说多样性提高会带来准确性的降低,如何在保证一定准确性的情况下提高多样性是多样性研究必须面对的问题。针对这一问题,本文以协同过滤推荐算法为基础,融合用户兴趣偏好,综合运用k-means算法、向量空间模型等方法设计了一种新闻推荐方法,主要研究工作包括以下内容:首先,改进传统的相似度计算公式,缓和数据稀疏性带来的准确性不高的问题。数据稀疏性一直是制约推荐效果的原因之一,本文利用杰卡德相似系数和热门惩罚因子对传统余弦相似度计算公式进行修正,提高稀疏数据下用户间相似度计算的准确性,进而提高推荐结果的准确性。其次,依据新闻文本特征构建用户兴趣模型,解决数据集无类别标记的问题。电影推荐可以依据电影类别生成用户对电影的类别偏好以提高推荐质量,但本文采用数据集中无类别标记。本文通过TF-IDF算法计算出关键词权重建立新闻特征矩阵,然后与用户浏览记录结合构建用户兴趣模型,进而提高推荐质量。最后,聚类及跨类选择最近邻,解决推荐列表总体多样性不足的问题。传统方法直接选择与目标用户相似度最大的前K个用户作为最近邻集合进行协同推荐,推荐结果准确性很高但多样性不足。本文采用k-means聚类算法对用户兴趣偏好聚类,然后通过在不同类内分别寻找目标用户最近邻的方法提高协同用户的多样性,进而提高推荐结果的总体多样性。本文选择DataCastle竞赛发布的财新网中10000个用户在2014年3月的新闻浏览记录作为数据集进行实验。实验结果表明,与传统推荐算法对比,本文方法在保证一定准确性的情况下,有效提高了推荐列表的总体多样性,具有更高的推荐质量。其研究成果对于新闻领域总体多样性的研究具有一定的理论价值,对发掘长尾新闻、提高用户满意度上有一定的应用价值。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
随着市场对电动汽车功能要求的不断提高,电动汽车的软硬件系统日益朝着高度集成化发展,由此所引发的安全事故也日益增多。尤其是近年来不断出现的电动汽车动力电池自燃、起火和爆炸等事件,使得电动汽车的安全性问题得到了广泛的关注。随着功能安全技术的不断发展,国际标准化组织于2018年在第一版的基础上颁布《道路车辆功能安全标准ISO 26262:2018》,该标准针对电子/电气系统故障行为可能导致的危害,提出了
写字楼是现代办公的主要场所,是公司生产力的物质基础,同时也是一种资产,是人们租赁、投资、交易的对象。我国的写字楼市场从上个世纪九十年代房地产发展以来,已经逐渐成为房地产行业的重要板块。另一方面,写字楼数量的井喷式爆发,也比较容易产生经济泡沫,我国写字楼市场已渐入存量时代,高空置率已经成为我国写字楼市场的热点话题。在未来写字楼市场里,对于高层写字楼的价值评估将呈现出一个较高的需求,因而,写字楼价值评