基于用户聚类和时间隐语义模型的电影推荐系统研究与应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:lwsea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的飞速发展,数据信息也迎来了爆发,人们很难从海量的数据信息中快速找到自己想要的内容,面临着数据过载带来的诸多问题。此类问题在众多电影视频网站中尤其明显,用户无法快速查询到自己感兴趣的电影信息,从而为此耗费了大量精力。随着推荐系统相关技术的日趋成熟,信息过载等问题正慢慢得到缓解。推荐系统技术的目的是主动向指定用户引荐潜在感兴趣的项目。协同过滤算法作为推荐技术中应用最广泛的算法之一,随着个性化推荐技术的不断创新和发展,也暴露出越来越多的缺点,例如数据稀疏、扩展性差等,传统的协同过滤推荐算法已无法满足个性化项目推荐的应用需求。本文针对传统协同过滤算法存在数据稀疏情况下推荐准确率低以及处理较大数据量时效率降低、可扩展性差的问题提出一种融合算法,将用户聚类和隐语义模型相结合,提出基于用户聚类和时间隐语义模型的推荐算法R-CTLFM(A Refined Recommendation Algorithm Based on User Clustering and Time Based Latent Factor Model)。在解决数据稀疏性和可扩展性差的问题时,考虑到项目点评时间对推荐效果的影响,引出时间函数,并将其融合到评分预测算法中。论文研究内容如下:(1)考虑时间因素对评分预测的影响,提出融合时间函数的隐语义模型。分析时间因素对用户评分的影响,结合艾宾浩斯遗忘曲线提出时间指数函数,以此提高用户近期评分的时间权重,并融合隐语义模型对所有聚类中的用户评分稀疏矩阵进行评分预测,大大降低了聚类中用户评分数据的稀疏性,考虑了时间因素对用户的兴趣偏好的影响,最终通过实验对比并确定时间隐语义模型的实验参数。(2)针对数据稀疏和可扩展性差的问题,提出基于用户聚类和隐语义模型的协同过滤推荐算法。考虑到k-means聚类算法容易陷入局部最优解的问题,结合蚁群算法分布式搜索的特性对其进行改进;基于用户的特征属性通过改进的k-means聚类算法对用户进行聚类,解决了新用户登陆的冷启动问题,使得用户之间的相似度计算范围缩小到具有相同特征属性的用户簇中,大大减少了计算用户相似度所需要的时间。同时考虑长尾效应,在计算用户相似度时加入热门惩罚因子,降低热门项目对用户相似度推荐的影响。通过在Movie Lens数据集上进行实验对比,R-CTLFM推荐算法相较于其它两种算法的RMSE值平均降低了1.18%和0.87%,推荐的准确性有所提高。(3)本文采用R-CTLFM算法设计实现了个性化的电影推荐管理系统。该系统基于B/S架构,利用JSP、Servlet等技术开发实现了首页个性化推荐、用户自我管理和管理员后台操作等基础功能界面,能够实现根据不同的用户的特征属性和评分操作进行个性化推荐,验证了推荐算法的可行性和实用性。
其他文献
哮喘是一种慢性气道疾病,其特点是由气道变窄、气道壁腔室增厚和粘液增多引起的气流受限。目前医学领域虽有针对哮喘病的检测技术,如血气分析、肺功能试验等,但这些检测大多费时费力且存在漏诊、误诊等问题。随着人工智能的迅速发展,将信息技术应用到哮喘病的检测与治疗正逐渐成为一种趋势。本文利用哮喘检测常用的血常规作为输入数据,尝试构建一种基于改进模糊支持向量机的哮喘病诊断模型,提高哮喘诊断的准确率。首先提出一种
随着我国手机产业突飞猛进地发展以及其它电子产品销量的高速增长,传统需要点胶的场合逐渐被工业点胶机器人所取代。但现阶段视觉点胶机器人基于二维图像实现引导定位、点胶、贴装、质量检测等系列功能,无法实现高度信息的获取。为了实现视觉点胶机器人对作业工件三维空间信息的获取,增强点胶设备检测能力,提高视觉点胶机器人自动化程度。本文在常州铭赛机器人科技股份有限公司CC600项目研究经费资助下,以VS300C视觉
在众多超级电容器电极材料中,法拉第赝电容型电极材料因发生快速、可逆的氧化还原反应而具有优异的电容量。作为法拉第赝电容型电极材料之一的金属氧化物,例如VO2和V2O5,在拥有较高比电容的同时,存在着层状晶体结构易崩塌、颗粒易堆聚、电导率低而导致的较差倍率性能和循环稳定性等问题。通过材料改性,优化结构,或与其他导电性优异的物质进行复合,可实现VO2和V2O5的电化学性能的提升。在本论文中,引入具有三维
数据挖掘领域中有一项重要的技术就是模糊聚类算法。模糊聚类算法作为一种无监督的机器学习方法,能够将未标记的样本数据划分成多个簇,并使同一个簇中的样本数据之间相似性尽可能大,不同簇中的样本数据之间相似性尽可能小。距离度量是衡量各个样本数据点之间相似程度的重要因素,因此模糊聚类算法的聚类性能在很大程度上取决于距离度量的选择。然而在面对不同的数据特征时,基于欧氏距离度量的模糊聚类算法往往不能得到较佳的聚类
工业4.0时代下,传统产业纷纷向智能制造生产方式转型。唐山日用陶瓷行业作为地方支柱产业,面临转型升级的压力和机遇。一方面,多样化的订单使得陶瓷生产向多品种、少批量的方向发展,而种类多、工序繁杂和生产周期长的特点致使业务人员订单排程决策周期过长,导致无法按时交货且经常发生溢短装现象。另一方面,作为陶瓷烧成工序的大型核心设备,工业窑炉在生产中发生的故障往往具有非线性、非精确及多参数等特征,而人工诊断处
作为一种半封闭生态系统,温室虽然能够减轻传统农业受外界环境的约束和依赖,但其自我调节能力有限,内部环境的优劣对于作物生长、病虫害防治、节能减排等影响显著。运用先进建模与优化技术,针对温室内环境进行合理调控与优化能有效改善作物生长条件,促进作物增产,同时节约能耗,对于促进设施农业进一步发展具有重要的现实意义和实际应用价值。本文考虑温室环境的时空变异特性,通过构建温室的计算流体力学(CFD)模型,结合
电化学发光(ECL)方法同时具备电化学的高可控性与化学发光高灵敏度,特别适用于组分复杂和超低浓度的物质分析。近年来,ECL传感器由于具有简单、快速、灵敏度高、可控性强等优点,在食品安全监测及疾病的早期诊断中发挥着重要的作用。然而,目前在构建高灵敏ECL传感器时仍然面临以下几点挑战:(1)ECL发光材料的制备大多依赖昂贵的原材料,亟需发展绿色经济环保的发光材料;(2)已构建的ECL传感器的检测灵敏度
规范型理论由Poincare提出使用扰动方法来简化分析非线性问题,是研究非线性系统平衡点附近的分岔行为的有效工具。本论文研究了一种计算方法和符号计算程序,用来计算n维常微分动力系统的平衡点Jacobi矩阵含有一对双零特征值和一对纯虚根特征值的规范型。计算程序由符号计算语言Maple编写来展示该方法的有效性。此迭代程序可以由不懂计算原理的用户自动执行,得到给定阶数的规范型及其对应的非线性变换。接着,
电动汽车是一种以动力电池驱动的,清洁、高效的新型车辆,可以实现尾气的零排放,减少对空气的污染。荷电状态(State of Charge,SOC)可以简单的理解为电池的剩余电量,需要由电池管理系统根据电动汽车传感器采集到的相关信息间接估算获得而不能直接测量,这与燃油汽车有很大的不同。SOC估算精度过低会导致电池在使用过程中过度充电或放电,进而影响电池的寿命和利用效率,所以SOC的准确估算有着重要的实
癌症是人类面临的严峻的健康问题,传统的抗生素类药物治疗很可能引起肿瘤耐药,而光动力疗法具有无创、危害小、无耐药等优点,已成为生物医学、环境科学和材料化学领域的主要治疗方法。BODIPY染料具有较高的荧光量子效率、较大的摩尔消光系数、易于修饰和肿瘤线粒体成像的特性,是一类有运用前景的光敏剂和影像剂。脂肪酶在肿瘤中高表达,并且脂肪酶识别的染料具有肿瘤选择性。因此引入脂肪酶识别的天然产物或官能团来修饰B