【摘 要】
:
用户在淘宝、京东、Amazon、豆瓣、大众点评、Tripadvisor等Web2.0应用上的评分行为产生了海量评分数据,这些数据直观反映了用户对商品或服务的评价,同时蕴含着用户潜在偏好。评分数据涉及应用广泛,具有稀疏、多维等特点,一般包括用户属性、评分对象属性以及评分值。基于评分数据对用户偏好建模,构建能描述评分数据各变量间依赖关系的用户偏好模型,对实现个性化服务、精准营销有着重要意义。此外,为了
论文部分内容阅读
用户在淘宝、京东、Amazon、豆瓣、大众点评、Tripadvisor等Web2.0应用上的评分行为产生了海量评分数据,这些数据直观反映了用户对商品或服务的评价,同时蕴含着用户潜在偏好。评分数据涉及应用广泛,具有稀疏、多维等特点,一般包括用户属性、评分对象属性以及评分值。基于评分数据对用户偏好建模,构建能描述评分数据各变量间依赖关系的用户偏好模型,对实现个性化服务、精准营销有着重要意义。此外,为了反映海量评分数据的动态演化,有必要对评分数据进行增量式建模。贝叶斯网(Bayesian Network,BN)作为一种表示属性之间不确定性依赖关系的有效框架在偏好建模中得到了广泛应用,但无法直观刻画数据中的隐含知识,属性之间的依赖关系也较为复杂。含隐变量BN(BNwith Latent Variables)用隐变量描述隐含知识,可以直观描述用户潜在偏好、增强模型的可解释性。同时,含隐变量BN可利用EM算法和SEM算法来构建。因此,本文从评分数据出发,用多个隐变量表示多维偏好,重点研究多维偏好模型(Multi-dimensional Preference Bayesian Network,MPBN)的构建及增量更新,克服模型构建中计算量随着隐变量个数增加呈指数增长的效率瓶颈。具体而言,本文的主要研究内容概括如下:(1)本文以多维偏好建模为目标,以含多个隐变量的BN作为知识表示和推理的基本框架,给出了多维偏好模型的定义。(2)针对海量评分数据的动态性、EM算法和SEM算法对初始值的敏感性,并保证大量迭代计算的高效性,给出了模型构建的约束条件和初始模型,进而提出基于约束和子图嵌套合并的多维偏好模型构建方法及增量更新方法,并利用Spark计算引擎设计模型构建的并行算法。(3)针对用户个体之间的差异,基于MPBN的概率推理,给出了一种引入用户评分行为修正估计结果的偏好估计与评分估计方法。(4)为了测试本文方法的有效性与可行性,使用MovieLens真实评分数据集对多维偏好模型的构建、增量更新、偏好和评分估计结果进行了实验测试,实验结果验证了本文方法的有效性、可扩展性和高效性。
其他文献
随着社会发展和高等教育要求的不断提升,各大高校为学生的学习和生活提供了良好的基础设施,如图书馆、体育馆等。针对这些基础设施的资源管理也变得十分重要。其中,高校体育
目的:构建兔源单链抗体噬菌体库,筛选免疫组化(IHC)用抗雌激素受体(ERα)抗体,探讨利用噬菌体展示技术筛选应用于免疫组化中高亲和力抗体的可行性。方法:用ERα重组蛋白免疫
随着多媒体时代的到来,人们对低功耗、高分辨率、宽色域的便携式显示设备的需求越来越旺盛。基于相变材料的显示技术由于其超快切换速度、高分辨率、低功耗和非易失性等卓越
在我国的行政体制中,乡镇政府是最基层的国家行政机关,是我国贯彻落实各项政策的重要基础,也是党和政府直接联系人民群众的纽带,是我们党执政的根基。乡镇公务员是政府一线工作者,是宣传和落实国家政策与方针的重要执行者,也是推进全面深化改革的重要力量。乡镇公务员长期为人民群众提供公共服务,并且承担着加强农村现代化建设、密切党群关系、维护农村和谐的重要责任,其服务质量会直接影响国家政策与方针的落实、党与政府的
本文提出了在短峰波作用下多孔介质海床土体孔隙水压力动态响应的弹塑性理论分析模型。首先推导建立了短峰波作用下海床震荡孔隙水压力与累积孔隙水压力的控制方程,设置好短
现代化强国无一不与教育密切相关,教育兴则民智启,重教育则续国力,教育是民族文明进步的基础,是国家兴旺的标杆。作为基础教育的义务教育备受社会各界关注,城乡义务教育均衡
随着视频监控的日益普及,海量的视频数据成为大数据应用的重要非结构性数据来源。自动地检测运动目标是大规模视频监控的重要研究课题,对后续的模式识别和行为分析有着重要意
氮化镓(GaN)作为重要的宽禁带半导体材料,具有高饱和电子迁移率、高热导率、耐高温和强辐射等特性,已经成为制备电力电子器件的理想材料。但是,由于难以获得高质量的单晶GaN
数据规约技术的目标是在不影响后续挖掘效果的前提下,缩减数据集合的规模,进而提高后续挖掘的性能,是知识发现过程中预处理数据的一个重要步骤。实例选取作为数据规约中的一
蛋白质的空间结构决定着其功能,其空间结构的确定非常复杂。通过前人的研究表明获得蛋白质的结构类,可以确定肽链的折叠形态,从而缩小空间结构自然搜索的范围,为其结构测定提供了方向,节省了许多时间和物力。但结构类的预测准确率一直很低,特别是在低相似性序列数据集上。导致其预测率低的原因在于用传统的方法所提取结构类序列的特征信息中有很多冗余信息。基于此,本文的工作如下:(1)提出了一种基于降维的特征融合和迭代