基于LDA模型和核方法改进的协同过滤算法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:djseagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的今天,“信息过载”问题使得人们难以在海量信息中找到真正的需求,成为新时代最重要的挑战之一。现在信息体系下,具有丰富的用户行为历史数据。推荐系统通过对此数据进行分析,从而挖掘用户的潜在兴趣,实现精准化推荐,有效过滤信息,因而具有巨大的应用价值。但是同时,推荐系统也面临着许多问题。本文主要针对数据噪声和稀疏性两个主要问题提出了改进方法。针对数据噪声问题,构造了LOF离群点检测算法。本文分别基于用户的共同项目评分和用户评分数据分布特征指标两种方法计算用户离群因子。最后通过效果对比表明:基于构建指标数据的LOF算法比基于原始共同项目评分LOF算法效果具有更优的表现。针对数据稀疏问题,构造了LDA-CF和Kernel-CF混合模型。(1)LDA-CF模型根据主题生成模型的思想,假设用户喜欢某个项目是因为喜欢某些隐含的主题,利用用户评分数据生成伪文档,计算用户下的潜在主题分布和潜在主题下的项目分布,然后根据用户主题分布相似性和项目主题分布相似性,在此基础上结合邻域方法预测用户偏好。(2)Kernel-CF模型假设用户的评分服从某一稳定的分布,利用核密度估计的方法分别估计每个用户评分分布密度函数,然后在根据用户的评分分布密度函数计算用户的相似度,最后结合邻域方法预测用户偏好。通过在MovieLens数据集上的实验验证,表明了两种混合协同过滤在RMSE性能指标上均有优于基于用户和项目的协同过滤算法。最后,本文介绍了推荐算法在课堂交互平台上的一种新型应用:利用Kernel-CF预测学生的答题得分。
其他文献
研究等离子体的径向输运过程是理解木星磁层的关键.对于木星这样一个快速自转且包含数个等离子体源的行星,由等离子体源产生的冷等离子体其所受离心力和压强梯度力相比不可忽
科舉制度創始於隋,形成於唐,至宋朝日臻成熟與完備。别頭試,又稱别試,是指將考官親戚、門客以及其他容易影響考場秩序的當地長官親故,另差官員於别處進行考試,以防止因姻親故
间接空冷技术广泛应用在富煤贫水地区的火力发电机组中。由于主要依靠环境空气对循环水进行非接触式的冷却,故环境温度、速度与风向成为影响其冷却能力的主要因素。本文首先
figla(factor in the germline alpha)是bHLH(basic helix-loop-helix,碱性螺旋-环-螺旋)家族的一员,在动物的生殖发育调控过程中起着极为重要的作用,特别是在大部分脊椎动物
目的观察实验性外斜视猫内直肌碱性成纤维细胞生长因子(basic fibroblast growth factor,bFGF)和转化生长因子-β1(transforming growth factor-β1,TGF-β1)表达变化及其与
本论文综合应用三维地震解释预测、测丼解释、岩心资料以及开发动态资料分析等方法,对杏树岗油田杏76区块扶余油层砂体发育特征及含油富集规律开展以下研究工作:首先在精确层
近十年来我国经济在逆境中依然实现了持续稳定健康平稳发展,经济的快速发展促进了电力需求不断增长。就我国现阶段的实际国情来看,大力发展超超临界机组火力发电技术对促进我
葡萄(Vitis vinifera L.)隶属于被子植物门(Angiospermae)、双子叶植物纲(Dicotyledons)、蔷薇亚纲(Rosidae)、鼠李目(Rhmanales)、葡萄科(Vitaceae)、葡萄属(Vitis),其栽培
HDD油田于1998年在石炭系东河砂岩段取得突破后,前人已对该研究区开展了多项专题研究,随着开发程度加深,有很多新的问题有待解决:对新收集岩心观察资料尚未开展深入的研究及
目的:研究NMDA诱导大鼠兴奋性损伤后GRP78在视网膜中的表达规律,探讨ERS在兴奋性损伤中的作用。方法:健康清洁型Wistar大鼠42只随机分为三组,即正常对照组6只、实验对照组6只