面向社会化媒体的内容推荐若干关键技术研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:liongliong518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以Web2.0技术为基础的社会化媒体的兴起,个体用户具备了双重角色,既是内容的生产者,又是内容的消费者。社会化媒体逐渐成为人们获取信息、扩展交际的有力工具,同时其影响也逐步扩散到社会、文化、经济和政治等方面,成为信息传播和增值的杠杆。但是由于在社会化媒体中内容呈现规模性、多样性、时效性、幂律特性、爆发性和长尾等特性,导致用户十分容易陷入到内容信息过载、内容价值各异的困境中,从而给用户选择内容、浏览内容造成困扰。传统推荐系统中,通常使用的技术为协同过滤技术,该技术基于已有的用户和项目之间的历史评分,挖掘用户偏好以寻找到偏好相似的邻居用户,以此来进行相应的评分预测和推荐。但是该类算法面临着数据稀疏性、冷启动等问题,造成算法精度不够和覆盖率低。本文以面向社会化媒体推荐为最终目的,研究多场景下如何利用社会化和上下文信息来克服传统推荐技术中的数据稀疏性和冷启动问题,并用于实际的图书馆推荐中。本文研究的场景分为以下四种:只具备用户和物品评分信息、只具备用户行为信息、具备用户物品评分和用户社交关系、具备用户物品评分及物品用户属性。在上述四种场景中分别从基于融合的推荐、基于社区发现的推荐、社区发现与协同过滤结合以及基于上下文信息推荐的四个方面出发,形成从单个推荐技术到多个推荐技术融合,并与实际应用场景相结合的综合推荐引擎。本文主要的创新点为:1)在只具备用户对物品评分数据的场景下,针对社会化媒体中单个协同过滤算法由于噪声较大而无法取得较好的性能和效果的问题,提出两种模型融合方法即建模融合和预测融合,以此对传统的单个协同过滤方法进行融合,两者融合的时间不同,一个是在建模阶段,一个则是在预测阶段。其中建模融合方法将基于邻居协同过滤中的局部相似性和基于模型协同过滤中的全局相似性进行融合,对基于模型协同过滤中的最小化目标函数进行修订;预测融合方法则是将基于多个预测结果的融合问题转换为监督学习问题,从而可以将已有的多种监督学习方法用于其中,该方法首先基于单个预测模型进行预测,然后将多个预测结果通过线性回归(Linear Regreesion, LR)、分箱线性回归 (Binned Linear Regression, BLR)和神经网络(Neural Network,NN)进行融合,以最小化误差值为目标函数,求解相应的模型参数。对实际图书馆数据集的实验结果表明,两种融合方法在图书借阅周期的预测中均较单个传统预测算法更有效果,最好的预测为RSVD-3+RSVD2-3 (NN),其预测的借阅周期误差只有11天,基于此可以制定个性化的图书借阅周期,调整图书库存保证图书资源数量。(第二章,学术论文成果[3])2)在只具备用户行为信息的场景下,针对当前面向社会化媒体的内容推荐中未能较好考虑通过用户行为的群体性发现群体兴趣的问题,提出了基于社区发现的图书推荐算法,该算法基于社区核心的扩张来进行社区发现从而实现内容推荐。基于社区核心的社区发现算法LDK(Local community Detection based on community Kernels),充分考虑具备影响力节点的作用,寻找一定数量且互相不联通的影响力节点作为社区核心,同时在社区发现中采用适应度进行扩张以保证新加入节点与社区核心的紧密度。基于LDK形成了相应的图书推荐方法RoL(Recommendation based on LDK)。基于实际的真实数据仿真结果表明,社区核心的选取大小和个数会对社区发现有一定影响;在基于RoL进行推荐中,RoL因为具备影响力核心社区的作用以及图书流行度时间维度的考虑,RoL(3)较已有的Heats在HR(Hit Rate)指标上平均提升6.58%,在ARHR(Average Reciprocal Hit-Rank)指标上平均提升5.69%,具备较好的实际应用价值。(第三章,学术论文成果[1])3)在具备评分数据和用户社交关系的场景下,针对传统协同过滤算法中未能较好利用社会化关系来解决流行物品对预测的负面影响和数据稀疏性对推荐准确性影响的问题,本文考虑将社会化因素作为重要的考虑因子与现有的评分预测和推荐算法结合,以提升算法的准确性,提出了相应的基于社区发现的邻居协同过滤算法NCFC (Neighborhood Collaborative Filtering based on Community Detection)和基于社区发现的模型协同过滤算法SCR(Socialized-community-based Regularization)。为了在有向加权网络中进行社区发现,对相应的LDK算法在节点影响力评估和适应度函数上进行了修正。NCFC基于社区发现结果来计算用户全局相似度,结合传统的相似度来克服稀疏性问题,该算法可以适用于点击型推荐和连续型评分预测中,其中在点击型推荐中,NCFC在HR上的平均性能较RoL(3)高6.82%,且其性能波动较RoL(3)降低了17.43%,说明NCFC算法的性能高于RoL(3),且具备更好的稳定性;连续型评分预测中,NCFC较ICF在MAE (Mean Absolute Error)和RMSE (Root Mean Square Error)上分别提升3.87%、2.79%。SCR则是通过社区发现对正则邻居做了限定,较已有的ASR(Average-social-based Regularization)在MAE指标方面提升可达5.83%;在RMSE方面性能提升可达6.01%。(第四章,学术论文成果[2,5])4)在具备评分数据和物品用户属性信息的场景下,针对当前推荐算法未能较好利用物品与用户属性上下文信息进行内容推荐的问题,本文充分考虑上下文特征,将上下文特征信息与传统的协同过滤结合,提出了基于上下文的邻居协同过滤算法PLHS (Prediction based on Linear Hybrid Similarity)和CPHS(Cascade Prediction based on Hybrid Similarity),和基于上下文的模型协同过滤算法SLUC(Sparse Linear based on User Context)。其中PLHS和CPHS均将基于评分的相似度和基于上下文的相似度进行合并,然后用于预测和推荐中,CPHS对邻居数进行了一定限定。基于对实际数据集的实验表明,CPHS较已有的RPBC (Rating-personality based Cascade Hybrid Approach)算法在HR指标方面提升了5.4%,在ARHR(上提升了3%。SLUC是对已有算法SLIM (Sparse Linear Method)的拓展,在目标求解函数中添加对用户上下文特征的正则项,并设定相应的正则因子,基于实际数据的仿真表明,该算法较已有的SLIM有更好的性能,在数据集ML100K和图书馆数据集上,SLUC较SLIM在HR和ARHR上都有明显提升。(对第五章,对应学术论文成果[4])
其他文献
本文通过对圆周均布螺栓群在偏心受拉载荷作用下的受力分析,根据载荷的分布规律和特点,推导出精确、简便的计算公式,并给出了算例。
射频识别技术(Radio Frequency IDentification, RFID)是一种利用电磁耦合与后向散射进行通信的非接触式自动识别技术。作为物联网的关键支撑技术之一.RFID已在各行各业中得
目的探讨超声检测静脉导管对孕11-14周胎儿先天性心脏畸形的诊断价值。方法对孕11-14周的1800例胎儿检测静脉导管频谱及血流参数,并与胎儿先天性心脏畸形的相关性进行分析。
本文利用生态相容性来评价操作者内在意境模型与实际环境是否相一致是一种新方法.它可以评估、对比操作者的内在意境抽象模型和环境的抽象模型.同时,生态界面设计也将意境模
云南省景洪农场百香果苗圃基地大棚里,百香果长势喜人。苗圃基地负责人介绍,该农场兴龙公司积极培育新产业,在十分场九队建设百果园基地420亩,目前第一批200亩百香果已定植完
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
对于信息,不同学科可以作出不同的定义.本文从人的认知活动角度给出了信息的理论定义,认为信息就是传递中的知识差,并对信息的数理模型进行了分析.
以《药物分析杂志》《中国药事》编辑团队建设为例,论述对学术期刊编辑业务能力的认识,并介绍编辑能力培养所采取的措施。 Taking the example of the editorial team of “