基于流行标签与连边社团的协同过滤算法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:cqssq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网+时代的到来驱动了人类对信息的新需求,改变了人们与世界互动的方式,如何帮助用户准确、高效、全面地获取所需信息成为研究热点。作为用户获取信息的一种方式,推荐系统在信息查询和获取方面起着举足轻重的作用,推荐系统通过分析用户的历史行为为其提供感兴趣的信息服务。本文在对现有推荐算法进行认真分析和深入研究后,提出了基于流行标签与连边社团的协同过滤算法并在Spark平台上进行了验证,实验结果表明该算法可以有效提高推荐的准确性。论文的主要工作如下:首先,针对数据的稀疏性,本文重点研究了基于标签的协同过滤推荐算法。通过基于流行标签来表示用户所使用的每一个普通标签,进而最大程度地保留用户的完整信息和个性化信息,同时降低了建模维度,缓解了因数据稀疏性导致推荐效果不理想的现象。其次,针对数据的冗余性,提出了改进算法:即基于连边社团检测算法对用流行标签表示的普通标签进行聚类。由于常规的聚类算法只能把一个标签划分到一个类别,而实际应用场景中往往存在着一词多义的模糊标签。连边社团检测算法能够有效发现重叠簇,找到一词多义的标签,再考虑与该标签具有连边关系的其他标签所表达的含义,判断该标签的真正含义以及所属的类别,有效解决了标签的冗余性,提高了推荐结果的质量。另外,考虑到数据处理速度较慢、实时性不高、可扩展性较低等问题,本文将改进算法在Spark平台上进行了实现。当数据规模巨大时,相对于Hadoop平台,Spark平台拥有更高的运行效率、更高的实时性和可扩展性。最后,本文对比了基于普通标签的传统聚类算法和基于流行标签的连边社团算法,并利用准确率和召回率两种指标对其进行评价。实验结果表明,本文采用的改进算法可以有效提高推荐结果的准确度;同时,基于四个不同规模的MovieLens数据集,分别在Hadoop平台和Spark平台进行了对比实验,数据显示当数据量越大时,Spark平台在处理速度、可扩展性方面比Hadoop平台的优势更大。
其他文献
润湿效应在各行各业中都有着重要的应用,其研究基于一般液面形状对接触角、液体表面张力等参数测量,从而反映固态材料表面特征、流体特征。光学测量方法具备高精度、无损、非
人群异常事件检测研究通过计算机自动识别监控场景中发生的异常事件并及时报警。本文对人群异常检测事件中人群之间存在阴影和异常种类多样的问题进行了研究,提出了基于分块V
研究背景与目的:人工关节置换术失败的一个重要原因是由钛颗粒刺激的假体周围骨溶解和随后的人工关节无菌性松动。本研究的目的是研究鱼藤素对破骨细胞分化和由钛颗粒介导的骨溶解的影响。我们已经证明,从豆科植物中提取的天然成分鱼藤素对由钛颗粒刺激的小鼠颅盖的溶解具有显着的抑制作用。进一步的组织学分析表明,预防钛颗粒诱导的骨溶解的关键是抑制破骨细胞的分化和功能。我们发现鱼藤素可以通过诱导核因子-κB受体激活剂配
种群遗传多样性与遗传结构是保护遗传学的重要研究内容。本研究利用线粒体DNA和12个微卫星位点分析了雕鸮(Bubo bubo)东北与华南亚种种群遗传多样性与遗传结构。研究目标是:1
苯基聚硅氧烷由于具有优异的耐高低温、耐辐照、阻燃以及高折射率等性能,在航空航天、电子电气等高技术领域得到了广泛应用。目前所报道的苯基聚硅氧烷材料通常是由开环共聚
情感分类旨在利用计算机技术充分挖掘和判断文本发布者的情感态度,为决策者提供有价值的参考信息。但相关技术高度依赖训练语料的质量和数量,而国内外有效的高质量分析语料、
目的糖尿病现已成为危害人类健康的重要疾病之一,随着人们生活水平的提高和生活压力增大,以及遗传因素的影响,糖尿病的发病率正在日益增加。糖尿病发生发展的主要因素之一就是因为体内胰岛素分泌不足所导致的。针对此病虽然已有多种治疗的方法,但是这些传统的治疗方法不能从根本上治愈患者,导致患者终身依赖药物治疗,寻找全新的替代疗法已成为人们的主要攻克方向之一。胚胎干细胞分离自着床前的囊胚内细胞团细胞,在体外可以进
生物被膜(Biofilm)是由微生物形成的被其自身分泌的胞外基质所包裹的一类群体,这种特殊结构能够抵御不良环境的影响,从而有助于微生物自身的生存。副溶血弧菌(Vibrio parahae
在人口老龄化发展的社会背景下,心血管疾病患者人数一直处于增长趋势。心房颤动作为心血管疾病中最普遍的一类心律失常,威胁着国民的生命健康,也是心律衰竭和脑卒中等重大心脏疾病的诱发因素。房颤患者的心电信号中包含着反映患者心房活动的信号,也就是房颤信号(f波)。从房颤患者的心电信号中提取f波有助于对房颤的研究和临床诊断,在医学研究上具有重大意义。针对目前临床上对f波提取准确性的要求,本文对f波提取算法做了
金属-有机骨架(MOFs)材料是一类以中心金属或金属簇为节点,有机配体为连接单元,通过配位键作用所形成的新型有机-无机杂化晶体材料。该材料往往具备较大的比表面积、灵活可调的