基于海量数据内容的推荐系统研究

被引量 : 3次 | 上传用户:w66827552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代,越来越多的人喜欢从百科类网站上获取知识,然而互联网信息爆炸问题已经严重影响到了百科类网站的信息质量。每日不断激增的数据给词条的编纂工作带来了重重困难。繁重的更新维护工作已经不再是简单的人工就可以完成,这就需要搭建一个推荐系统来解决该问题。推荐系统可以从来源众多的互联网数据中找到和对应词条相关的数据,及时推荐出来。KBA2012评测就是针对这些问题提出的,评测的任务是为维基百科中的实体推荐与其相关的文档。论文研究分析了实体链接和文档排序法、跨语言词典检索法、随机森林文本分类算法等方法。论文工作中作者首先采用了查询扩展方法来进行。对原始数据集进行预处理后,用Indri动态文档索引技术建立全文索引,之后使用改进的TF-IDF公式计算实体的查询扩展词。使用查询扩展词去索引中检索相关文档,通过计算相关文档与实体文档的杰卡德系数,从而得出最终的相关文档集。查询扩展方法得到结果的Fl值较低,在此基础上,论文采用将KNN并行算法部署在Storm分布式集群上来进行。论文对海量的评测数据集进行了特定的文本预处理。通过特征词提取、文档的特征空间表示、文档间相似度计算和分类决策,实现了KNN并行算法。论文将KNN并行算法的拓扑结构部署在Storm集群上,调整集群的参数使得集群效率达到最大化,从而实现了本文的分布式推荐系统。论文工作通过调整算法中的配置参数进行了多组实验,对多组实验结果和KBA2012评测中给出的官方结果进行了比较分析,本系统得到了较好的相关文档推荐结果,验证了该海量数据推荐系统的有效性。
其他文献
【目的】从葡萄中克隆并鉴定KEA家族基因,在转录水平探索其组织特异性表达特征及对缺钾、脱落酸(ABA)、氯化钠(NaCl)与山梨糖醇(sorbitol)等胁迫的响应情况,明确主效基因。【
随着农村地区改革与建设的推进,农村社会的多元化发展以及农民生活水平的日益提高,乡镇政府的工作重点正逐步转向公共服务。乡镇政府处于当代中国政府层级体系的一个相对独特
利用交联反应在PVDF超滤膜表面创新性的构建含有萃取剂磷酸二异辛酯的聚二甲基硅氧烷-正硅酸乙酯体系萃取凝胶膜(EGM);并对其基本物理化学性质进行了表征.研究了EGM过程中料液
鸡蛋含有丰富的蛋白质、脂肪、维生素和铁、钙、钾等人体所需要的矿物质,其蛋白质是自然界最优良的蛋白质,对肝脏组织损伤有修复作用;同时富含DHA和卵磷脂、卵黄素,对神经系
目的探讨CT冠状动脉成像(computed tomography coronary angiography, CTCA)与钙化积分(coronary artery calcium scoring, CACS)对可疑冠心病患者预后的预测价值。材料与方
本文研究旨在从党务公开的视角探索党的执政能力建设,试图通过阐释党务公开的由来,界定党务公开涵义,揭示中国共产党党务公开对推动政党转型、执政模转换和执政能力现代化的重要
物联网描绘了一种能够实现人和物、物和物之间的自动化信息交互和处理的智能网络蓝图。M2M(Machine to Machine)作为物联网的一种实现技术,已经得到了广泛的研究,各项技术以及标
近年来随着国家经济建设的快速发展,桥梁、地下空间、高层超高层建筑等工程项目的数量与规模急剧增加,建设标准日趋严格,对桩基技术的研究与应用也提出了更高的要求。本论文全面
皮肤光老化(skin photoaging)是一个与皮肤损伤有许多病理学相似点的复杂过程,在组织病理学上主要表现为胶原成分的减少和弹性纤维变性沉积等皮肤基质构成成分改变。外在的老
过去的很长一段时间里,百货商场在我国整个零售业处于主导地位,拥有大量的顾客。随着零售行业的发展,各种新兴零售业态诸如专卖店、折扣商店、网络商店的崛起,使得我国百货业