基于Spark平台的知识库推荐系统的设计与实现

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:szm2009szm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,文献资料的数字化越来越普遍,电子文献数量不断剧增而带来的信息过载现象同人们对知识的获取之间产生了矛盾。通告、图书文献、科技成果、函件、政策解读、法例、工作报告等未经过人工加工整理的文献占支配地位,导致资源太过分散。在大数据背景下,给知识的精准获取带来了难度。因此,研究如何有效的共享知识、检索知识和获取知识,对现代化的政府部门具有重要意义。
  针对以上问题,结合政府知识库的特点,参考推荐系统的通用设计方案及相关理论和技术,在开源搜索引擎下,以政府站内共享知识库为背景,提出一种基于文本内容分析和用户行为标签的推荐系统。并在Spark平台中实现算法的并行化,解决海量用户数据处理的问题。
  本文首先研究用户行为数据的采集与兴趣分析。在全文检索背景下,通过分析用户的行为蕴含什么信息,包括哪些内容,并针对不同的用户产生的行为类型,采用不同的采集方式,得到用户行为数据后研究哪些用户行为能更好的反映用户爱好。其次,针对用户兴趣时变性,分别设计了基于文本内容分析模型和用户行为标签模型来解决长久兴趣和即时兴趣。而用户爱好、兴趣多变性表现在用户行为特性中,在此特性下提出了一种基于检索词的用户爱好、兴趣分析方法。其中,文本内容分析模型基于文本内容相似性来进行推荐,本文提出一种基于TF-IDF的改进文本内容相似性的计算方式,可以缓解冷启动问题。而用户行为标签模型将文本进行k-means聚类分析获得文本标签,并结合用户兴趣,转化为用户行为标签,以用户行为标签为基础,提出了一种改进的混合属性的用户相似性的判定方式,使推荐结果具有新颖性。
  最后,研究基于Spark平台的算法并行化实现,完成政府站内共享知识库的推荐系统的设计与实现。并通过实验测评结果表明:本文提出的基于文本内容分析和用户行为标签的混合推荐方式比传统的推荐方式具有更好的个性化推荐准确率和召回率。
其他文献
本文主要研究一种确定性全局优化算法——区间优化算法,相对于点优化算法,区间数能够表示数据的不确定性,可以得到数学意义上严格的运算结果,区间优化算法能够为复杂的工业过程提供更宽的可行域,可以有效降低扰动以及噪声的影响,适合解决复杂工业过程控制中的优化问题。  传统的区间优化算法基于分支定界的思想,使得算法存在相关性问题和维数灾难问题。相关性问题是由于区间运算的特点以及目标函数的非线性因素造成的,只能
信息物理系统(Cyber-Physical Systems)是具有高效能网络化的智能信息系统,它通过一系列计算单元和物理对象,在网络环境下的高度集成与交互,来提高系统在信息处理、实时通信、远程精准控制以及组件自主协调等方面的能力,是时空多维异构的混杂自治系统,具有实时、安全、可靠、高性能等特点。由于其自身的分布式结构及其复杂性,导致CPS容易受到网络攻击,网络攻击会造成不可估量的损失,因此必须在C
矿产资源是工业生产的重要原料,广泛应用于如建筑、通讯、运输、航空等许多行业。虽然我国铁矿石总储量较高,但由于矿石类型复杂,氧化矿、多金属共生矿石及难选矿石多,因此几乎所有的矿石都需要经过选矿处理。选矿生产过程是典型的流程工业,具有多工序、设备复杂、生产线长的特点,选矿的主体生产设备在选矿企业可持续发展战略中起着越来越重要的作用。此外,随着信息化与工业化的深度融合,减弱了控制系统及SCADA系统等与
学位
目前为止,人类依然无法摆脱对自然资源的依赖,石油、煤浆,天然气等自然资源的运输大部分是采用管道运输。管道的安全运输对一个国家的经济发展起着重要的作用,在战时还是十分重要的战略通道。然而管道一旦发生泄漏,若未及时的发现并加以修复,泄漏不仅会造成经济损失、环境污染,而且可能危及人民生命安全,甚至造成灾难性事故。现在应用于管道泄漏检测的系统大多存在体积大、成本高的问题,故设计出一套体积小、成本低的泄漏检
物流运输在资源型企业生产中所占成本较高,尤其在典型资源型企业中,车辆调度作为主要的物流运输方式,更是具有运输任务多、车辆少、运输要求严格、成本高等特点。合理规划车辆使用数量和行驶路径是提高典型资源型企业经济利润、降低生产成本的重要手段之一。  本文以典型资源型企业中露天矿生产和成品油配送为例,针对其中的车辆调度问题展开研究工作。在针对实际问题分析的基础上,建立优化车辆调度的数学模型,并设计改进算法
人工神经网络由于其广泛的应用前景得到了众多学者的青睐,同时也取得了非常重要的研究成果。但是由于人工神经网络的运算速度普遍偏慢(例如:BP神经网络),限制了其在工程上的应用。在2006年,极限学习机(ELM)神经网络的提出对前馈神经网络的发展起到了很大的影响,减少了前馈神经网络的运算时间。然而由于极限学习机在处理带有复杂噪声信号或者带有高维度信息的输入数据时,极限学习机也体现出了自己的疲软之处,使得
学位
随着工业生产过程大型化和复杂化,工业生产过程监测作为保障过程安全和产品质量的重要措施受到人们越来越多的关注。实际的故障检测与诊断问题即为分类问题,继而提出各种不同的监测方法,利用过程监测方法对实际工业过程故障进行分类。随着计算机技术与仪表技术的迅猛发展,在工业过程中大量的生产数据被存储下来,由此基于数据驱动的过程监测方法得到了广泛的研究与应用。然而,基于数据驱动的方法通常要求训练数据与测试数据满足
在铁矿行业不景气的情况下,大多数企业为了能够稳定发展,大规模的展开自动化改造工作。铁矿落后的运输设备需要人工操作才能完成运输任务,在降低运输效率的同时也增加了人力成本的投入。自动化程度低、工作环境恶劣、生产安全隐患等问题制约着企业的发展。  本文针对鞍钢集团矿业弓长岭铁矿侧卸式矿车需要人工卸载、效率低且存在安全隐患等问题,设计了机电装置代替人工操作的自动卸矿系统,完成了在不改变原有设备的基础上自动
该文研究线性切换系统的H∞控制问题.具体工作归纳如下:提出并研究了一类线性切换系统在任意切换下H∞可解性问题,给出了任意切换策略下H∞可解的条件.针对系统可能存在不确定性,讨论了一类线性系统混杂状态反馈H∞鲁棒控制问题.给出了切换律和控制器的设计方案.在此基础之上,分别研究了具有线性不确定项和非线性不确定项的时滞系统混杂状态反馈H∞鲁棒控制问题.分别利用单Lyapunov函数技术和多Lyapuno
学位
随着信息化时代的加速发展,信息化技术越来越多的使用于我们生产生活中。随着商业银行金融IC卡的推广,银行IC卡逐步切入各行业应用,由于银行卡具备很多优点,因此使用银行卡来替代原有模式的校园卡,可满足学校的更多需求;绵阳医科学校数字化校园一卡通系统建设完成将实现金融服务功能(含收费、缴费,款项发放,校园内金融消费,现金存、取款和电子现金圈存等)以及校园综合管理功能(含师生信息管理、校园水、电消费等)。
学位