论文部分内容阅读
随着信息时代的到来,文献资料的数字化越来越普遍,电子文献数量不断剧增而带来的信息过载现象同人们对知识的获取之间产生了矛盾。通告、图书文献、科技成果、函件、政策解读、法例、工作报告等未经过人工加工整理的文献占支配地位,导致资源太过分散。在大数据背景下,给知识的精准获取带来了难度。因此,研究如何有效的共享知识、检索知识和获取知识,对现代化的政府部门具有重要意义。
针对以上问题,结合政府知识库的特点,参考推荐系统的通用设计方案及相关理论和技术,在开源搜索引擎下,以政府站内共享知识库为背景,提出一种基于文本内容分析和用户行为标签的推荐系统。并在Spark平台中实现算法的并行化,解决海量用户数据处理的问题。
本文首先研究用户行为数据的采集与兴趣分析。在全文检索背景下,通过分析用户的行为蕴含什么信息,包括哪些内容,并针对不同的用户产生的行为类型,采用不同的采集方式,得到用户行为数据后研究哪些用户行为能更好的反映用户爱好。其次,针对用户兴趣时变性,分别设计了基于文本内容分析模型和用户行为标签模型来解决长久兴趣和即时兴趣。而用户爱好、兴趣多变性表现在用户行为特性中,在此特性下提出了一种基于检索词的用户爱好、兴趣分析方法。其中,文本内容分析模型基于文本内容相似性来进行推荐,本文提出一种基于TF-IDF的改进文本内容相似性的计算方式,可以缓解冷启动问题。而用户行为标签模型将文本进行k-means聚类分析获得文本标签,并结合用户兴趣,转化为用户行为标签,以用户行为标签为基础,提出了一种改进的混合属性的用户相似性的判定方式,使推荐结果具有新颖性。
最后,研究基于Spark平台的算法并行化实现,完成政府站内共享知识库的推荐系统的设计与实现。并通过实验测评结果表明:本文提出的基于文本内容分析和用户行为标签的混合推荐方式比传统的推荐方式具有更好的个性化推荐准确率和召回率。
针对以上问题,结合政府知识库的特点,参考推荐系统的通用设计方案及相关理论和技术,在开源搜索引擎下,以政府站内共享知识库为背景,提出一种基于文本内容分析和用户行为标签的推荐系统。并在Spark平台中实现算法的并行化,解决海量用户数据处理的问题。
本文首先研究用户行为数据的采集与兴趣分析。在全文检索背景下,通过分析用户的行为蕴含什么信息,包括哪些内容,并针对不同的用户产生的行为类型,采用不同的采集方式,得到用户行为数据后研究哪些用户行为能更好的反映用户爱好。其次,针对用户兴趣时变性,分别设计了基于文本内容分析模型和用户行为标签模型来解决长久兴趣和即时兴趣。而用户爱好、兴趣多变性表现在用户行为特性中,在此特性下提出了一种基于检索词的用户爱好、兴趣分析方法。其中,文本内容分析模型基于文本内容相似性来进行推荐,本文提出一种基于TF-IDF的改进文本内容相似性的计算方式,可以缓解冷启动问题。而用户行为标签模型将文本进行k-means聚类分析获得文本标签,并结合用户兴趣,转化为用户行为标签,以用户行为标签为基础,提出了一种改进的混合属性的用户相似性的判定方式,使推荐结果具有新颖性。
最后,研究基于Spark平台的算法并行化实现,完成政府站内共享知识库的推荐系统的设计与实现。并通过实验测评结果表明:本文提出的基于文本内容分析和用户行为标签的混合推荐方式比传统的推荐方式具有更好的个性化推荐准确率和召回率。