基于用户行为的学术文献个性化推荐研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:cjc013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:为帮助科研用户解决在海量文献检索中遇到的信息过载等问题,该文从用户使用文献的行为出发,运用大数据分析中随机游走的二分图算法分析处理,通过协同过滤的方式预测用户未来的文献需求。评价指标显示本模型准确率为72.4%、覆盖率为14.6%、召回率为69.1%。能较好完成对文献的预测,实现对用户的个性化推荐,主动改善用户的文献检索环境。
  关键词:二分图;随机游走;大数据;个性化;文献;推荐系统
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)02-0008-03
  Abstrac: This paper for helps researcher solve the information overload problems in vast literature search. From the user’s literature use behavior, use the Random-Walk bipartite graph theory of big data analysis to analysis and processing, Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model: Precision rate of 72.4%,Coverage rate of 14.6%,Recall rate of 69.1%. It can be better to complete the predict for literature, to realize the individuation recommendation for user, initiative to improve the user’s literature retrieval environment.
  Key words: bipartite graph; random walk; big data; individuation; literature; recommendation system
  随着“中国创造”的不断提升和发展,科研工作中各学科的融合性和精细度越来越受到重视,海量的科研学术文献也日益涌现。然而,科研用户的文献检索方法仍多采用关键字检索,而简单同质的关键字检索:一方面不能充分表达用户的科研特色、侧重点及知识需求;另一方面检索结果过多而发生信息过载现象,造成用户花费大量时间筛选无关文献。同时通过期刊分类导航获得的文献也有科学局限性,无法很好服务于融合多学科的科研工程。
  随着大数据、机器学习、web2.0等技术的出现与成熟,可通过人工智能的方式解决此类问题[1,2]。本文运用二分图模型算法,分析用户的文献使用行为特征、个人属性和文献特征。一方面通过用户之间的行为相似度,分析用户兴趣,预测用户真实及潜在需求的文献需求并向其主动推荐,以帮助用户面对海量文献资源不易找到适合自身需求文献的信息现象;另一方面挖掘每篇文献的知识价值,将适合的文献推荐给适合的用户,而不仅仅推荐新、热方向的学术文献,解决因海量文献所产生的长尾效应(The Long Tail)。
  1 研究思路
  将用户对文献的使用行为(如:下载、阅读),视为用户对具体某文献的兴趣和知识需求。在多用户使用文献的行为中,行为相似性越高,表明其行为和知识需求越相似。通过对行为相似度分析,发现用户还未产生行为而有知识需求的文献,这类文献或是用户当前研究点中需要的知识,也或是下一步研究领域中的潜在需求知识。最终将满足用户个性化需求的文献主动推荐给用户。让用户从知识圈、兴趣圈的角度获取文献,这属于大数据分析中以协同过滤方式对海量“用户-文献”行为进行分析的方法。
  本文运用大数据分析技术中的二分图模型算法[3],来分析“用户-文献”之间的概率相关性。这是用顶点和边来表示概率分布的技术。将用户与文献2变量之间的关系独立编码在“图”中表示,使概率分布的表达表示成因子乘积的形式。其优点是可以更好的捕获随机变量间的关系。应用方法为:将用户使用行为转换为一系列无向二元组表达,单个二元组用V(u,l)表示用户阅读过文献l,阅读行为通过“边”e(u,l)来连接。“用户-文献”二分图模型如下图1示例:
  其中un为具体用户顶点,ln为具体文献顶点。Vu为用户顶点集合,Vl为文献顶点集合。e为通过使用行为连接用户与文献的边。用户u1与l2、l3相连,表示该用户对这2篇文献产生过使用行为。文献l2与u1、u2、u3相连,表示该文献被这3名用户使用过。
  3个性化推荐方法
  为在二分图模型上分析用户文献使用行为,实现个性化推荐。首先将用户u的文献推荐任务转换为:度量与用户顶点u没有“边”相连的文献顶点l与用户u的相关性。对相关性的计算采用一种概率系数的方式[4]。然后将用户u对所有文献的相关概率进行排序,概率系数越高表示用户u选择某文献l的可能性越大。最后取概率最高的前30篇文献作为推荐列表向用户展示,来实现用户个性化文献推荐。
  影响用户与未产生行为的文献之间相关概率的因素有:1从用户顶点到文献顶点间“边”的数量;2用户顶点与文献顶点间“边”的长度;3同类2顶点之间“边”经过的异类顶点数。
  具有较高相关概率的2顶点的特征有:12顶点之间的“边”长度较短;22顶点之间“边”的路径较多;32顶点之间的“边”未经过较大Out-Degree(出度)的顶点。
  3.1数据准备
  将“用户-文献”行为数据集按行为产生的时间轴分为8份。先产生行为的7份作训练样本,用来计算用户对未行为文献的相关性。最后1份作测试样本,与训练样本计算出的文献作对比验证,以评价算法的计算准确性。通过创建Numpy运算符和科学计算包以调用函数。采用二分图模型中基于随机游走的Personalrank算法来计算“图”中2顶点之间的相关概率[5]。初始化各顶点的初始概率值:用户u顶点的初始游走概率α=1,文献顶点的初始访问概率β=0,定义“边”的权重为1,然后运用迭代公式处理。   3.2算法实施
  第一步,运用随机游走的路径选择方式,从用户un顶点开始,在“用户-文献”二分图中随机选择“边”e游走到下一个顶点[6]。到达一个顶点后,首先计算概率α=1-d判断是否继续游走。若继续游走:则又按照随机路径选择的方式,在当前顶点上选择一条“边”e向下一个顶点游走,到达后继续计算概率α重复下去。若计算出的概率α为停止:则回到用户un顶点,重新进行下一轮游走。针对某用户un经过这样多次随机游走后,将每篇文献顶点的被访问到的概率迭代到一起,就能获得一个收敛的稳定值。通过对文献访问概率排序,提取概率最高的30篇用户un未产生行为的文献,就能预测到与某用户高度相关的、有需求文献。
  4.2实验结果
  本实验采用CiteULike提供的数据集,该数据集含有1800多用户对1.2万篇文献的行为数据,其中包含“用户-文献”无向图数据6万多条。未人为去除噪音数据,计算结果能体现真实行为情况。对计算模型汇总的随机游走参数α,在多次测试计算中对比认为取0.87为最佳。
  将本文构建的计算模型对训练样本进行计算,得出的推荐列表通过评价公式验证,其结果如下表1所示:
  通过与理想状态下的朴素贝叶斯、K-NN算法比较,本模型的准确率和召回率差异不是太大,能较好实现对用户行为的分析和预测。覆盖率为14.6%说明计算模型能较好挖掘长尾文献。通过实验,发现数据维度的向量大小与时间、空间复杂度有很大关系。
  5总结
  本文针对海量学术文献的检索过程中,科研用户常遇到信息过载等现象而无法较好获取适合自身需求的文献的问题。结合当前大数据、机器学习技术中的二分图模型算法,分析多用户对文献的使用行为,发现用户未来的文献需求。实验结果反映算法能较好完成预测质量,达到向用户推荐文献的要求。能帮助用户解决信息过载问题,发掘相对较低流行度文献,体现科研内容价值。下一步研究中:一方面,可通过增加文献内容特征,提高计算准确率;另一方面,可运用基于位置敏感的LSH(哈希函数)来降低运算的空间、时间复杂度。
  参考文献:
  [1] 王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.
  [2] 肖诗伯,杨玉梅,兰鹰,等.基于多标签属性的学术文献推荐研究[J].情报探索,2015,(04):8-10.
  [3] 张宏毅,王立威,陈瑜希, 等.概率图模型研究进展综述[J].软件学报,2013,(11):2476-2497.
  [4] 刘建伟,黎海恩,罗雄麟, 等.概率图模型表示理论[J].计算机科学,2014,41(9):1-17.
  [5] 原福永,蔡红蕾. 一种在信任网络中随机游走的推荐算法[J].现代图书情报技术,2014,30(10):70-75.
  [6] 赵悦. 概率图模型学习理论及其应用[M].北京:清华大学出版社,2012:52-61
  [7] 刘建国,周涛,郭强, 等. 个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10.
其他文献
摘要:相对于传统的本科人才培养模式来说,高职专科是一种新型的人才培养方式,一方面,降低了高等教育的门槛,另一方面,能够从基础层面抓起,针对性的对人才进行专业化的学习培养。尤其对于计算机学科来说,当代高速发展的今天,几乎人们的生活都离不开计算机的帮助。可以说,IT行业是这个社会发展的基础,也是不可或缺的主流技术。对于高职专科人才在计算机领域上的培养,更加强调了技术上的培养,在理论的基础上,强化学生实
一、选购常识  如今,家用PC的品类很多,分布在各个不同的价位段之间,而这类PC产品又是用户最为关注的,因此选择起来往往会遇到各种问题,比如究竟选择什么样的PC产品才适合自己?到底哪种价位更划算?但我们可以肯定,性价比总是人们津津乐道谈论的话题。因此那些性能够用、价格又便宜的高性价比机型,往往是普通家庭用户购买的终极目标。  对于PC产品而言,两千元绝对是极为便宜的价位了,一般来说,大家觉得这么便
摘要:DX中波发射机集成度高,处理故障困,为了减轻值班强度,提高发射机自动化控制水平,将计算机技术和网络技术应用到发射机中去,提高了设备的维护水平,实现了发射机数据共享及网络管理。  关键词:中波发射机;计算机;自动控制;PLC  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)15-3651-02  1 概述  我机房现有两部美国HARRIS公司生产的DX-200
摘要:由于政府门户网站为政府提供了信息公开,为公众提供信息服务,因此日益受到各级政府和公众的高度关注。介绍了目前政府网站存在的问题,提出了建设政府门户网站的原则;以武汉新港管理委员会门户网站群为例提出了政府门户网站集群的设计思路。从而为基于集群的政府门户网站的构建提供理论支撑,以此促进政府门户网站的建设和发展。  关键词:电子政务;政府门户网站;集群技术;设计原则  中图分类号:TP393 文献标
摘要:该文阐述建设艺术类院校图书馆数字化特色资源库的重要性,以艺术类院校浙江传媒学院为例,构建艺术类院校产学研图书馆特色资源库平台,并利用这一平台,把特色资源与特色服务融入教学与研究中,以扩大特色数字资源的社会共享功能和效用。  关键词:艺术类院校;特色资源库;数字化建设  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)09-0159-04  Abstract:
摘要:目前高校数字化校园的建设已逐渐深入到教育教学信息化建设来。专业利用信息化手段,建构专业化网络学习互动平台,并根据其发展目标、自身特点、实施应用、存在问题等激发专业师生的学习兴趣,切实提高高校的教育质量,推动专业化发展水平。  关键词:互动平台;专业发展;数字化校园  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)17-4058-02  1 概述  随着教育信
BT影片因为免费、清晰度高而倍受网民青睐,不过要看这种影片,需要全部下载到硬盘后才能播放,假如你想边抓边看BT影片(即无需下载、直接在线播放种子),免得全部下载完后发现不是自己想看的,迅雷等很多软件的VIP云点播功能可以做到,不过那是需要花钱的!如今WatchTorrents Play这款免费的播放工具也具备此类功能,其最大优点是让你免费在线云点播,而且与众不同的是,它把BT下载与影音播放功能整合
摘要:随着计算机及其网络发展,新时代下计算机对于高校其他专业的渗透、结合尤为突出。《计算机文化基础》作为应用型高校非计算机专业的公共必修课之一,对于启发非计算机专业学生计算机与本专业结合有重要作用,其教学成为非计算机类专业人才培养成长、转型、创新的引入点。该文针对案例教学法的理论、方法、特点进行了阐述与分析,并通过非计算机专业教学中,Word、Excle两个具体的案例教学法的实施,使学生感受到课程
摘要:《C语言程序设计》课程是高校理工科学生的必选课程之一,也是大学生学习程序设计技术的入门课程。从激发学生的学习兴趣和积极性、对课程内容的全面认识、课堂教学、实验教学、考核方式等方面阐述了C语言程序设计课程教学改革的做法。  关键词:C语言程序设计;实例;能力  中图分类号:G622 文献标识码:A 文章编号:1009-3044(2008)23-1094-02  The Reform of th
摘要:随着自建无线网络在高校中的普及,移动端越来越频繁的接入师生的日常生活中来。如何运用学校的无线网络给全校师生提供更为便捷的服务,成为学校管理者急需考虑的问题。该文介绍了江苏开放大学无线网的建设概况,在此基础给出了江苏开放大学无线位置管理系统的架构及各组件功能和设置,并展望了运用本系统与其他信息系统结合的应用趋势。  关键词:无线位置管理系统 ;智能支持服务平台; 场景应用  中图分类号:TP3