大数据下的图书馆个性化推荐研究

来源 :新世纪图书馆 | 被引量 : 0次 | 上传用户:l1113106a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 随着大数据时代的来临,针对所有的用户都采用同一种方法的图书馆个性化推荐,已经无法满足图书馆用户的需要。论文利用基于大数据的数据挖掘预处理技术,将图书馆用户细分为新用户和一般用户,然后利用数据挖掘与mapreduce技术,提出大数据下的图书馆个性化推荐方法和策略。
  关键词 大数据 数据挖掘 个性化推荐
  分类号 G250.7
  DOI 10.16810/j.cnki.1672-514X.2017.06.015
  Abstract The traditional recommendation strategy adopts the same recommendation method for all users. It is not able to satisfy the library users’ needs in the era of big data. This paper divides library users into new users and ordinary users by data mining preprocessing technology based on big data. Also, it proposes the library personalized recommendation strategy based on data mining and mapreduce.
  Keywords Big data. Data mining. Personalized recommendation.
  大數据时代,图书馆在个性化推荐服务中应用数据挖掘[1]和Mapreduce[2]技术,将图书馆的海量数据优势[3-4] 充分发挥出来,大幅提升图书馆的个性化推荐服务水平。国内外研究人员和研究机构对大数据下的图书馆个性化服务进行了初步的研究和应用。代表性的有杨亮的“大数据环境下图书馆个性化服务研究”[5]、陈臣的“基于大数据的图书馆个性化智慧服务体系构建”[6]、Cassidy R. Sugimoto的“Library and information science in the big data era:funding, projects, and future”[7]等研究成果。但是这些研究成果对图书馆全体用户采用同样的推荐方法,没有考虑图书馆新用户和一般用户的不同。与一般用户相比,图书馆新用户被收集的个人信息较少,需要使用有针对性的个性化推荐方法。因此,对于海量图书馆数据,需要根据图书馆新用户和一般用户的不同特点,提出有针对性的大数据下的图书馆个性化推荐方法和策略。
  1 大数据下的图书馆个性化用户模式
  个性化用户模式[8]是图书馆个性化推荐服务的基础。利用大数据的数据挖掘预处理技术,对图书馆访问数据进行预处理挖掘,形成大数据下的图书馆个性化用户模式。图书馆个性化用户模式定义为三元组,形式化的具体表示如下所示:
  其中ipt为用户IP地址,idt为用户ID,URLt为访问的图书馆网页的URL,u为一条用户访问图书馆网页的记录,u.time为访问图书馆网页的时间戳,u.timelength为访问图书馆网页的时长。u.timelength=u.time- u.time,1 ≤ k ≤ m-1.
  2 大数据下的图书馆用户细分
  图书馆新用户被收集的个人信息较少,不适合和一般用户采用同样的推荐方法。大数据下图书馆用户细分的目的是针对不同的用户来提供不同的个性化推荐服务。
  针对图书馆用户的特点,将其分为新用户(newuser)和一般用户(domesticuser)。新用户和一般用户的确定需要考虑多个因素,包括图书馆访问时长(duration)、图书馆新鲜度(new)以及图书馆访问频率(Frequent)。
  (1)图书馆访问时长(duration)为用户多次访问图书馆的时长之和
  其中count是用户访问图书馆的次数,durationi是用户第i次访问图书馆所花费的时间。
  (2)图书馆新鲜度(new)表示用户对图书馆的访问时间的新鲜程度
  其中userstart是用户首次访问图书馆的日期,usercurrency是现在的日期, userend是用户最近一次访问图书馆的结束日期。
  (3)图书馆访问频率(Frequent)表示用户访问图书馆的频率
  其中count是用户访问图书馆的次数。
  对于以上各个公式计算出来的值,利用模糊函数转换到[0,1]范围;Frequent的权重最大,设定为;duration的权重较大,都设为;new的权重最小,都设为;用户阈值设定为。
  if (*Frequent +*duration +*new>),表明该用户为一般用户(domesticuser); else 该用户为新用户(newuser);
  3 大数据下的图书馆个性化推荐方法和策略
  通过利用大数据的数据挖掘与mapreduce技术,针对新用户和一般用户的不同,分别提出有针对性的图书馆个性化推荐方法。推荐策略描述如下。
  针对图书馆个人信息较少的新用户,提出基于用户模式聚类与mapreduce的图书馆个性化推荐方法。该方法利用大数据的mapreduce技术,首先采用map分解任务,对相似的图书馆个性化用户模式聚类;然后匹配图书馆个性化用户聚类模式与图书馆用户当前访问路径;最后采用reduce进行归并,将匹配度高的推荐集推荐给用户。该方法对相似的图书馆个性化用户模式聚类,利用兴趣相似的图书馆个性化用户聚类模式获得推荐集,扩大了推荐范围,非常适合图书馆新用户。   一般用户是图书馆的主要用户。为了吸引并留住一般用户,提出基于关联规则挖掘与mapreduce的图书馆个性化推荐方法。该方法利用大数据的mapreduce技术,首先采用map分解任务,从图书馆个性化用户模式中挖掘出频繁访问路径,然后从频繁访问路径中挖掘与图书馆用户当前访问路径匹配的关联规则;最后采用reduce进行归并,根据关联规则和推荐度阈值将推荐集推荐给用户。该方法推荐速度快,准确度高,非常适合图书馆一般用户。
  4 个性化推荐方法相关实验
  测试设备为Lenove服务器。实验数据来自重庆理工大学校图书馆一个月的访问记录。选择100位新用户和100位一般用户,第1次实验采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法进行推荐准确度测试,第2次实验采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法进行推荐准确度测试。图书馆用户推荐准确度如图1所示。
  第1次实验采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为83%,图书馆一般用户的推荐平均准确度为72%。第2次实验采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为68%,图书馆一般用户的推荐平均准确度为92%。从实验结果可以看出,第1次实验采用的方法适合图书馆新用户,第2次实验采用的方法非常适合一般用户。
  将提出的基于用户模式聚类与mapreduce的图书馆个性化推荐方法、基于关联规则挖掘与mapreduce的图书馆个性化推荐方法应用到学校图书馆。对200位新用户采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法进行推荐,对200位一般用户采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法进行推荐。让用户30天后进行推荐满意度调查。图书馆用户推荐满意度如图2所示。
  图书馆用户推荐满意度调查结果是:200位新用户对基于用户模式聚类与mapreduce的图书馆个性化推荐方法的推荐满意度为88%,200位一般用户对基于关联规则挖掘与mapreduce的图书馆个性化推荐方法的推荐满意度为94%。从实验结果可以看出,有针对性的、准确的图书馆个性化推荐能够满足不同用户的推荐需求,吸引并留住图书馆用户。
  5 结语
  图书馆新用户被收集的个人信息较少,不适合采用和一般用户同样的推荐方法。图书馆应积极利用大数据的数据挖掘预处理技术,将图书馆用户细分为新用户和一般用户,并通过数据挖掘与mapreduce技术,形成大数据下的图书馆个性化推荐方法和策略。实验结果表明,这一大数据下的图书馆个性化推荐方法和策略是有效的。
  参考文献:
  [ 1 ] HAM J W, KAMBER M, PEI J. Data mining: concepts and techniques third edition[M].San Francisco: Morgan Kaufmann, 2011.
  [ 2 ] 李建江,崔健,王聃,等. Mapreduce并行编程模型研究综述[J].电子学报, 2011,39(11):2635-2642.
  [ 3 ] Science. Special online collection: dealing with Data [EB/OL].[2015-12-20].http://www.sciencemag.org/site/special/data/,2011.
  [ 4 ] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,9(8):8-15.
  [ 5 ] 杨亮.大数据环境下图书馆个性化服务研究[J]. 现代情报,2014,34(4):74-77.
  [ 6 ] 陳臣.基于大数据的图书馆个性化智慧服务体系构建[J].情报资料工作, 2013,34(6):75-79.
  [ 7 ] CASSIDY R. SUGIMOTO, YING DING, THELWALL M. Library and information science in the big data era: funding, projects, and future[J].Proceedings of the American Society for Information Science and Technology, 2012,49(1):1-3.
  [ 8 ] 张潼.互联网大数据发展趋势[J].重庆理工大学学报(自然科学). 2015(10):3-4.
其他文献
我国制定了大量村民自治地方立法,为村民自治实践提供了较好的法律保障。在立法依据、立法主体、立法内容和立法程序等方面,这些地方立法在总体上具有较好的合法性,质量较高,
加快收入分配制度改革,促进个人收入分配合理化,是国家亟需研究解决的一项重大社会课题。着眼于制度建设的重要性和紧迫性,我们必须正确认识不同法律在调节收入分配关系中的重要
2月28日,日照市交通运输系统“道德讲堂”总堂第二期开讲,日照市公交公司以崭新的形式为大家呈现了一堂精彩的道德宣讲课。“道德讲堂”分七个环节进行,共有三大亮点:一是具有公
为合理利用公交资源,确保营运有序、节能降耗,绵阳公交2月上旬出台了《行车计划暂行管理办法》。
8月7日,山东省首批100辆镇村纯电动公交客车在莱芜上线运行,这是莱芜市从解决群众最关心、最直接、最现实问题出发,实施的一项重大民生工程。
为扎实开展全国第十三个“安全生产月”的安全生产及宣传工作,近日,衡水公交公司开展安全宣传日、应急演练、消防知识培训等一系列活动。
近几年针对低渗透油藏的压裂提出了一整套优化方法,而对低渗透气藏压裂还没有进行系统的研究,导致气层改造强度不够或者过大,从而影响气藏的开采效果。根据低渗透气藏的生产特点
论文通过对《研究数据馆员能力框架》的分析和解读,提出明确研究数据馆员角色及职能要求、建立研究数据管理制度、制定研究数据馆员评价标准、加强研究数据馆员队伍建设、开
3月的北京,春意渐浓。一年一度的全国两会在京召开,两会上的各项议案历来部是社会各方的关注焦点。在各行各业人士为国家发展建言献策之际,本刊也汇总了一些公交人自己提出的模
关于政治课的教学效果,不同的人有不同的看法。本人认为良好的教学效果,应该使学生在理论上掌握知识,在思想上引起共鸣,在行动上积极实践。而当前中学政治课教学突出的普遍的问题是教学效果与教育者的初衷相背离,学生对政治课“学而不信、知而不行”。造成这种状况的主要原因是政治理论抽象及教学方法陈旧。那么,如何改进教学方法,提高教学效果,让学生对抽象的政治理论“学且信,知且行”呢?巧用影视资料,是一种行之有效的