论文部分内容阅读
摘 要:高校图书馆馆藏资源日益丰富,传统的图书检索功能已经无法满足读者的需求,主动推送所需资源是提高图书馆服务质量的重要途径。文章根据读者的专业、年级等特点,根据兴趣漂移理论,设计了一个符合高校读者借阅行为的兴趣模型,利用遗忘曲线来动态调整模型中项目和项目权重,解决了读者兴趣的更新和存储。实验表明,这种建模方法能提供较为精确的读者兴趣描述,将其与协同过滤算法相结合可以产生较为准确的图书项目推荐。
关键词: 高校图书馆;个性化推荐系统;协同过滤;兴趣模型
中图分类号: TP311.13 文献标志码:A 文章编号:1673-8454(2018)10-0087-03
一、高校图书馆推荐系统现状
个性化推荐技术在1990年代一经提出,国外就开始尝试应用于数字图书馆的个性化推荐服务。受到亚马逊、Yahoo等大型电子商务网站个性化服务成功应用的启发,一些国外高校经过多年广泛的研究和实践,纷纷建立了Mylibrary。其中比较典型的有美国Cornell University图书馆Mylibrary@ cornell和North Carolina State University图书馆的Mylibrary@NCState[1]。Mylibrary@ cornell系统于1999年正式上线,该系统已经发展成为数字化图书馆个性化推荐服务的原型[2]。近年来,我国高校图书馆加强了对个性化推荐技术和服务的研究。2000年初,国家社科资金项目资助并由北京大学承担了——“基于Web的数字图书馆定制系统”。中国人民大学的数字图书馆Kingbase DL,通过记录和分析用户描述信息,构建读者概貌,进而产生与之匹配的图书推荐[3]。国家科学数字图书馆对北卡罗莱纳州立大学Mylibrary@NCState进行了二次开发[4]。
二、高校读者兴趣模型
1.高校读者借阅行为模式
高校图书馆是学校的文献信息中心,其目标是满足读者信息需求。读者在图书馆的借阅行为直接反映了读者的阅读兴趣情况,因此,研究当代大学借阅行为模式对图书馆开展推荐服务有着直接意义。
(1)读者借阅的动机
首先,辅助学业的需要。笔者在本校和兄弟院校调研中发现许多大学生到图书馆借阅目的明确,就是辅助课业学习,在读者借阅中占最大比重;其次,求职的需要。大学生毕业后选择进入社会时面对一个直接的课题就是求职。当今社会竞争激烈,他们在大学内对专业知识和技能方面作为必要的准备,因此与之相关的图书借阅频次也是蛮高的。最后,满足兴趣爱好和娱乐生活的需要。兴趣爱好包括语言文学、摄影、音乐、绘画、各种体育项目等,因此这些图书借阅比例也是比较高。
(2)读者借阅行为模式研究
笔者分析了上海財经大学图书馆信息借还系统中2011-2017年每年9月1日到12月30日当年入学新生的借阅历史记录和文献查阅中国部分高校图书馆借阅情况,得出当代大学生借阅行为中的一些共性规律,发现了现阶段大学生借阅的一些特点。大学生的借阅状况受到年级、学科、读者类型等因素影响。
2.高校读者兴趣模型
借此共性特点解决“新用户”的问题。新生进校后,专业、学科等信息能够被直接获取,用聚类的方法,推荐系统能够方便的建立用户描述文件。在读者使用的初期,系统依据初始的描述文件中群体读者兴趣信息来提供服务,并且在读者不断使用系统的过程中收集和分析用户行为数据,主要是读者对图书的借阅数据。系统根据这些数据不断地预测用户的兴趣状况,包括推断新的兴趣爱好、已有兴趣权重的动态变化等。读者对系统的使用过程就是读者兴趣模型动态更新的过程,初始时读者得到的是一个群体共同兴趣模型,随着读者对系统的不断使用,模型将会越来越“个性化”,并最终形成与读者借阅行为匹配的兴趣模式。
(1)读者初始兴趣模型的创建
当一个新生入学时,系统无法获得新读者的兴趣状况,也就不能对其产生有效的推荐。但高校课程教学计划在一段时间内具有连续性,并且通过前面读者借阅行为模式分析,知道历年来高校同一学院的新生读者在借阅规律上有一定的相似性,因此本文创新地提出用历年新生借阅记录统计评价来表征读者的初始兴趣情况。读者借阅记录能较好地反映读者兴趣的变化,当读者借阅某类图书时,说明该读者对此相关的兴趣产生联系。本文使用向量空间模型来建立用户的兴趣模型,即读者借阅了f(经济)、t(工业技术)类图书,则用户的初始兴趣集合表示为{f、t}。通过对上海财经大学2011年至2017年新生的借阅记录分析,结合学科分类,利用中图法22个基类概念表示读者的兴趣,计算出各学院新生的主要借阅类别在借阅总数中的比重,并以此确定对应的兴趣权重值。将初始兴趣集合与对应的权重值结合,最终生成读者的初始兴趣描述文件:F={w1,t1,(w2,t2)…(wn,tn)},其中n为兴趣数,ti为兴趣图书分类,wi是对应的兴趣权重值。
(2)读者兴趣模型的更新
由于读者的兴趣不是固定不变,一个好的兴趣模式应该能够迅速地捕捉读者兴趣的变化,并及时调整。根据读者的借阅行为,本文在更新读者的兴趣模型时,采用下面的策略:
① 兴趣项的减弱策略
当读者多次借阅中,兴趣模型某些类别图书均没有被借阅到,则表示读者对这些项目的兴趣度在下降。需要调整读者的兴趣模型,其相应的兴趣权重值应减小。
遗忘曲线模拟人的记忆模式和行为习惯,更贴近读者兴趣的真实表达,本文采用其函数来调整兴趣项的权重:wi=wi0e-0.2(1 2 …j),其中wi0是第i项分类兴趣的初始权重,j∈(1…n),表示在时间点n时项i类目图书距离最近一次出现时的间隔。根据赵家辉在《个性化信息服务中的用户兴趣迁移研究》中的分析,结合笔者工作经验,遗忘速度取0.2(1 2 … j)值能较好地拟合读者认知的遗忘曲线[5]。 ② 兴趣项的新增策略
读者借阅某类图书时,下次借阅该类图书可能性较高。因而当读者借阅了某类不在描述文件中的图书,表示读者有新的兴趣项产生。
新出现项归属为短期兴趣,本文假设新项目经过两次遗忘后就会低于剔除阀值,则新项目权重值要小于0.1÷e-0.2(1 2)=0.18,本文权重设置为0.15,从而将项目从兴趣模型中删除,符合短期兴趣快速变化和易遗忘的特征。
③ 兴趣项的加强策略
如果读者在一定时间段内频繁借阅某类图书,也就表现出读者对对应项目感兴趣程度在提高,该类图书对应的兴趣权重值应增加。本文假设兴趣加强是第一次兴趣遗忘的逆过程,即加强系数为1.22(e0.2),也就是说本期的权重Wj=1.22Wj-1。
④ 兴趣项的保持策略
当读者在一段时间段没有借阅行为发生时,则用户的兴趣模型仍然保持不变,无需进行更新。
⑤ 兴趣项的剔除策略
当读者的兴趣模型中某一兴趣项在多次借阅行为中都没发生,其兴趣权重值根据减弱策略不断调整小于一定阀值时,我们可以认为读者已“遗忘”该兴趣项,本文取0.1阀值。
三、基于项目(图书)协同过滤推荐功能设计
1.图书馆图书推荐功能分析
在图书馆信息管理系统中,有每个读者的详细借阅记录。系统后台将记录经过抽取、转换、加载入数据库,并进行分析。前端在线提供给读者个性化的推荐功能,主动推送符合读者需求的图书,借此提高图书馆图书资源的利用率。
(1)图书馆图书推荐功能设计系统分析
系统服务对象:由于上海财经大学在校博士样本少,在一定时期借阅统计没有体现类别共性规律。所以本文设计推荐服务对象设定为在校本科生和硕士生。
系统功能描述:根据图书馆信息管理系统运行的特点,可以将推荐功能分为基础数据维护、图书评价数据维护、推荐算法模块和模型更新四个部分:
基础数据维护:包括读者信息、图书信息管理、图书评价数据维护等。
推荐算法模块:包括读者推荐信息、推荐策略管理等。
模型更新:包括评分信息收集和更新、读者初始模型个性和本人兴趣模型更新等。
2.图书馆推荐系统设计
学校图书馆个性化推荐系统在收集各学院新生借阅规律基础上,构建读者初始兴趣模型,并分析读者对图书的评价信息,在推荐算法的帮助下选择读者可能感兴趣的图书产生推荐。系统从读者的借阅记录中不断学习,动态校正读者的兴趣模型,从读者图书评价记录中不断学习,及时改变推荐类别中图书排序。从而保证下一次产生的推荐结果更符合读者的个性需求,最终提高推荐的准确性。
本推荐系统算法功能的具体操作过程如下:①按照中国图书分类法,将图书馆馆藏资源分为22个类目。②对每个类目,由读者对图书评价构成评分数据矩阵,评分可以设定为1-5五个等级,数字越高表示读者对图书评级越高。读者的评价图书数量越多,评分矩阵越完整,由此产生的推荐结果就越准确。③使用Apache Mahout机器学习工具实现基于项目的Slope one协同过滤推荐,其中有些没有对任何图书评价的读者使用图书评价的平均值来表征读者的评价。④将针对读者的推荐结果以页面形式在读者个人系统中输出。
3.图书协同过滤推荐算法的实现框架
分析各时间点内读者借阅记录,当有记录发生时,推荐系统根据借阅图书种类动态修改兴趣模型,调整模型的项目类和项目权重值,最终导致对读者推荐的图书类别和对应推荐数量产生变化。当读者评价某本图书时,系统收集读者对图书的评价矩阵,调用推荐算法模块,运算完成后调整该类别图书的推荐顺序。最终结果将以页面的形式呈现给读者。
四、实验结果分析
为了验证上述读者兴趣模型以及推荐系统的有效性,论文抽取了12位读者(涵盖4个学院,本科生和硕士两种类型)来实际进行评价。根据每个样本读者具体的借阅记录,为每个读者推荐20本书,并让他们评价是否对推荐图书有兴趣。之后使用最常用查准率(precision)来验证推荐质量。查准率表达式precisiona/sum,其中a是推荐成功的图书数量,sum是推荐的图书总数。反馈结果表明,12位读者之间评价的查准率差别比较大,平均值为70.4%。发现不同类型读者的推荐效果也不同,硕士群体平均值为73.6%,本科群体是66%。原因应该是硕士群体关注面比较集中,推荐效果比较理想;而本科群体阅读比较分散,推荐成功率不高。
本文对基于兴趣漂移和协同过滤的高校图书馆推荐系统进行了详细的讨论和分析,得出如下結论:与传统的推荐系统相比,本文推荐系统可动态跟踪用户的兴趣改变。用户兴趣的漂移是传统推荐系统较难解决的问题,本推荐系统基于兴趣漂移理论来动态调整用户的兴趣模型,较好地解决了这个问题。
参考文献:
[1]李灵芝.数据挖掘在图书馆个性化服务中的应用研究[D].长春:吉林大学,2014.
[2]苏明忠.新媒体环境下图书馆更应挖掘特色资源[J].中国教育网络,2017(8):74-75.
[3]张红燕.移动阅读的生态发展策略[J].图书情报研究,2017(4):56-57.
[4]徐红.个性化网上图书馆的设计与实现[D].广州:华南理工大学,2013.
[5]赵家辉.个性化信息服务中的用户兴趣迁移研究[D].成都:电子科技大学,2009.
(编辑:鲁利瑞)
关键词: 高校图书馆;个性化推荐系统;协同过滤;兴趣模型
中图分类号: TP311.13 文献标志码:A 文章编号:1673-8454(2018)10-0087-03
一、高校图书馆推荐系统现状
个性化推荐技术在1990年代一经提出,国外就开始尝试应用于数字图书馆的个性化推荐服务。受到亚马逊、Yahoo等大型电子商务网站个性化服务成功应用的启发,一些国外高校经过多年广泛的研究和实践,纷纷建立了Mylibrary。其中比较典型的有美国Cornell University图书馆Mylibrary@ cornell和North Carolina State University图书馆的Mylibrary@NCState[1]。Mylibrary@ cornell系统于1999年正式上线,该系统已经发展成为数字化图书馆个性化推荐服务的原型[2]。近年来,我国高校图书馆加强了对个性化推荐技术和服务的研究。2000年初,国家社科资金项目资助并由北京大学承担了——“基于Web的数字图书馆定制系统”。中国人民大学的数字图书馆Kingbase DL,通过记录和分析用户描述信息,构建读者概貌,进而产生与之匹配的图书推荐[3]。国家科学数字图书馆对北卡罗莱纳州立大学Mylibrary@NCState进行了二次开发[4]。
二、高校读者兴趣模型
1.高校读者借阅行为模式
高校图书馆是学校的文献信息中心,其目标是满足读者信息需求。读者在图书馆的借阅行为直接反映了读者的阅读兴趣情况,因此,研究当代大学借阅行为模式对图书馆开展推荐服务有着直接意义。
(1)读者借阅的动机
首先,辅助学业的需要。笔者在本校和兄弟院校调研中发现许多大学生到图书馆借阅目的明确,就是辅助课业学习,在读者借阅中占最大比重;其次,求职的需要。大学生毕业后选择进入社会时面对一个直接的课题就是求职。当今社会竞争激烈,他们在大学内对专业知识和技能方面作为必要的准备,因此与之相关的图书借阅频次也是蛮高的。最后,满足兴趣爱好和娱乐生活的需要。兴趣爱好包括语言文学、摄影、音乐、绘画、各种体育项目等,因此这些图书借阅比例也是比较高。
(2)读者借阅行为模式研究
笔者分析了上海財经大学图书馆信息借还系统中2011-2017年每年9月1日到12月30日当年入学新生的借阅历史记录和文献查阅中国部分高校图书馆借阅情况,得出当代大学生借阅行为中的一些共性规律,发现了现阶段大学生借阅的一些特点。大学生的借阅状况受到年级、学科、读者类型等因素影响。
2.高校读者兴趣模型
借此共性特点解决“新用户”的问题。新生进校后,专业、学科等信息能够被直接获取,用聚类的方法,推荐系统能够方便的建立用户描述文件。在读者使用的初期,系统依据初始的描述文件中群体读者兴趣信息来提供服务,并且在读者不断使用系统的过程中收集和分析用户行为数据,主要是读者对图书的借阅数据。系统根据这些数据不断地预测用户的兴趣状况,包括推断新的兴趣爱好、已有兴趣权重的动态变化等。读者对系统的使用过程就是读者兴趣模型动态更新的过程,初始时读者得到的是一个群体共同兴趣模型,随着读者对系统的不断使用,模型将会越来越“个性化”,并最终形成与读者借阅行为匹配的兴趣模式。
(1)读者初始兴趣模型的创建
当一个新生入学时,系统无法获得新读者的兴趣状况,也就不能对其产生有效的推荐。但高校课程教学计划在一段时间内具有连续性,并且通过前面读者借阅行为模式分析,知道历年来高校同一学院的新生读者在借阅规律上有一定的相似性,因此本文创新地提出用历年新生借阅记录统计评价来表征读者的初始兴趣情况。读者借阅记录能较好地反映读者兴趣的变化,当读者借阅某类图书时,说明该读者对此相关的兴趣产生联系。本文使用向量空间模型来建立用户的兴趣模型,即读者借阅了f(经济)、t(工业技术)类图书,则用户的初始兴趣集合表示为{f、t}。通过对上海财经大学2011年至2017年新生的借阅记录分析,结合学科分类,利用中图法22个基类概念表示读者的兴趣,计算出各学院新生的主要借阅类别在借阅总数中的比重,并以此确定对应的兴趣权重值。将初始兴趣集合与对应的权重值结合,最终生成读者的初始兴趣描述文件:F={w1,t1,(w2,t2)…(wn,tn)},其中n为兴趣数,ti为兴趣图书分类,wi是对应的兴趣权重值。
(2)读者兴趣模型的更新
由于读者的兴趣不是固定不变,一个好的兴趣模式应该能够迅速地捕捉读者兴趣的变化,并及时调整。根据读者的借阅行为,本文在更新读者的兴趣模型时,采用下面的策略:
① 兴趣项的减弱策略
当读者多次借阅中,兴趣模型某些类别图书均没有被借阅到,则表示读者对这些项目的兴趣度在下降。需要调整读者的兴趣模型,其相应的兴趣权重值应减小。
遗忘曲线模拟人的记忆模式和行为习惯,更贴近读者兴趣的真实表达,本文采用其函数来调整兴趣项的权重:wi=wi0e-0.2(1 2 …j),其中wi0是第i项分类兴趣的初始权重,j∈(1…n),表示在时间点n时项i类目图书距离最近一次出现时的间隔。根据赵家辉在《个性化信息服务中的用户兴趣迁移研究》中的分析,结合笔者工作经验,遗忘速度取0.2(1 2 … j)值能较好地拟合读者认知的遗忘曲线[5]。 ② 兴趣项的新增策略
读者借阅某类图书时,下次借阅该类图书可能性较高。因而当读者借阅了某类不在描述文件中的图书,表示读者有新的兴趣项产生。
新出现项归属为短期兴趣,本文假设新项目经过两次遗忘后就会低于剔除阀值,则新项目权重值要小于0.1÷e-0.2(1 2)=0.18,本文权重设置为0.15,从而将项目从兴趣模型中删除,符合短期兴趣快速变化和易遗忘的特征。
③ 兴趣项的加强策略
如果读者在一定时间段内频繁借阅某类图书,也就表现出读者对对应项目感兴趣程度在提高,该类图书对应的兴趣权重值应增加。本文假设兴趣加强是第一次兴趣遗忘的逆过程,即加强系数为1.22(e0.2),也就是说本期的权重Wj=1.22Wj-1。
④ 兴趣项的保持策略
当读者在一段时间段没有借阅行为发生时,则用户的兴趣模型仍然保持不变,无需进行更新。
⑤ 兴趣项的剔除策略
当读者的兴趣模型中某一兴趣项在多次借阅行为中都没发生,其兴趣权重值根据减弱策略不断调整小于一定阀值时,我们可以认为读者已“遗忘”该兴趣项,本文取0.1阀值。
三、基于项目(图书)协同过滤推荐功能设计
1.图书馆图书推荐功能分析
在图书馆信息管理系统中,有每个读者的详细借阅记录。系统后台将记录经过抽取、转换、加载入数据库,并进行分析。前端在线提供给读者个性化的推荐功能,主动推送符合读者需求的图书,借此提高图书馆图书资源的利用率。
(1)图书馆图书推荐功能设计系统分析
系统服务对象:由于上海财经大学在校博士样本少,在一定时期借阅统计没有体现类别共性规律。所以本文设计推荐服务对象设定为在校本科生和硕士生。
系统功能描述:根据图书馆信息管理系统运行的特点,可以将推荐功能分为基础数据维护、图书评价数据维护、推荐算法模块和模型更新四个部分:
基础数据维护:包括读者信息、图书信息管理、图书评价数据维护等。
推荐算法模块:包括读者推荐信息、推荐策略管理等。
模型更新:包括评分信息收集和更新、读者初始模型个性和本人兴趣模型更新等。
2.图书馆推荐系统设计
学校图书馆个性化推荐系统在收集各学院新生借阅规律基础上,构建读者初始兴趣模型,并分析读者对图书的评价信息,在推荐算法的帮助下选择读者可能感兴趣的图书产生推荐。系统从读者的借阅记录中不断学习,动态校正读者的兴趣模型,从读者图书评价记录中不断学习,及时改变推荐类别中图书排序。从而保证下一次产生的推荐结果更符合读者的个性需求,最终提高推荐的准确性。
本推荐系统算法功能的具体操作过程如下:①按照中国图书分类法,将图书馆馆藏资源分为22个类目。②对每个类目,由读者对图书评价构成评分数据矩阵,评分可以设定为1-5五个等级,数字越高表示读者对图书评级越高。读者的评价图书数量越多,评分矩阵越完整,由此产生的推荐结果就越准确。③使用Apache Mahout机器学习工具实现基于项目的Slope one协同过滤推荐,其中有些没有对任何图书评价的读者使用图书评价的平均值来表征读者的评价。④将针对读者的推荐结果以页面形式在读者个人系统中输出。
3.图书协同过滤推荐算法的实现框架
分析各时间点内读者借阅记录,当有记录发生时,推荐系统根据借阅图书种类动态修改兴趣模型,调整模型的项目类和项目权重值,最终导致对读者推荐的图书类别和对应推荐数量产生变化。当读者评价某本图书时,系统收集读者对图书的评价矩阵,调用推荐算法模块,运算完成后调整该类别图书的推荐顺序。最终结果将以页面的形式呈现给读者。
四、实验结果分析
为了验证上述读者兴趣模型以及推荐系统的有效性,论文抽取了12位读者(涵盖4个学院,本科生和硕士两种类型)来实际进行评价。根据每个样本读者具体的借阅记录,为每个读者推荐20本书,并让他们评价是否对推荐图书有兴趣。之后使用最常用查准率(precision)来验证推荐质量。查准率表达式precisiona/sum,其中a是推荐成功的图书数量,sum是推荐的图书总数。反馈结果表明,12位读者之间评价的查准率差别比较大,平均值为70.4%。发现不同类型读者的推荐效果也不同,硕士群体平均值为73.6%,本科群体是66%。原因应该是硕士群体关注面比较集中,推荐效果比较理想;而本科群体阅读比较分散,推荐成功率不高。
本文对基于兴趣漂移和协同过滤的高校图书馆推荐系统进行了详细的讨论和分析,得出如下結论:与传统的推荐系统相比,本文推荐系统可动态跟踪用户的兴趣改变。用户兴趣的漂移是传统推荐系统较难解决的问题,本推荐系统基于兴趣漂移理论来动态调整用户的兴趣模型,较好地解决了这个问题。
参考文献:
[1]李灵芝.数据挖掘在图书馆个性化服务中的应用研究[D].长春:吉林大学,2014.
[2]苏明忠.新媒体环境下图书馆更应挖掘特色资源[J].中国教育网络,2017(8):74-75.
[3]张红燕.移动阅读的生态发展策略[J].图书情报研究,2017(4):56-57.
[4]徐红.个性化网上图书馆的设计与实现[D].广州:华南理工大学,2013.
[5]赵家辉.个性化信息服务中的用户兴趣迁移研究[D].成都:电子科技大学,2009.
(编辑:鲁利瑞)