基于大数据聚类的读者借阅特征对比研究

来源 :锦绣·下旬刊 | 被引量 : 0次 | 上传用户:Bo_Gao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着信息时代的到来和数字化图书馆的兴起,大学生通过手机和互联网获取大量电子资源,导致了纸质图书借阅规模持续下降。为更好地服务读者,满足读者需求,需对读者借阅行为进行信息挖掘。本文采用了52万余条纸质图书有效借阅记录,应用SPSS软件对15205名毕业生做降维因子分析,萃取了8个综合决策因素,并创造性的依据萃取因素做聚类分析。聚类分析和卡方分析综合结果表明,读者群体有专业学习、休闲娱乐、语言文字、毕业去向、兴趣爱好、历史地理和思政教育等多种需求。借阅行为不仅受专业、年级、性别和入学年份等外在特征影响,还受活跃度、毕业去向优良度、借阅目的和借阅连续性等内在特征影响,但不受校园文化和外部偶发因素的显著影响。
  关键词:SPSS;聚类分析;内在特征;外在特征;读者群体;
  一、数据采集、预处理及分析工具
  从学校图书馆的图腾管理系统数据库导出近五届毕业生读者信息和图书借阅记录,为保护读者隐私和学校图书馆管理系统的知识产权,读者信息表选取的关键字段仅为读者号、性别、专业、入学年份和学院,图书借阅记录选取的关键字段仅为题名、馆藏号、索书号、借书日期。筛选出东湖校区四年制本科应届毕业生借阅记录(不含独立学院、专升本、退学、转学、休学、延长学制和五年制的学生),最终得到15205名毕业生的529975条有效借阅记录。
  数据预处理是整个聚类挖掘中最为基础的环节,数据预处理的质量直接决定着聚类分析的效果。本文使用了学院、学科、专业、年级、入学年份等读者自身在借书时所具有的外在特征以及数据离散化处理得到的专业聚类、借阅目、借阅连续性和活跃度等等预定义特征,整合借阅记录和读者信息得到了43547条读者借阅信息。其后,为保证A-Z类借阅量的连续性,根据箱型图和PP图对借阅量进行异常值检测、判定,并进行初步修正。为能实现更多SPSS分析,使用LN函数再次修正借阅量使其收敛于正态分布或近正态分布。后期实践结果证实了上述预处理的有效性。
  本文使用软件SPSS 22.0,进行了相关性分析和卡方分析多种分析以对比各类特征对读者借阅图书的分类效果。
  二、聚类分析
  读者借阅行为分析有抽样调查和大数据分析两类,已有的读者借阅行为研究表明,少量数据的抽样调查研究结果往往受偶然因素影响,具有更多地不确定性;大量数据的抽样调查和大数据统计分析结果往往更加具有确定性。在研究中还发现,仅对图书大类做借阅统计容易割裂读者借阅行为需求,而读者借阅具往往有复杂性和多样性,聚类分析则能更好地体现读者的借阅需求特征。
  以读者借阅历史数据为基础,利用聚类分析的方法对读者群体进行细分,基于不同属性依据进行聚类可以分别获得基于不同角度的读者类型群体。以借阅频次为属性依据进行聚类,可以获得不同活跃度的读者群体;以读者借阅图书类型作为属性依据,聚类结果能够清晰地揭示读者群体的需求结构。
  本文创新性地采用了8个降维的萃取因素聚类,既体现了读者需求又体现了活跃度;而且降维萃取因素更侧重读者内在需求,并根据权重选择了最为重要的内在需求因素作为聚类的考虑范畴,优化了读者分类。结果表明,读者借阅借阅图书考量的因素往往超过一个,是多因素综合考量的结果。对于聚类得到的8个读者类簇,计算每个类簇中读者借阅22个大类图书的生均借阅量,做雷达图,结合主要借阅特征做汇总表。
  各群读者借阅图书大类生均借阅量雷达图结果显示,图形均不是圆形或近圆形,表示借阅范围相对狭窄,并且8个读者群体在借阅图书的种类和数量上体现了显著差异。文学类图书几乎在所有读者中受欢迎;在文学和出国型读者群体最受欢迎,而在工学型读者群体受欢迎程度最低。这表明了读者群体的图书大类需求不同。
  三、读者特征分析
  (一)读者的内在特征
  1.活跃度
  根据读者群体特征结合分群实际应用效果发现,农学型和管理学型的读者生均借阅量一般,与其专业实验实践多特点有关;一方面实验实践相关的教辅材料不归属图书馆馆藏范围,另一方面也意味著高质量的通用全国的实验实践教辅材料匮乏,故大多采用具有地方特色的实验实践教辅材料,因此将其归类为活跃读者群体更适合。因此,活跃度分为活跃和不活跃两类读者群体即可。统计结果表明,活跃读者群体生均借阅量在10-65区间内,读者占比47.98%;而不活跃读者群体的生均借阅量在1-9区间内,读者占比高达52.02%。活跃读者群体在22个大类生均借阅量上均显著高于不活跃群体。
  2. 借阅连续性
  读者借阅频次有高有低,将每个学期都借阅图书的读者认定为连续借阅读者,其他的则为非连续借阅读者。统计结果显示,5646名连续借阅读者在大学四年共借阅了358228册图书,生均借阅63.4册图书;而9559名非连续借阅读者则借阅了171747册图书,生均借阅18册图书。两者借阅量比接近7:2,体现了借阅量的巨大差异。统计结果还发现,沉默型读者群体中不连续借阅读者高达68.7%,以不连续借阅为主;其余类型读者群体中不连续借阅读者仅介于34.8%-40.8%之间,以连续借阅读者为主。说明活跃读者不仅借阅量高,借阅频次同样高于不活跃读者。
  3.借阅目的
  从图书题名分析,发现读者需求多种多样。为了考研借阅O类图书,为了考取公务员借阅D类图书,为了出国深造借阅H类图书,提高四六级考试成绩借阅H类图书,为了增强体能训练借阅G类图书,为了外出旅行借阅K类,为了提高素质修养借阅K类人物传记,为了提高植物养护技能借阅Q类,为了身体保健借阅R类等等。
  根据聚类特征,结合本馆借阅实际,发现本馆读者借阅量排名靠前的七种借阅需求分别是专业学习(C类、F类、J类、P类、Q类、S类、T类和X类)、休闲娱乐(I类)、毕业去向(D类、N类和O类)、思政教育(A类和B类)、语言文字(H类)、兴趣爱好(E类、G类、R类、U类、V类和Z类)和历史地理(K类)。   读者在图书借阅时综合考量了7种借阅需求,而不仅仅考量一种需求,故各类图书均有借阅。每个类簇中主要需求图书借阅量显著高于其他6个需求借阅量,主要需求借阅比例由高到低依次为专业学习、休闲娱乐、语言文字、毕业去向、兴趣爱好、历史地理和思政教育,比例从71.52%降至46.37%,读者占比依次为40.17%、28.20%、13.64%、7.94%、2.19%、3.75%和4.12%,其中专业学习、休闲娱乐和语言文字3个人数最多的群体占读者群体总数的82%。这说明读者需求的复杂性和多样性。
  4.毕业去向优良度
  出国、考研、司法考试和考取公务员等毕业去向在读者群体划分上显示了显著的影响效果,因此本文考虑按照毕业去向考量读者群体划分。研究表明,借阅量越高,学习成绩越好。因此,综合考量借阅量和毕业去向优良度,分为三类读者群体,出国、考公、司法考试和考研读者均属于成绩好、学有余力的读者,归纳为优质毕业去向读者群体,占读者总数的19.35%,生均借阅量23.5本,其中I类和H类图书生均借阅量最多;沉默型读者借阅量最低,成绩偏低,归纳为一般毕业去向读者群体,占读者总数的52.02%,生均借阅量仅4.3本;其余读者归纳为良好毕业去向读者群体,占读者总数的28.63%,生均借阅量20.5本。
  (二)读者的外在特征
  1.专业
  我校本科招生专业涵盖经、法、文、理、工、农、管、艺八大学科门类的66个专业和13个方向。生均借阅量均值T检验结果表明部分专业之间差异不明显,如园艺和园艺(观赏园艺)、国际经济与贸易和工商管理、艺术设计(服装艺术设计)和艺术设计(视觉传达艺术设计),因此需要聚类以便更好的区分专业之间的差别。
  本文创新性的采用了SPSS的R聚类专业划分方法,计算各个聚类的22个大类图书生均借阅量,做雷达图。生均借阅量结果显示,1类主要是工程技术类专业学生,借阅T类书籍最多;2类主要是工程技术类专业学生,借阅I类图书最多,其次为T类和H类图书;3类是英语专业和日语专业学生,借阅H类图书最多,高达48%以上;4类主要是艺术设计类学生,借阅量从大到小依次为J类、I类和T类图书;5类是数理化类基础专业,大量借阅了O类和I类图书;6类是医学类专业学生,借阅量从大到小依次为I类、R类和H类图书;7类是法学学生,借阅D类书籍最多,超过借阅总量的60%;8类是汉语言文学专业,借阅了巨量I类图书,高达65%;9类是文科类专业,借阅量从大到小依次为I类和F类图书;10类是与动植物相关的专业,借阅量从大到小依次为I类、H类和Q类图书。
  总体上,不同专业群体读者的阅读偏好往往比较符合学校的专业设置,借阅专业相关图书及课程辅导资料,体现了不同读者群体间鲜明的差异;还有一定共性,均大量借阅了H3常用外国语和I2中国文学。
  和传统的学院分类或者学科分类相比,该聚类不仅体现了显性的专业聚类,还体现了隐性的专业聚类。如6类,我校没有医学院,但生物技术(生物制药)和中药学专业显示了R类借阅量高的特点,其他的类似专业动物医学则显示出2类的特征。8类汉语言文学专业则显示了借阅大类狭窄的显著特点,其他的文科专业则体现了9类的特点。
  2.年级
  2015-2019届毕业生生均借阅结果显示,随着年级增长借阅量在持续走低,从大一的生均借阅量14.3册下降到大二的13.0册再降到大三的12.0册最后降至大四的7.5册图书。借阅种类各年级有所不同,大一借阅量最多地依次为I类、T类和H类;大二借阅量最多地依次为I类、T类和J类,其中I类小说借阅量显著下降,T类和J类等专业类书籍显著上升;大三和大二基册持平,专业类图书略有上升,大四各大类图书借阅均显著下降。
  读者群体结果表明,借阅类型与年级有关,生均借阅总量受到年级影响,大四最少且较前三年级的借阅量有明显的减少。并且,除了艺术学型读者外,其他读者群体随着年级的演变,增加了专业相关图书的借阅比例和优质毕业去向图书的借阅比例,相应地减少了其他各类图书的借阅比例。大部分专业相关图书和毕业去向图书的借阅量体现了低—高—低的总体变化特征;艺术学型读者的J类专业图书借阅量则一路走低,显示了不同的借阅特点。总体上说明不同专业读者群体借阅需求的复杂性和不均一性。
  3.入学年份
  本文采用入学年份分类统计,使用四年借阅量做生均计算消除了年级的影响,统计结果发现五届学生图书借阅类型基本保持一致,但纸质图书借阅量持续下降,从2011届的生均每学年借阅13.9册下降到2012届的13.5册再下降到2013届的11.7册直至2014届的10.8册最后到2015届的10.3册。2012届与2013届之间的显著下滑,说明2016年末有一次新网络技术的重大突破导致纸质图书借阅量的迅速下滑;也说明借助纸质图书学习的方式正在弱化,其更希望通过手机和互联网等获取电子资源。意味着读者借阅行为还是受到了外部大环境的影响。统计结果还表明后三届入学学生借阅的休闲娱乐类图书比例下降,专业图书比例提升。从现有的结果看,其体现数字媒体和数字资源的迅速扩张的外部大环境变化特征;并且就业压力变大,读者对专业知识的需求增加。
  (三)读者特征对比分析
  为进一步地了解读者借阅行为特征的分类效果,本文采用了活跃度、毕业去向优良度、专业聚类、借阅目的、借阅连续性、学院、学科门类、年级、性别和入学年份等尽可能多的特征做卡方检验,交叉表特征檢验结果表明,各特征的差异检验SIG值均为0.000,说明均可作为差异变量予以保留。一般来讲,卡方值越大说明其影响力越大,分群效果越好。据此可以认定影响力从大到小的特征依次为毕业去向优良度、活跃度、专业、借阅目的、年级、借阅连续性、性别和入学年份;入学年份的卡方值最小,而df值又偏大,说明其不同分群间的差异最小。
  比较各种分类的借阅量差异,发现SPSS显示为显著差异的最小借阅量之差为3465册图书,占借阅总量的0.8%,意味着小于0.8%的借阅量差值不具有显著差异。这也间接证实了外部偶发因素未有显著影响的正确性。
  正态分布、聚类分析、卡方分析等均要求笔者能熟练使用SPSS或其他软件,要求甚高,不容易操作;读者外部特征分类效果略差,但易操作、易分析是其最显著的特点。因此,从好学易用角度来说,内在特征分析不宜大范围拓展使用。
  四、结论
  本文为读者群体研究提供了新的分群特征,即毕业去向优良度、借阅目的和借阅连续性,一种SPSS的R聚类的专业分类方式,一种新的聚类思路即萃取因素聚类。这些新思路既拓宽了读者群体分析的研究思路,又详细探究了读者借阅特征全景分群对比,对图书馆的图书推广和资源建设工作来说具有重要的参考价值。同时当然,本研究还有一定的局限性,希望能更加深刻地理解读者借阅图书的内在需求,力求更加精准地服务好学生,进一步推进以读者为中心、以读者需求为驱动的一体化服务。
  参考文献
  [1]杨皓珺. 基于数据挖掘的学校图书馆读者借阅行为研究[D].上海交通大学,2016.
  [2]孙娜,姬丹丹,吴婉红,郭磊.基于学生行为数据和借阅数据的图书借阅量分析[J].中国教育信息化,2018(11):73-77.
  [3]王睿,杨晋苏,彭聚霞.基于流通日志的高校学生图书借阅行为分析与对策研究[J].福建电脑,2018,34(10):12-14+11.
  [4]庄小峰,马凌云.近十年高校图书馆读者图书借阅偏好及变化研究——以上海师范大学为例[J].河北科技图苑, 2018,31(04):57-62.
  基金项目:本文系浙江省教育厅项目“基于大数据的纸质图书馆读者借阅行为偏好聚类分析”(编号:Y201942152)和浙江省图书馆学会项目“基于大数据分析的读者群借阅画像”(编号:Ztx2020B-10)的研究成果之一。
  (浙江农林大学  浙江  杭州  311300)
其他文献
摘要:工业4.0赋予高尔夫模拟系统新的功能。在线下高尔夫球场管理日益规范背景下,球手在模拟系统训练的频次显著增加,切实提高了实战成绩。为探明高尔夫模拟练习提升高尔夫球手实战成绩的机制,采用实验法、归纳法,发现高尔夫模拟练习提升高尔夫球手实战成绩的机制在于:⑴高尔夫模拟练习的智能系统能够促进球手挥杆技术的进步;⑵球手的挥杆技术能够丰富其实战的策略;⑶球手挥杆技术和实战策略能够为提高心理素质铺垫基础;
期刊
摘要:社会在不断的发展进步,专业技术人才的水平需要有不同的提升,以此保证企事业单位的竞争和持续发展,也让专业人才能够得到成长,为国家的发展奠定基础。其中继续教育培训是提升广大专业技术人员最为有效的方法,但是在培训过程中存在人员主动性差、培训忽视质量、专业性不足、内容老套的情况,影响培训的效果。对于此,在培训中要创新培训方法、发展学用结合、建立专业队伍、加强课程审核,以此提高专业技术人员继续教育培训
期刊
摘要:电视新闻记者作为新闻和群众之间的媒介,是新闻信息的即时接受者,也是新闻的传播者。在电视新闻的录制环节,记者的编辑意识直接关系到了所播报新闻的质量和电视节目的收视率。因此,新闻记者的编辑意识是电视节目质量的保证。  关键词:电视新闻记者;编辑意识;提升策略  伴随着新闻行业的飞速发展以及各种新兴媒介的兴起,人们在日常生活中能够接触到的新闻信息越来越多,人们对于新闻的关注度也越来越高,电视新闻也
期刊
摘要:由于我国当前在各个领域的技术发展过程中都在不断进行着各种技术变革,当然现在自动化加工设备制造领域的技术改革也如火如荼的的在进行着,通过不断加强利用自动化的技术优势,就可以使其自动化领域更加强大。本文主要分析体现我国自动化的四大优势及未来自动化产业发展的四大趋势等并进行理论探究,然后对各种自动化动力设备的性能优化设计方法应用进行理论探究,希望大家能通过此次活动理论上的探究,对自身动力机械行业自
期刊
摘要:依据后税费时代农村实际情况和村民自治的要求,原有的乡镇政府职能应调整转变到有利于科学发展观的贯彻落实,有利于调动各方积极性促进农村经济发展,有利于社会主义新农村的建设,承担着基层政权建设,发展农村经济、提供农村公共服务,加强社会管理和维护辖区社会稳定等方面的职能。在后税费时代乡镇政府应该具有三大职能:一是提供公共产品和公共服务;二是和谐社会目标下的新农村建设职能;三是民主财政建设职能。  关
期刊
摘要:针对蚕桑产业新常态,为了破解瓶颈实现突围,通过对丙麻乡部分养蚕大户的走访,与相关村、组干部探讨,总结经验,培育农村新的经济增长点,根据乡情提出发展建议。  关键词:蚕农;蚕桑产业;经济效益  一、基本情况  截止2020年,全乡桑园面积2594亩,其中新增桑园面积1634亩,蚕种发放2159张,收茧61710.1公斤,产值2527815.00元。  二、发展蚕桑产业的主要做法及成效  (一)
期刊
一、主题生发由来  生活中大大小小的洞洞随处可见,洞洞,是个很神奇的东西,首先人的身上就有许多洞。眼睛、鼻孔、嘴巴、耳朵、肚脐都是洞洞,有的洞看得见,有的洞看不见,有的洞可以玩。这些大大小小的“洞洞”令人目不暇接,十分有趣。刚好在一次户外活动中,孩子们在地上发现了一片树叶,他们讨论着:这片树叶上有洞洞,我来玩一玩。地上怎么也会有洞洞?这些洞洞是用来做什么的?孩子们对这个洞洞产生了浓厚的兴趣。看到孩
期刊
摘要:随着时代的进步和城市化进程的深入,土地资源也越来越稀缺。在这个时代的发展背景下,及时进行现代住区的建筑规划和设计是十分必要的。通过这项工作,我们可以进一步满足我国当前城镇化发展的需要,达到人口容积率的设定值,更好地满足当前人民生活的需求。切实提高社区整体环境质量,赋予社区强大的节能特性。  关鍵词:城镇化;小区建筑规划设计;现状;前景  引言  伴随着城镇化运作趋势的持续化运作,现代小区建筑
期刊
摘要:后税费时代乡镇政府困难的三大深层原因:一是地方政府只有执行权,没有决策权 ,不能考虑到地方特殊情况,二是现行财政体制的不完善,不透明、不彻底的分税制,乡镇财政缺乏制度保障,三是乡镇职能由服务性向自利性转变。  关键词:乡镇政府;财政困难;深层原因  1行政体制的原因:地方政府只有执行权,没有决策权  由于乡镇政府处于我国行政体系的末梢,各种任务都在乡镇一级完成。层层传递甚至加码的工作压力最终
期刊
摘要:随着信息时代的极速发展,催生了互联网、计算机等高新技术的自我更新,让媒体形式也随之发生了翻天覆地的幻化。旧有以电视、报纸、广播等媒介为主的大众新闻传播早已脱离当下主流,在媒体融合的大背景下,受众们接受新闻的传播方式也不会受到时空及技术的局限。尤其身处眼下的时代之中,全息媒体、VR、AR及人工智能等新兴概念激发受众接纳新的认知及对其的重视,其中VR技术与新闻的结合在业界备受关注。VR技术赋予新
期刊