图书管理中的数据挖掘系统设计研究

来源 :教育界·下旬 | 被引量 : 0次 | 上传用户:addfwegh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】本文探讨了如何在现有图书数据库管理系统基础上,利用数据挖掘技术和软件技术实现对图书馆各种历史数据的深度分析,以期发现图书、读者及管理者之间的某种联系或规律,为优化馆藏分布,提高图书利用率,提升服务效率等提供参考依据。
  【关键词】图书管理 数据库 数据挖掘
  一、引言
  依托数据库技术的现代图书管理体系已经成为当前图书管理的主流,数字化的信息采集与存储极大地提高了图书管理的效率,如何深度利用这些数字化信息为图书管理带来更高的效率及决策支撑成为近年来图书管理领域研究的热门,但是由于目前大部分图书馆已经拥有了自己的管理系统,而放弃现有系统进行改造需要投入大量的人力物力,并不可取。因此,本文旨在探讨一种利用现有图书管理系统的数据资源实现深度挖掘分析的可行方法,从而在较少投入的情况下实现对系统效率的提升。
  二、数据挖掘及其在图书管理中的应用
  数据挖掘(Data Mining,简称DM)就是从现有大量的数据中提取或者挖掘出人们不易发现的但却存在的有用知识和信息。对于图书管理系统来说,主要是通过大量的图书借阅数据,利用数据挖掘技术对这些数据进行深度分析,从中获取与图书利用率、特定类型读者借阅需求、图书管理效率等相关的信息,为优化馆藏分布、提高图书利用率、提升服务效率等提供参考依据。例如,在高校图书馆,通过借阅数据挖掘不同专业学生对不同类别图书的需求关系,在该需求关系的指导下为不同专业的学生推荐合适的图书,从而提高借阅效率;通过借阅数据挖掘各类图书在不同馆藏数量下的流通情况,从而确定合理馆藏数量,提高流通效率。通常的数据挖掘主要包括特征分析、关联分析、分类预测分析、聚类分析等技术途径。
  特征分析是数据挖掘最基本的分析,是通过分析获取数据库中某类数据的一般特征或者汇总。一般情况下,各种类别的基本数据可以通过数据库的查询来获取,然后通过一定的方法,如归纳技术,对这些数据进行泛化或者特征化,最后通过一定的方式将这些数据特征输出,如饼状图、柱状图、曲线、数据表等,形成直观的表现。
  关联分析就是寻找数据库中各数据项之间存在的关联规则。关联分析通过关联规则挖掘实现,关联规则一般定义为,对于需要分析的各种项集合,实际数据中一定存在某些事务集合,用事务集中同时包含两项或多项的概率来表示某关联规则的支持度,用包含某项的事务集中同时包含其他项的概率来表示置信度,若设定一定的支持度阈值和置信度阈值,则可判定两项或多项的关联规则。
  分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。在进行数据分类之前,首先需要建立一个模型,来描述一个数据类或者概念集,例如对于图书管理数据,可以用时间周期和借阅量来描述一个热门书籍的概念集,然后以借阅数据库作为训练数据集,通过查询分析获取该概念集的分类规则、判定树或者数学描述公式等分类判据,通过该分类判据可以判断某类书籍是否属于热门书籍。预测则是通过描述历史数据某种属性的变化曲线或者趋势,然后评估或者预测该属性的可能值或者区间,例如我们针对某类书籍的借阅历史数据,利用回归分析描述借阅量随时间的变化曲线,然后通过对回归曲线的拟合分析,可以预测未来某个时间段的借阅量。
  聚类分析就是将物理或抽象对象的组合分组成为由类似对象组成的多个类的过程。由聚类生成的类是一组数据对象的组合,同一类中的对象尽可能相似,而不同类中的对象尽可能相异。聚类不同于分类之处在于,聚类分析事先并不知道可能存在各类数据的特性,而分类分析需要提前确定各数据类的特性。例如在实际图书管理应用中,需要根据读者的阅览量来对读者分类,但是由于各个图书馆的总体借阅数据大相径庭,因此无法预先划定多少浏览量才属于活跃读者,何种为不活跃读者,因此可以对原始数据进行聚类分析,将读者聚类成三类,分别代表活跃、一般和不活跃读者。
  三、数据挖掘系统设计
  为实现在现有图书管理系统上的数据挖掘分析,需要设计相应的软件系统。软件系统需要解决数据采集、挖掘算法设计、挖掘结果分析和界面设计等问题,总体框架如图1所示。
  图1所示系统包含两个数据库,其中原始数据库为已有图书管理系统数据库,该数据库中存放着各种图书管理及借阅信息,是本系统分析必须使用的原始数据;分析汇总数据库是本系统所使用的数据库,该数据库存放着与原始数据库操作读取、挖掘分析计算、挖掘结果相关的各种数据。两个数据库互相独立,本系统所有操作均不改变原始数据库的结构及数据,需要存储的数据均存放于分析汇总数据库。
  考虑到不同的图书管理系统可能采取不同的数据库引擎,因此本系统专门设计了自发现数据读取、原始数据筛选与提取以及原始数据库语义解释三个单元模块来匹配不同的原始数据库引擎及结构。首次使用本系统时,用户首先需要确定原始数据库引擎及数据库名,然后将该信息输入数据库操作与显示单元,经原始数据筛选与提取设定条件后,由自发现数据读取单元读取原始数据库结构,该结构反馈回数据库操作与显示单元后,由用户将原始数据库结构进行语义解释,该解释可能包括原始数据库各表意义,表中个字段意义等,对应的解释数据存储至分析汇总数据库。在以后各挖掘分析算法需要提取原始数据库中的数据时,则通过原始数据库语义解释单元将上述结构解释数据翻译成原始数据库对应表及字段,从而实现本系统与原始数据库的数据无缝连接。
  完成本系统与原始数据库之间的无缝连接后,图书管理人员可以通过用户界面实现对两个数据库的操作显示、挖掘算法的选择及初始条件设定、挖掘结果显示等功能。
  数据库操作与显示单元对两个数据库进行各种常规操作,包括查询、修改、增添、显示等功能。
  挖掘算法选择不同的挖掘分析算法,选择好算法后会根据算法需求设定初始条件,如数据类别、时间周期、数据个数、挖掘条件等,然后根据这些条件从原始数据库中提取对应数据作为算法输入,经算法计算后输出至结果分析单元形成可供图书管理人员直接使用的数据、图表、文字等信息,这些信息一方面可以存储在分析汇总数据库,一方面可以通过结果显示单元显示到用户界面上。所有的挖掘算法均由计算机软件实现,如分析前的数据预处理的相关性分析、数据平滑处理等算法,用于特征分析的统计函数(均值、方差、标准差等),用于关联分析的Apriori算法,用于分类的判定树归纳分类、贝叶斯分类等算法,用于预测的回归及拟合等算法,用于聚类分析的K-Means等算法。只需为这些算法设定好输入条件,即可生成输入数据中隐藏的图书管理信息,为图书管理人员提供管理及决策参考。
  四、结束语
  目前数据挖掘技术在图书管理中的应用还处于起步阶段,本文也只是对数据挖掘的应用及挖掘系统的设计提出了一个总体思路,随着数字图书馆的发展、数据挖掘技术的不断完善、读者对个性化服务的需求增加以及图书管理人员对提高效率的需求,未来的数据挖掘技术必将对图书管理产生积极的影响。当然,要完成本系统,除了需要深入掌握各种数据挖掘算法及理论外,还需要熟练的数据库使用及软件开发经验,并经过大量的编程及调试才能实现所有功能,设计出更符合图书管理领域需求的数据挖掘系统,从而全面提高图书管理效率。
  【参考文献】
  [1]弗罗斯特(美国)等. 数据库设计与开发. 清华大学出版社,2007.
  [2]刘兹恒,徐建华. 长久珍等. 现代图书馆管理. 电子工业出版社,2010.
其他文献
22岁的英国剑桥学生哈珀毕业后正好面对全球爆发的金融危机,一时间,如潮一般的罢工者阻挡了他找工作的步伐,在应试了几家自己不看好的公司败北后,他索性与自己的同学莫伊斯做
期刊
目的:研究老年患者脐周皮下注射与上臂皮下注射的应用价值.方法:本次研究中的观察对象均为在本院接受治疗的皮下注射老年患者,共选取100例进行研究,上述患者均为本院2017年5
旨在通过测量海藻糖、葡萄糖、蔗糖、葡聚糖、纤维素酶以及纤维素酶分别与这些糖的混合物的红外光谱和差示扫描量热谱图,研究糖和纤维素酶分子间的相互作用,推测海藻糖对纤维
是中的名篇,它记述的是在秦始皇时代,李斯如何由一介布衣佐助秦王嬴政统一六国,巩固统治地位;在二世时又如何因畏祸贪权而协从于赵高,杀扶苏、立胡亥,助纣为虐,从而导致民变
《陶庵梦忆》和《西湖梦寻》以“梦”字相连,既写尽了浮生千重变,又道破了好梦成空.笔者认为相较理性审视而言,以心灵的关怀为切入点,并借助西方的精神分析理论,更易窥探出张
世界优秀冰球运动员共同的特点是均具有良好的专项力量素质。本文从专项力量素质的作用出发,分析冰球运动员专项力量训练方法的特点。
摘要:中国摄影艺术的发展不是一帆风顺的,在发展历程中有着近三十年的时间不断蜕变,才有了当代中国摄影的艺术的蓬勃发展,本文将从中国摄影艺术的发展路程出发,从审美角度探究中国当代摄影诉求的转变過程,从中探求中国当代摄影未来的发展的道路。  关键词:审美;当代摄影艺术;艺术诉求  一、摄影走进中国的历史  中国的摄影可以追溯到近代,由于清政府的无能,国门被迫打开,中国被迫卷入世界的文化潮流中,从那时开始
那是1992年我服务于洛杉矶市警察局的时候,一个深夜我奉无线电调度奔赴一个车祸现场.rn车祸发生在好莱坞101高速公路上,我赶到现场的时候已经有两三部警车到达,可救援车辆还
英语是初中生必修的第一门外语,对学生今后的英语学习十分重要,然而,初中生的英语学习背景各不相同,学生学习英语的程度水平良莠不齐,如何做到因材施教是当务之急.分层教学法