数据挖掘技术在图书馆构建中的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:shuaigekk1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 随着数据库管理系统在图书馆中的应用,系统中积累的数据越来越多,如何选择并有效利用数据挖掘工具充分挖掘出积累数据中隐含的有价值的信息,为读者提供更加人性化的服务是图书馆管理人员面临的问题。就利用SQL Server2008这一数据库管理系统对学校图书馆中的数据进行挖掘做探讨。
  关键词: 数据挖掘;建模;SQL Server2008;朴素贝叶斯
  0 引言
  图书馆作为高校的一个重要组成部分,其管理方式的信息化亦是高校管理信息化的重要体现。图书馆图书借阅资料繁多,很多的数据需要管理。若采取手工方式对图书资料和图书借阅情况进行管理,由于资料繁多,手工处理的工作量大,整体管理效率低下,也不方便读者对图书资料的查阅。如今,虽然大多数的图书馆都采用了数据库管理系统,但是数据挖掘功能还没有被充分利用。SQL Server2008是一款非常重要数据库管理系统,其中的数据挖掘功能,可以挖掘出图书管理系统中大量有价值的信息,为管理者提供参考,为读者提供更加个性化的服务。
  1 数据挖掘的概念
  简单地说,数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。数据挖掘通过对查询内容进行模式的总结和内在规律的搜索,帮助管理者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。数据挖掘技术还能够用于信息管理、查询处理和过程控制等。它与传统的数据分析(查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
  2 数据挖掘的方法[1]
  数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法)等;机器学习方法中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法、粗糙集等。
  3 数据挖掘建模应用图书构建中
  3.1 挖掘工具的选择
  SQL Server2008中的数据挖掘组件是数据挖掘工具的典型代表,系统中引入了多个新的数据挖掘算法,与传统的数据挖掘工具相比,SQL Server2008数据挖掘功能具备很多优势,因为它与所有SQL Server产品实现了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008数据挖掘功能具有实用性、可伸缩性和可扩展性等特点,同时它包含简单而丰富的API。基于SQL Server2008有着非常实用的数据挖掘功能,所以选择完整表达出图书类别的信息作为数据挖掘的工具。[2]
  3.2 数据的收集及整理
  本学校采用计算机管理图书的时间还不长,系统功能还较简单,相关数据整理起来也相对比较杂:
  1)在服务器端导出Excel格式的图书信息表、借书记录表。因为系统功能比较简单,图书信息表格中只有类别编号,没有类别名称,不能完整表达出图书类别的信息,所以需要人工将数据导出来之后,进行数据汇总。
  2)启动SQL Server2008 Management Studio,在对象资源管理器中新建一个数据库“library”数据库,然后建立“lib”表,将数据填写在表中,如图1。ID:编号,yxzy:是否是医学专业,sjlx:书籍类型,js:借书情况,xj:是否续借,jdrs:接待人数。
  3.3 对library数据库进行数据挖掘,建立模型
  1)启动SQL Server Business Intelligence Development
  Studio,新建一个商业智能项目。
  2)新建数据源(DS),把library数据库添加进来。
  3)新建一个数据库数据源视图(DSV)。
  4)使用数据挖掘向导建立数据挖掘结构和挖掘模型。
  5)处理挖掘模型。
  6)使用挖掘模型进行分析、预测。
  3.4 对挖掘的信息进行分析汇总
  1)该表通过数据汇总之后,摘录了18条有代表性的记录,进行分析。按是否是医学专业类别分书籍,共为两类:是和否;借书情况分为三类:好、一般、差。是否续借,分为两类:是和否;接待人数分为三类:<100,100~200,>200。以100和200为基准的原则是按照各个系别的人数划分,有些医学专业的人数比较多,例如临床医学,有些则适中如解剖,有些则是非医学专业的人数比较少,如:计算机。
  2)采用Microsoft Naive Bayes数据挖掘技术继续分析。Naive Bayes是数据挖掘十大经典算法之一,在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)。本表分析则采用的是朴素贝叶斯,朴素贝叶斯分类器(Naive Bayes Classifier,后NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。Microsoft Naive Bayes算法对dbo.lib,得出如下结果,如图2和图3。
  图2和图3直接给图书馆管理人员提供了决策依据,为以后的工作提供了理论依据。比如根据图2依懒关系网络图,可以发现,书籍的是否续借直接和该书籍接待人数和是否借书的情况有关系。根据图3发现,接待人数多的则是医学专业的人比较多,而非医学专业的人则少,可能是因为这方面的图书太少,相关书目更新速度太慢,没有新的书籍,还有就是这些专业是学校新兴的学科,没有及时的购买书籍。但是非医学专业的书籍,如文学类的图书被借阅的次数最多,这也是让非医学专业接待人数在其中占一个大比例的原因,应该把该类图书置于易于存放的位置,以便为读者提供更人性化的服务等。同时也应该增加一些图书馆中,书籍的种类。
  4 结语
  图书馆管理引进数据库系统以后,节约了大量的人力、物力,提高了图书管理员的办事效率,使用数据挖掘技术可以挖掘出大量读者借阅记录中存在的隐含的信息,通过这些信息可以为管理者提供更直观的决策依据,采取更及时有效的措施,为读者提供更加人性化的服务。
  参考文献:
  [1](加)韩家炜、(加)坎伯(Kamber,M.),数据挖掘概念与技术[M].范明等译,北京:机械工业出版社,2001.
  [2]谢邦昌,数据挖掘基础与应用(SQL Server 2008)[M].北京:机械工业出版社,2011.10
其他文献
摘要: 数控技术是信息技术在机械制造中的实际应用,随着机械制造在目前市场竞争中日益激烈,数控技术在机械制造中得到广泛的应用。而这对于一个国家的机械制造行业而言,数控技术是衡量一个国家的工业水平的标准之一。主要是针对数控技术在机械领域中的重要作用以及如何有效运用进行研究,以期逐渐提高我国工业发展水平。  关键词: 机械制造;数控技术;有效运用  1 机械制造现状  机械制造就是机械产品从原材料的选材
以奥宗尼亚臭氧发生器为例,详细介绍臭氧发生器的结构及在第三水厂实际应用时的相关情况,并予以总结。
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
摘要: 煤矿生产过程中大量使用皮带输送机进行运输,在实际生产过程中为煤矿提高生产效率、降低成本发挥着重要作用。但是,由于特殊的工作原理和工作条件,皮带输送机运作过程中常发生故障,有时甚至引发严重事故。对皮带传输机故障原因、可能引发的事故以及事故处理方式进行分析和阐述,从生产管理和生产技术方面对预防和处理皮带输送机故障提供有效措施。  关键词: 皮带输送机;故障处理;对策  皮带输送机通过驱动轮的转
摘要: 主要介绍西门子PCS7 DCS系统在莱钢焦化厂苯加氢过程控制中的应用,通过对硬件结构、软件编程的阐述以及应用实例对焦化苯加氢自动控制系统进行初步了解。  关键词: 苯加氢;PCS7;过程控制  中图分类号:F426 文献标识码:A 文章编号:1671-7597(2012)0910135-01  0 引言  在现阶段焦化苯加工工艺中,苯加氢工艺属于先进工艺。其基本原理是通过焦化轻苯与氢气
锌指蛋白(ZFP)是一类通过结合锌离子折叠成手指结构域的蛋白,在植物逆境胁迫中起重要作用.ThZFP1需要结合一定的DNA序列来调控基因的表达,为了确定ThZFP1结合的元件序列,利用
摘要: 无线传感器网络(WSN)的应用越来越广,其安全问题备受关注。无线传感器网络面临着众多的安全威胁,而加之此类型的网络本身的特点,如电源能量有限、通信和计算能力有限、网络的大规模、网络的动态性强、高鲁棒性、以数据为中心分布协同计算等,使得传统的安全机制很难满足WSN的需求。故从保障网络安全的角度出发,且本着减少网络能耗、延长网络生命周期的初衷,从数据查询、数据集成、QoS(服务质量)、节点覆盖
现代计算机网络技术的发展迅速,给人带来很大便利的同时,也产生一些问题。其中黑客、病毒等问题尤为突出,网络安全显得尤为重要。广大网络科研工作者在网络安全方面做大量212作,
以企业人力资源管理系统中的招聘子系统为例,讲述如何把业务规则与程序独立开来,以适应企业业务规则的变化。全文分为了实例简述、业务规则、规则引擎和规则引擎的使用等几个部