论文部分内容阅读
如今,数据采集和存储技术的发展使得许多数据库的数据量极其庞大,要从中分析有价值的信息、知识变得越来越困难,而这种分析需求却与同俱增。数据挖掘就是从海量数据中发现那些隐藏的、人们感兴趣的具有特定规律的信息,是一种发现知识、提取有用信息的过程,这些信息可以用来预测和决策。
高校图书馆与教师教学工作相辅相成的,在教书育人工作中起着不可估量的作用。同时,图书馆还可以帮助学生构建合理的知识结构,提高自学、使用信息和终身学习的能力。然而,国内数据挖掘应用于图书馆的研究,还大多是对图书馆读者行为和群体关系进行研究,没有真正运用到实际生活中。高校图书馆馆藏丰富,图书馆中数据量大,然而,数据库中的数据一直没有被充分利用,资源利用率低、信息开发不足。
本文使用SAS数据挖掘软件开展数据预处理和挖掘工作,在传统的高校图书馆管理系统中增加聚类算法和关联规则算法,实现读者群体划分的聚类,发现读者借阅信息之间的关联性。主要工作与成果有以下几点:
(1)总结目前国内高校图书馆管理现状,分析其存在的缺陷和不足,并简要分析数据挖掘技术运用到高校图书馆综合管理中的必要性。
(2)收集和整理图书馆中读者信息、借阅信息和馆藏信息等数据,确定数据挖掘目标,对数据进行清洗、空缺值填补和噪声数据剔除等预处理操作,根据需要将数据格式进行转换并导入到SAS和SQL Server2000中,为后续挖掘工作的开展准备数据。
(3)将SAS/EM模块作为本文数据挖掘的分析工具,建立聚类分析模型,实现读者群体聚类划分;建立关联规则分析模型,挖掘出读者借阅数据关联规则,为下一步实现图书推荐提供数据基础。
(4)在高校图书馆管理系统中增加数据挖掘功能,增加聚类分析和关联规则分析模块。聚类分析模块实现读者聚类和图书聚类,关联规则分析挖掘读者借阅图书的关联规则,实现图书推荐工作,从而提高图书馆的工作效率,改善图书馆的建设,为图书馆管理人员提高决策支持,帮助普通工作人员向信息专家转型。